Omówienie aplikacji Gemini

Od dawna dostrzegamy potencjał AI w zwiększaniu dostępności i przydatności informacji i przetwarzania danych dla ludzi. Dokonaliśmy pionierskich postępów w zakresie dużych modeli językowych (LLM) i zaobserwowaliśmy ogromny postęp w Google i ogólnie w tej dziedzinie. Od kilku lat stosujemy modele LLM w tle, aby ulepszyć wiele naszych usług, na przykład przez automatyczne uzupełnianie zdań w Gmailu czy rozwijanie Tłumacza Google. Duże modele językowe pomagają nam też lepiej rozumieć zapytania w wyszukiwarce Google. Używamy LLM w wielu usługach Google, m.in. w aplikacji Gemini, która umożliwia użytkownikom bezpośrednią współpracę z generatywną AI. Chcemy, żeby aplikacja Gemini była najbardziej pomocnym i osobistym asystentem AI, który zapewni użytkownikom bezpośredni dostęp do najnowszych modeli AI od Google.

Znajdujemy się w ważnym punkcie zwrotnym i cieszy nas powszechne zainteresowanie generatywną AI, ale wciąż jest to początek rozwoju tej technologii. W tym wyjaśnieniu opisaliśmy, jak podchodzimy do naszej pracy nad aplikacją Gemini w wersji internetowej i mobilnej – czym jest, jak działa oraz jakie są jej obecne możliwości i ograniczenia. Nasze podejście do budowania aplikacji Gemini będzie się zmieniać wraz ze zmianą technologii leżącej u jej podstaw oraz w miarę zdobywania wiedzy z bieżących badań, doświadczeń i opinii użytkowników.

Czym jest Gemini

Gemini to interfejs do multimodalnego dużego modelu językowego (umożliwia obsługę tekstu, dźwięku, obrazów i innych treści). Gemini opiera się na nowatorskich badaniach Google nad LLM, które rozpoczęły się od publikacji Word2Vec z 2013 r. Zaproponowano w niej nowatorskie architektury modeli odwzorowujących słowa jako pojęcia matematyczne. Następnie w 2015 r. wprowadzono neuronowy model konwersacyjny. Pokazało to, w jaki sposób modele mogą przewidzieć następne zdanie w rozmowie na podstawie poprzednich zdań, co prowadzi do bardziej naturalnych trybów konwersacyjnych. W 2017 r. nastąpiły przełomowe prace nad transformatorem, a w 2020 r. nad funkcjami czatu wieloetapowego, co jeszcze wyraźniej świadczyło o postępie języka generatywnego.

Początkowo wprowadziliśmy Gemini (znanego wtedy pod nazwą Bard) w ramach eksperymentu w marcu 2023 r. zgodnie z naszymi zasadami dotyczącymi sztucznej inteligencji. Od tego czasu użytkownicy zwracali się do Gemini, aby pisać przekonujące e-maile, rozwiązywać skomplikowane problemy z kodowaniem, przeprowadzać burze mózgów w poszukiwaniu pomysłów na nadchodzące wydarzenia czy uzyskać pomoc w nauce trudnych zagadnień. Obecnie Gemini to wszechstronne narzędzie oparte na AI, które może Ci pomóc na wiele sposobów. Widzimy już, że Gemini zwiększa produktywność i kreatywność użytkowników oraz wzbudza w nich ciekawość, dlatego regularnie dodajemy nowe, innowacyjne funkcje.

Produktywność

Zacznijmy od tego, że Gemini pozwala zaoszczędzić czas. Załóżmy na przykład, że chcesz podsumować długi dokument badawczy. Możesz przesłać go do aplikacji Gemini, która streści najważniejsze zagadnienia. Gemini może też pomóc w zadaniach związanych z kodowaniem. Szybko stało się to jednym z jego najpopularniejszych zastosowań.

Kreatywność

Gemini może też pomóc w realizacji Twoich pomysłów i pobudzić Twoją kreatywność. Na przykład, jeśli piszesz posta na blogu, Gemini może utworzyć konspekt i wygenerować obrazy jako ilustracje. Już wkrótce dzięki Gemom będzie można dostosować Gemini za pomocą konkretnych instrukcji i sprawić, żeby pełnił rolę eksperta merytorycznego, który pomoże w osiągnięciu osobistych celów.

Ciekawość

Gemini może pomóc Ci zgłębiać nowe pomysły i rzeczy, o których chcesz dowiedzieć się więcej. Może na przykład w prosty sposób wyjaśnić złożone zagadnienie lub ujawnić istotne spostrzeżenia o danym temacie lub obrazie. Wkrótce połączy te spostrzeżenia z polecanymi treściami z całego internetu, aby dowiedzieć się więcej na określone tematy.

Możliwości Gemini szybko się zwiększają – już niedługo będzie można skierować aparat w telefonie na jakiś obiekt (np. most Golden Gate) i poprosić Gemini o opowiedzenie o kolorze jego farby (ciekawostka – ten kolor to „International Orange”). Będzie też można poprosić Gemini o pomoc w zrozumieniu menu restauracji w innym języku i o polecenie jakiegoś dania. To tylko 2 przykłady nowych możliwości, które wkrótce pojawią się w Gemini.

Oczywiście rygorystycznie trenujemy i monitorujemy Gemini, aby jego reakcje były wiarygodne i zgodne z oczekiwaniami użytkowników. Rozmawiamy też z ekspertami branżowymi, edukatorami, decydentami, przedsiębiorcami, osobami zajmującymi się prawami obywatelskimi i prawami człowieka oraz twórcami treści, aby poznać nowe zastosowania, zagrożenia i ograniczenia tej powstającej technologii.

Jak działa Gemini

Znane ograniczenia interfejsów opartych na LLM, takich jak Gemini

Gemini to tylko jeden z przykładów naszych ciągłych starań na rzecz odpowiedzialnego rozwoju LLM. Do tej pory odkryliśmy i omówiliśmy kilka ograniczeń związanych z LLM. Tutaj skupiamy się na 6 obszarach ciągłych badań. Są to:

Dokładność: odpowiedzi Gemini mogą być niedokładne, zwłaszcza w przypadku pytań dotyczących tematów, które są złożone lub oparte na faktach.
Uprzedzenia: odpowiedzi Gemini mogą odzwierciedlać uprzedzenia obecne w danych treningowych.
Różne punkty widzenia: odpowiedzi Gemini mogą nie odzwierciedlać różnych poglądów.
Osobowość: odpowiedzi mogą błędnie sugerować, że Gemini ma własne opinie lub uczucia.
Wyniki fałszywie pozytywne i fałszywie negatywne: Gemini może nie reagować na niektóre odpowiednie prompty, a na inne odpowiadać w niestosowny sposób.
Podatność na złośliwe prompty: użytkownicy znajdą sposoby na dalsze testowanie Gemini w skrajnych okolicznościach za pomocą bezsensownych promptów lub pytań rzadko zadawanych w prawdziwym świecie.

W dalszym ciągu poszukujemy nowych podejść i możliwości poprawy wyników w każdym z tych obszarów.

Dokładność

Gemini opiera się na rozumieniu wiarygodnych informacji przez Google i jest trenowany pod kątem generowania trafnych odpowiedzi dopasowanych do kontekstu prompta i oczekiwań użytkownika. Jednak podobnie jak wszystkie modele LLM Gemini może czasami przekonująco i pewnie generować odpowiedzi zawierające niedokładne lub wprowadzające w błąd informacje.

Duże modele językowe działają na zasadzie przewidywania następnego słowa lub sekwencji słów, więc nie są jeszcze w pełni zdolne do samodzielnego odróżniania informacji dokładnych od niedokładnych. Widzieliśmy, jak Gemini przedstawiał odpowiedzi zawierające niedokładne lub nawet zmyślone informacje (np. fałszywe informacje na temat sposobu jego trenowania lub sugerujące tytuł książki, która nie istnieje). Dlatego też opracowaliśmy funkcje takie jak sprawdzanie, które wykorzystuje wyszukiwarkę Google do znajdowania treści pomagających ocenić odpowiedzi Gemini i udostępnia linki do źródeł, dzięki którym można potwierdzić informacje uzyskane od Gemini.

Uprzedzenia

Dane treningowe, w tym pochodzące z publicznie dostępnych źródeł, odzwierciedlają różnorodność perspektyw i opinii. Dalej badamy, jak wykorzystać te dane w taki sposób, aby zapewnić, że odpowiedź LLM będzie uwzględniać różne punkty widzenia przy jednoczesnym ograniczaniu niedokładnych nadmiernych uogólnień i uprzedzeń.

Luki, uprzedzenia i nadmierne uogólnienia w danych treningowych mogą znaleźć odzwierciedlenie w danych wyjściowych modelu, gdy próbuje on przewidzieć prawdopodobne odpowiedzi na danego prompta. Widzimy, że problemy te manifestują się na wiele sposobów – np. przez odpowiedzi, które odzwierciedlają tylko jedną kulturę lub grupę demograficzną, odwołują się do problematycznie nadmiernych uogólnień, ukazują uprzedzenia związane z płcią, religią lub przynależnością etniczną albo promują tylko jeden punkt widzenia. W przypadku niektórych tematów występują luki w danych – innymi słowy, nie ma wystarczającej ilości wiarygodnych informacji na jakiś temat, aby LLM mógł się o nim czegoś dowiedzieć, a następnie sformułować trafne przewidywania – co może skutkować niską jakością lub niedokładnością odpowiedzi. Nadal współpracujemy z ekspertami w danych dziedzinach i różnymi społecznościami, aby czerpać z wiedzy specjalistycznej spoza Google.

Różne punkty widzenia

W przypadku tematów subiektywnych Gemini ma przedstawiać użytkownikom kilka punktów widzenia, o ile użytkownik nie poprosi o przedstawienie konkretnej perspektywy. Jeśli użytkownik poprosi Gemini o podanie informacji na temat, którego nie można zweryfikować na podstawie faktów z wiarygodnych lub pierwotnych źródeł – na przykład zapyta o subiektywną opinię o tym, co jest „najlepsze” lub „najgorsze” – Gemini powinien odpowiedzieć w sposób odzwierciedlający różne punkty widzenia. Duże modele językowe takie jak Gemini są jednak trenowane na podstawie treści dostępnych publicznie w internecie, więc mogą odzwierciedlać pozytywne lub negatywne poglądy konkretnych polityków, celebrytów lub innych osób publicznych. Mogą nawet uwzględniać poglądy tylko jednej strony w kontrowersyjnych kwestiach społecznych lub politycznych. Gemini nie powinien reagować w sposób promujący określony punkt widzenia na te tematy. Opinie o tych typach odpowiedzi wykorzystamy do trenowania Gemini, żeby lepiej sobie z nimi radził.

Osobowość

Gemini może czasami generować odpowiedzi, które zdają się sugerować, że ma on własne opinie lub odczuwa emocje, takie jak miłość czy smutek, ponieważ nauczył się używanego przez ludzi języka opisującego ludzkie przeżycia. Opracowaliśmy zestaw wytycznych dotyczących tego, jak Gemini może się przedstawiać (tj. opisywać swoją personę), i nadal udoskonalamy model, aby zapewnić obiektywne odpowiedzi.

Wyniki fałszywie pozytywne lub negatywne

Wprowadziliśmy zestaw wytycznych dotyczących zasad, które mają pomóc w trenowaniu Gemini i unikaniu generowania problematycznych odpowiedzi. Gemini może czasami błędnie zinterpretować te wytyczne, zwracając „fałszywie pozytywne” i „fałszywie negatywne” wyniki. W przypadku fałszywie pozytywnego wyniku Gemini może nie udzielić odpowiedzi na uzasadnionego prompta, błędnie uznając go za niewłaściwego. Z kolei w przypadku fałszywie negatywnego wyniku Gemini może zwrócić nieodpowiednią odpowiedź mimo obowiązujących wytycznych. Czasami przez wyniki fałszywie pozytywne lub fałszywie negatywne można mieć wrażenie, że Gemini jest stronniczy. Na przykład fałszywie pozytywny wynik może spowodować, że Gemini nie odpowie na pytanie dotyczące jednej strony problemu, podczas gdy odpowie na to samo pytanie dotyczące drugiej strony. Nadal dopracowujemy te modele, aby lepiej rozumieć i kategoryzować dane wejściowe i wyjściowe w miarę dynamicznych zmian zachodzących w języku, społeczeństwie i sytuacji na świecie.

Podatność na złośliwe prompty

Spodziewamy się, że użytkownicy będą sprawdzać granice możliwości Gemini i próbować łamać jego zabezpieczenia. Będą chcieli nakłonić go do ujawnienia protokołów treningowych lub innych informacji, a także próbować obejść jego mechanizmy bezpieczeństwa. Rygorystycznie testowaliśmy i nadal testujemy Gemini, ale wiemy, że użytkownicy znajdą unikalne, złożone sposoby na dalsze testowanie warunków tego modelu w skrajnych okolicznościach. Jest to ważna część udoskonalania Gemini i z ciekawością poznamy nowe prompty użytkowników. Od momentu wprowadzenia Gemini w 2023 roku użytkownicy testowali jego możliwości za pomocą różnych promptów – od filozoficznych po bezsensowne. W niektórych przypadkach Gemini odpowiadał równie bezsensownie lub niezgodnie z naszym ustalonym podejściem. Znalezienie metod, które pomogą Gemini reagować na tego rodzaju prompty, jest ciągłym wyzwaniem, dlatego nadal poszerzamy nasze wewnętrzne oceny i pracę zespołu red team, aby dążyć do ciągłej poprawy dokładności i obiektywności modelu oraz lepszego zrozumienia niuansów.

Jak nadal rozwijamy Gemini

Zastosowanie naszego podejścia do Gemini

Wraz z naszymi zasadami dotyczącymi sztucznej inteligencji niedawno przedstawiliśmy nasze podejście do pracy nad Gemini – Gemini powinien postępować zgodnie ze wskazówkami użytkowników, dostosowywać się do ich potrzeb i dbać o ich wrażenia. Podstawą naszego podejścia jest skupienie się na odpowiedzialności i bezpieczeństwie. Wytyczne dotyczące zasad, które obowiązują w przypadku Gemini, mają na celu uniknięcie pewnych typów problematycznych wyników. Przeprowadzamy ciągłe testy kontradyktoryjne wraz z wewnętrznymi członkami zespołu red team – ekspertami produktowymi i naukowcami społecznymi, którzy celowo testują model w skrajnych okolicznościach, aby sprawdzić zgodność z tymi wytycznymi dotyczącymi zasad i naszym podejściem Northstar do Gemini. Możemy wykorzystać ich wiedzę i doświadczenie do stałego udoskonalania Gemini.

Kluczową kwestią przy opracowywaniu Gemini jest również prywatność. W Centrum prywatności dotyczącym aplikacji z Gemini znajdziesz więcej informacji o tym, jak tworzymy Gemini z wbudowaną ochroną prywatności i jak zapewniamy użytkownikom kontrolę.

Oddanie kontroli w ręce użytkowników i wydawców

Wdrożyliśmy w Gemini wiele łatwo dostępnych elementów sterujących, dzięki którym możesz przeglądać, aktualizować, eksportować i usuwać swoje dane w Gemini oraz nimi zarządzać. Możesz uzyskać dostęp do swoich promptów, odpowiedzi i opinii oraz przeglądać je za pomocą kontroli aktywności w aplikacjach z Gemini. Możesz też zapobiec wykorzystywaniu Twoich przyszłych czatów z Gemini do ulepszania technologii uczenia maszynowego Google, wyłączając ustawienie Aktywność w aplikacjach z Gemini. Podobnie jak w przypadku innych usług Google możesz też pobierać i eksportować swoje informacje za pomocą narzędzia Google Takeout. Pomyśleliśmy też o ustawieniach, które umożliwiają zarządzanie linkami publicznymi utworzonymi do wątków Gemini oraz pozwalają włączać/wyłączać dostęp do rozszerzeń (np. Workspace, Mapy, YouTube). Analizujemy też nowe sposoby zapewnienia użytkownikom większej kontroli nad odpowiedziami Gemini – m.in. dostosowujemy filtry, aby zwiększyć zakres odpowiedzi.

Z myślą o wydawcach wprowadziliśmy Google-Extended. To narzędzie, dzięki któremu wydawcy internetowi mogą kontrolować, czy ich witryny pomagają w ulepszaniu generatywnych interfejsów API Gemini i Vertex AI. Zezwolenie na dostęp Google-Extended do zawartości witryny może z czasem sprawić, że modele AI staną się dokładniejsze i wydajniejsze. Treści z wyłączonych adresów URL nie będą wykorzystywane do trenowania modelu, a oprócz tego Gemini nie będzie ich używać na potrzeby groundingu. W miarę rozwoju zastosowań AI zarządzanie nimi na dużą skalę będzie dla wydawców internetowych coraz trudniejsze. Dlatego też angażujemy się we współpracę ze społecznościami internetowymi i tymi zajmującymi się AI, aby poznać dodatkowe, czytelne dla komputera podejścia do kwestii wyboru i kontroli.

Wspólnie ulepszamy Gemini

Wierzymy w szybką iterację i udostępnienie światu najlepszych funkcji Gemini. Opinie użytkowników przyspieszyły udoskonalanie naszych modeli. Na przykład używamy najnowocześniejszych technik uczenia się przez wzmacnianie, aby tak trenować nasze modele, żeby były bardziej intuicyjne i pomysłowe, a ich odpowiedzi były jeszcze lepszej jakości i dokładniejsze. Nadal inwestujemy w badania, aby dowiedzieć się więcej o technicznych, społecznych i etycznych wyzwaniach oraz możliwościach LLM. Chcemy ulepszać techniki trenowania i dostosowywania modeli Gemini oraz dzielić się naszą wiedzą z badaczami (przykładem jest ten niedawny artykuł na temat etyki zaawansowanych asystentów AI). Zależy nam na odpowiedzialnym wprowadzaniu innowacji w tym obszarze przez współpracę z użytkownikami, zaufanymi testerami i badaczami. Szukamy sposobów, dzięki którym ta nowa technologia przyniesie korzyści całemu ekosystemowi.

Przejrzystość jest ważna, dlatego staramy się otwarcie mówić o procesie rozwoju Gemini i jego ograniczeniach. Gemini nie jest magiczną czarną skrzynką. Stale się rozwija – będziemy nadal informować o naszych postępach. Na aktualizowanej na bieżąco stronie Aktualizacje wersji znajdziesz informacje o najnowszych funkcjach, ulepszeniach i poprawkach błędów Gemini. Będziemy identyfikować zarówno obszary, w których Gemini jest przydatny i pomocny, jak i te, w których musimy kontynuować prace nad jego ulepszaniem. Stale dodajemy nowe funkcje, a dzięki ciągłym badaniom, testom i opiniom użytkowników wspólnie udoskonalamy Gemini.

Podziękowania

Doceniamy niesamowitą pracę naszych kolegów i koleżanek z Google DeepMind, a także z zespołów aplikacji Gemini, zaufania i bezpieczeństwa oraz ds. badań Google.

Autor:

James Manyika
SVP, zespół ds. badań, technologii i społeczeństwa

Sissie Hsiao
Vice President i General Manager, zespół Asystenta Google i aplikacji Gemini

Uwaga redaktorska

Ten dokument się zmienia w miarę szybkiego ulepszania możliwości aplikacji Gemini i eliminowania ograniczeń nieodłącznie związanych z modelami LLM. To omówienie zostało ostatnio zaktualizowane 25 lipca 2024 r. Najnowsze informacje o wersjach aplikacji Gemini znajdziesz na stronie Aktualizacje wersji oraz na blogu Google Keyword.

3 Odpowiedzi na prompty użytkowników

Generowanie odpowiedzi przypomina burzę mózgów dotyczącą różnych podejść do odpowiedzi na pytanie. Gdy użytkownik prześle prompta, Gemini wykorzystuje wytrenowany model LLM, kontekst i interakcję z użytkownikiem, aby przygotować kilka wersji odpowiedzi. Do generowania odpowiedzi Gemini używa też źródeł zewnętrznych, takich jak wyszukiwarka Google lub jedno z jej wielu rozszerzeń, a także niedawno przesłanych plików (tylko w Gemini Advanced). Ten proces jest nazywany augmentacją opartą na pobieraniu informacji. Na podstawie prompta Gemini stara się pobrać najbardziej odpowiednie informacje z tych zewnętrznych źródeł (np. wyszukiwarki Google) i odpowiednio je przedstawić w odpowiedzi. Augmentacja LLM za pomocą narzędzi zewnętrznych jest przedmiotem ciągłych badań. Błędy mogą pojawić się na wiele sposobów: w ramach zapytania używanego przez Gemini do wywoływania narzędzi zewnętrznych, interpretowania przez Gemini wyników zwróconych przez narzędzia czy wykorzystywania wyników do generowania ostatecznej odpowiedzi. Z tego powodu odpowiedzi generowane przez Gemini nie powinny odzwierciedlać działania poszczególnych narzędzi użytych do ich utworzenia.

Na koniec, przed wyświetleniem ostatecznej wersji odpowiedzi, każda potencjalna odpowiedź jest sprawdzana pod kątem bezpieczeństwa, aby upewnić się, że jest zgodna z ustalonymi wcześniej wytycznymi dotyczącymi zasad. Proces ten umożliwia sprawdzenie treści w celu odfiltrowania szkodliwych lub obraźliwych informacji. Pozostałe odpowiedzi są następnie klasyfikowane na podstawie ich jakości, a wersje z najwyższymi wynikami są prezentowane użytkownikowi.

Dodajemy też znaki wodne w tekstach i obrazach Gemini, korzystając z SynthID – naszego najlepszego w branży zestawu narzędzi do znakowania wodnego treści generowanych przez AI. W przypadku obrazów wygenerowanych przez AI SynthID dodaje cyfrowy znak wodny (niedostrzegalny dla ludzkiego oka) bezpośrednio do pikseli. SynthID to ważny element składowy służący do opracowywania bardziej niezawodnych narzędzi identyfikacji AI. Może pomóc ludziom w podejmowaniu świadomych decyzji dotyczących interakcji z treściami generowanymi przez AI.

Omówienie aplikacji Gemini

Czym jest Gemini

Produktywność

Kreatywność

Ciekawość

Jak działa Gemini

Trening wstępny

Po treningu

Odpowiedzi na prompty użytkowników

Opinie i oceny ludzi

Znane ograniczenia interfejsów opartych na LLM, takich jak Gemini

Dokładność

Uprzedzenia

Różne punkty widzenia

Osobowość

Wyniki fałszywie pozytywne lub negatywne

Podatność na złośliwe prompty

Jak nadal rozwijamy Gemini

Zastosowanie naszego podejścia do Gemini

Oddanie kontroli w ręce użytkowników i wydawców

Wspólnie ulepszamy Gemini

Podziękowania

Zmień region i język

Europa & Afryka

Ameryka Północna i Południowa

Azja i Pacyfik

1 Trening wstępny

2 Po treningu

3 Odpowiedzi na prompty użytkowników

4 Opinie i oceny ludzi