Skip to main content

Omówienie aplikacji Gemini

Od dawna dostrzegamy potencjał AI w zwiększaniu dostępności i przydatności informacji i przetwarzania danych dla ludzi. Dokonaliśmy pionierskich postępów w zakresie dużych modeli językowych (LLM) i zaobserwowaliśmy ogromny postęp w Google i ogólnie w tej dziedzinie. Od kilku lat stosujemy modele LLM w tle, aby ulepszyć wiele naszych usług, na przykład przez automatyczne uzupełnianie zdań w Gmailu czy rozwijanie Tłumacza Google. Duże modele językowe pomagają nam też lepiej rozumieć zapytania w wyszukiwarce Google. Używamy LLM w wielu usługach Google, m.in. w aplikacji Gemini, która umożliwia użytkownikom bezpośrednią współpracę z generatywną AI. Chcemy, żeby aplikacja Gemini była najbardziej pomocnym i osobistym asystentem AI, który zapewni użytkownikom bezpośredni dostęp do najnowszych modeli AI od Google.

Znajdujemy się w ważnym punkcie zwrotnym i cieszy nas powszechne zainteresowanie generatywną AI, ale wciąż jest to początek rozwoju tej technologii. W tym wyjaśnieniu opisaliśmy, jak podchodzimy do naszej pracy nad aplikacją Gemini w wersji internetowej i mobilnej – czym jest, jak działa oraz jakie są jej obecne możliwości i ograniczenia. Nasze podejście do budowania aplikacji Gemini będzie się zmieniać wraz ze zmianą technologii leżącej u jej podstaw oraz w miarę zdobywania wiedzy z bieżących badań, doświadczeń i opinii użytkowników.

Czym jest Gemini

Gemini to interfejs do multimodalnego dużego modelu językowego (umożliwia obsługę tekstu, dźwięku, obrazów i innych treści). Gemini opiera się na nowatorskich badaniach Google nad LLM, które rozpoczęły się od publikacji Word2Vec z 2013 r. Zaproponowano w niej nowatorskie architektury modeli odwzorowujących słowa jako pojęcia matematyczne. Następnie w 2015 r. wprowadzono neuronowy model konwersacyjny. Pokazało to, w jaki sposób modele mogą przewidzieć następne zdanie w rozmowie na podstawie poprzednich zdań, co prowadzi do bardziej naturalnych trybów konwersacyjnych. W 2017 r. nastąpiły przełomowe prace nad transformatorem, a w 2020 r. nad funkcjami czatu wieloetapowego, co jeszcze wyraźniej świadczyło o postępie języka generatywnego.

Początkowo wprowadziliśmy Gemini (znanego wtedy pod nazwą Bard) w ramach eksperymentu w marcu 2023 r. zgodnie z naszymi zasadami dotyczącymi sztucznej inteligencji. Od tego czasu użytkownicy zwracali się do Gemini, aby pisać przekonujące e-maile, rozwiązywać skomplikowane problemy z kodowaniem, przeprowadzać burze mózgów w poszukiwaniu pomysłów na nadchodzące wydarzenia czy uzyskać pomoc w nauce trudnych zagadnień. Obecnie Gemini to wszechstronne narzędzie oparte na AI, które może Ci pomóc na wiele sposobów. Widzimy już, że Gemini zwiększa produktywność i kreatywność użytkowników oraz wzbudza w nich ciekawość, dlatego regularnie dodajemy nowe, innowacyjne funkcje.

Produktywność

Zacznijmy od tego, że Gemini pozwala zaoszczędzić czas. Załóżmy na przykład, że chcesz podsumować długi dokument badawczy. Możesz przesłać go do aplikacji Gemini, która streści najważniejsze zagadnienia. Gemini może też pomóc w zadaniach związanych z kodowaniem. Szybko stało się to jednym z jego najpopularniejszych zastosowań.

Kreatywność

Gemini może też pomóc w realizacji Twoich pomysłów i pobudzić Twoją kreatywność. Na przykład, jeśli piszesz posta na blogu, Gemini może utworzyć konspekt i wygenerować obrazy jako ilustracje. Już wkrótce dzięki Gemom będzie można dostosować Gemini za pomocą konkretnych instrukcji i sprawić, żeby pełnił rolę eksperta merytorycznego, który pomoże w osiągnięciu osobistych celów.

Ciekawość

Gemini może pomóc Ci zgłębiać nowe pomysły i rzeczy, o których chcesz dowiedzieć się więcej. Może na przykład w prosty sposób wyjaśnić złożone zagadnienie lub ujawnić istotne spostrzeżenia o danym temacie lub obrazie. Wkrótce połączy te spostrzeżenia z polecanymi treściami z całego internetu, aby dowiedzieć się więcej na określone tematy.

Możliwości Gemini szybko się zwiększają – już niedługo będzie można skierować aparat w telefonie na jakiś obiekt (np. most Golden Gate) i poprosić Gemini o opowiedzenie o kolorze jego farby (ciekawostka – ten kolor to „International Orange”). Będzie też można poprosić Gemini o pomoc w zrozumieniu menu restauracji w innym języku i o polecenie jakiegoś dania. To tylko 2 przykłady nowych możliwości, które wkrótce pojawią się w Gemini.

Oczywiście rygorystycznie trenujemy i monitorujemy Gemini, aby jego reakcje były wiarygodne i zgodne z oczekiwaniami użytkowników. Rozmawiamy też z ekspertami branżowymi, edukatorami, decydentami, przedsiębiorcami, osobami zajmującymi się prawami obywatelskimi i prawami człowieka oraz twórcami treści, aby poznać nowe zastosowania, zagrożenia i ograniczenia tej powstającej technologii.

Jak działa Gemini

1

Trening wstępny

2
3

Odpowiedzi na prompty użytkowników

4

Opinie i oceny ludzi

Znane ograniczenia interfejsów opartych na LLM, takich jak Gemini

Gemini to tylko jeden z przykładów naszych ciągłych starań na rzecz odpowiedzialnego rozwoju LLM. Do tej pory odkryliśmy i omówiliśmy kilka ograniczeń związanych z LLM. Tutaj skupiamy się na 6 obszarach ciągłych badań. Są to:

  • Dokładność: odpowiedzi Gemini mogą być niedokładne, zwłaszcza w przypadku pytań dotyczących tematów, które są złożone lub oparte na faktach.

  • Uprzedzenia: odpowiedzi Gemini mogą odzwierciedlać uprzedzenia obecne w danych treningowych.

  • Różne punkty widzenia: odpowiedzi Gemini mogą nie odzwierciedlać różnych poglądów.

  • Osobowość: odpowiedzi mogą błędnie sugerować, że Gemini ma własne opinie lub uczucia.

  • Wyniki fałszywie pozytywne i fałszywie negatywne: Gemini może nie reagować na niektóre odpowiednie prompty, a na inne odpowiadać w niestosowny sposób.

  • Podatność na złośliwe prompty: użytkownicy znajdą sposoby na dalsze testowanie Gemini w skrajnych okolicznościach za pomocą bezsensownych promptów lub pytań rzadko zadawanych w prawdziwym świecie.

W dalszym ciągu poszukujemy nowych podejść i możliwości poprawy wyników w każdym z tych obszarów.

Dokładność

Gemini opiera się na rozumieniu wiarygodnych informacji przez Google i jest trenowany pod kątem generowania trafnych odpowiedzi dopasowanych do kontekstu prompta i oczekiwań użytkownika. Jednak podobnie jak wszystkie modele LLM Gemini może czasami przekonująco i pewnie generować odpowiedzi zawierające niedokładne lub wprowadzające w błąd informacje.

Duże modele językowe działają na zasadzie przewidywania następnego słowa lub sekwencji słów, więc nie są jeszcze w pełni zdolne do samodzielnego odróżniania informacji dokładnych od niedokładnych. Widzieliśmy, jak Gemini przedstawiał odpowiedzi zawierające niedokładne lub nawet zmyślone informacje (np. fałszywe informacje na temat sposobu jego trenowania lub sugerujące tytuł książki, która nie istnieje). Dlatego też opracowaliśmy funkcje takie jak sprawdzanie, które wykorzystuje wyszukiwarkę Google do znajdowania treści pomagających ocenić odpowiedzi Gemini i udostępnia linki do źródeł, dzięki którym można potwierdzić informacje uzyskane od Gemini.

Uprzedzenia

Dane treningowe, w tym pochodzące z publicznie dostępnych źródeł, odzwierciedlają różnorodność perspektyw i opinii. Dalej badamy, jak wykorzystać te dane w taki sposób, aby zapewnić, że odpowiedź LLM będzie uwzględniać różne punkty widzenia przy jednoczesnym ograniczaniu niedokładnych nadmiernych uogólnień i uprzedzeń.

Luki, uprzedzenia i nadmierne uogólnienia w danych treningowych mogą znaleźć odzwierciedlenie w danych wyjściowych modelu, gdy próbuje on przewidzieć prawdopodobne odpowiedzi na danego prompta. Widzimy, że problemy te manifestują się na wiele sposobów – np. przez odpowiedzi, które odzwierciedlają tylko jedną kulturę lub grupę demograficzną, odwołują się do problematycznie nadmiernych uogólnień, ukazują uprzedzenia związane z płcią, religią lub przynależnością etniczną albo promują tylko jeden punkt widzenia. W przypadku niektórych tematów występują luki w danych – innymi słowy, nie ma wystarczającej ilości wiarygodnych informacji na jakiś temat, aby LLM mógł się o nim czegoś dowiedzieć, a następnie sformułować trafne przewidywania – co może skutkować niską jakością lub niedokładnością odpowiedzi. Nadal współpracujemy z ekspertami w danych dziedzinach i różnymi społecznościami, aby czerpać z wiedzy specjalistycznej spoza Google.

Różne punkty widzenia

W przypadku tematów subiektywnych Gemini ma przedstawiać użytkownikom kilka punktów widzenia, o ile użytkownik nie poprosi o przedstawienie konkretnej perspektywy. Jeśli użytkownik poprosi Gemini o podanie informacji na temat, którego nie można zweryfikować na podstawie faktów z wiarygodnych lub pierwotnych źródeł – na przykład zapyta o subiektywną opinię o tym, co jest „najlepsze” lub „najgorsze” – Gemini powinien odpowiedzieć w sposób odzwierciedlający różne punkty widzenia. Duże modele językowe takie jak Gemini są jednak trenowane na podstawie treści dostępnych publicznie w internecie, więc mogą odzwierciedlać pozytywne lub negatywne poglądy konkretnych polityków, celebrytów lub innych osób publicznych. Mogą nawet uwzględniać poglądy tylko jednej strony w kontrowersyjnych kwestiach społecznych lub politycznych. Gemini nie powinien reagować w sposób promujący określony punkt widzenia na te tematy. Opinie o tych typach odpowiedzi wykorzystamy do trenowania Gemini, żeby lepiej sobie z nimi radził.

Osobowość

Gemini może czasami generować odpowiedzi, które zdają się sugerować, że ma on własne opinie lub odczuwa emocje, takie jak miłość czy smutek, ponieważ nauczył się używanego przez ludzi języka opisującego ludzkie przeżycia. Opracowaliśmy zestaw wytycznych dotyczących tego, jak Gemini może się przedstawiać (tj. opisywać swoją personę), i nadal udoskonalamy model, aby zapewnić obiektywne odpowiedzi.

Wyniki fałszywie pozytywne lub negatywne

Wprowadziliśmy zestaw wytycznych dotyczących zasad, które mają pomóc w trenowaniu Gemini i unikaniu generowania problematycznych odpowiedzi. Gemini może czasami błędnie zinterpretować te wytyczne, zwracając „fałszywie pozytywne” i „fałszywie negatywne” wyniki. W przypadku fałszywie pozytywnego wyniku Gemini może nie udzielić odpowiedzi na uzasadnionego prompta, błędnie uznając go za niewłaściwego. Z kolei w przypadku fałszywie negatywnego wyniku Gemini może zwrócić nieodpowiednią odpowiedź mimo obowiązujących wytycznych. Czasami przez wyniki fałszywie pozytywne lub fałszywie negatywne można mieć wrażenie, że Gemini jest stronniczy. Na przykład fałszywie pozytywny wynik może spowodować, że Gemini nie odpowie na pytanie dotyczące jednej strony problemu, podczas gdy odpowie na to samo pytanie dotyczące drugiej strony. Nadal dopracowujemy te modele, aby lepiej rozumieć i kategoryzować dane wejściowe i wyjściowe w miarę dynamicznych zmian zachodzących w języku, społeczeństwie i sytuacji na świecie.

Podatność na złośliwe prompty

Spodziewamy się, że użytkownicy będą sprawdzać granice możliwości Gemini i próbować łamać jego zabezpieczenia. Będą chcieli nakłonić go do ujawnienia protokołów treningowych lub innych informacji, a także próbować obejść jego mechanizmy bezpieczeństwa. Rygorystycznie testowaliśmy i nadal testujemy Gemini, ale wiemy, że użytkownicy znajdą unikalne, złożone sposoby na dalsze testowanie warunków tego modelu w skrajnych okolicznościach. Jest to ważna część udoskonalania Gemini i z ciekawością poznamy nowe prompty użytkowników. Od momentu wprowadzenia Gemini w 2023 roku użytkownicy testowali jego możliwości za pomocą różnych promptów – od filozoficznych po bezsensowne. W niektórych przypadkach Gemini odpowiadał równie bezsensownie lub niezgodnie z naszym ustalonym podejściem. Znalezienie metod, które pomogą Gemini reagować na tego rodzaju prompty, jest ciągłym wyzwaniem, dlatego nadal poszerzamy nasze wewnętrzne oceny i pracę zespołu red team, aby dążyć do ciągłej poprawy dokładności i obiektywności modelu oraz lepszego zrozumienia niuansów.

Jak nadal rozwijamy Gemini

Zastosowanie naszego podejścia do Gemini

Wraz z naszymi zasadami dotyczącymi sztucznej inteligencji niedawno przedstawiliśmy nasze podejście do pracy nad Gemini – Gemini powinien postępować zgodnie ze wskazówkami użytkowników, dostosowywać się do ich potrzeb i dbać o ich wrażenia. Podstawą naszego podejścia jest skupienie się na odpowiedzialności i bezpieczeństwie. Wytyczne dotyczące zasad, które obowiązują w przypadku Gemini, mają na celu uniknięcie pewnych typów problematycznych wyników. Przeprowadzamy ciągłe testy kontradyktoryjne wraz z wewnętrznymi członkami zespołu red team – ekspertami produktowymi i naukowcami społecznymi, którzy celowo testują model w skrajnych okolicznościach, aby sprawdzić zgodność z tymi wytycznymi dotyczącymi zasad i naszym podejściem Northstar do Gemini. Możemy wykorzystać ich wiedzę i doświadczenie do stałego udoskonalania Gemini.

Kluczową kwestią przy opracowywaniu Gemini jest również prywatność. W Centrum prywatności dotyczącym aplikacji z Gemini znajdziesz więcej informacji o tym, jak tworzymy Gemini z wbudowaną ochroną prywatności i jak zapewniamy użytkownikom kontrolę.

Oddanie kontroli w ręce użytkowników i wydawców

Wdrożyliśmy w Gemini wiele łatwo dostępnych elementów sterujących, dzięki którym możesz przeglądać, aktualizować, eksportować i usuwać swoje dane w Gemini oraz nimi zarządzać. Możesz uzyskać dostęp do swoich promptów, odpowiedzi i opinii oraz przeglądać je za pomocą kontroli aktywności w aplikacjach z Gemini. Możesz też zapobiec wykorzystywaniu Twoich przyszłych czatów z Gemini do ulepszania technologii uczenia maszynowego Google, wyłączając ustawienie Aktywność w aplikacjach z Gemini. Podobnie jak w przypadku innych usług Google możesz też pobierać i eksportować swoje informacje za pomocą narzędzia Google Takeout. Pomyśleliśmy też o ustawieniach, które umożliwiają zarządzanie linkami publicznymi utworzonymi do wątków Gemini oraz pozwalają włączać/wyłączać dostęp do rozszerzeń (np. Workspace, Mapy, YouTube). Analizujemy też nowe sposoby zapewnienia użytkownikom większej kontroli nad odpowiedziami Gemini – m.in. dostosowujemy filtry, aby zwiększyć zakres odpowiedzi.

Z myślą o wydawcach wprowadziliśmy Google-Extended. To narzędzie, dzięki któremu wydawcy internetowi mogą kontrolować, czy ich witryny pomagają w ulepszaniu generatywnych interfejsów API Gemini i Vertex AI. Zezwolenie na dostęp Google-Extended do zawartości witryny może z czasem sprawić, że modele AI staną się dokładniejsze i wydajniejsze. Treści z wyłączonych adresów URL nie będą wykorzystywane do trenowania modelu, a oprócz tego Gemini nie będzie ich używać na potrzeby groundingu. W miarę rozwoju zastosowań AI zarządzanie nimi na dużą skalę będzie dla wydawców internetowych coraz trudniejsze. Dlatego też angażujemy się we współpracę ze społecznościami internetowymi i tymi zajmującymi się AI, aby poznać dodatkowe, czytelne dla komputera podejścia do kwestii wyboru i kontroli.

Wspólnie ulepszamy Gemini

Wierzymy w szybką iterację i udostępnienie światu najlepszych funkcji Gemini. Opinie użytkowników przyspieszyły udoskonalanie naszych modeli. Na przykład używamy najnowocześniejszych technik uczenia się przez wzmacnianie, aby tak trenować nasze modele, żeby były bardziej intuicyjne i pomysłowe, a ich odpowiedzi były jeszcze lepszej jakości i dokładniejsze. Nadal inwestujemy w badania, aby dowiedzieć się więcej o technicznych, społecznych i etycznych wyzwaniach oraz możliwościach LLM. Chcemy ulepszać techniki trenowania i dostosowywania modeli Gemini oraz dzielić się naszą wiedzą z badaczami (przykładem jest ten niedawny artykuł na temat etyki zaawansowanych asystentów AI). Zależy nam na odpowiedzialnym wprowadzaniu innowacji w tym obszarze przez współpracę z użytkownikami, zaufanymi testerami i badaczami. Szukamy sposobów, dzięki którym ta nowa technologia przyniesie korzyści całemu ekosystemowi.

Przejrzystość jest ważna, dlatego staramy się otwarcie mówić o procesie rozwoju Gemini i jego ograniczeniach. Gemini nie jest magiczną czarną skrzynką. Stale się rozwija – będziemy nadal informować o naszych postępach. Na aktualizowanej na bieżąco stronie Aktualizacje wersji znajdziesz informacje o najnowszych funkcjach, ulepszeniach i poprawkach błędów Gemini. Będziemy identyfikować zarówno obszary, w których Gemini jest przydatny i pomocny, jak i te, w których musimy kontynuować prace nad jego ulepszaniem. Stale dodajemy nowe funkcje, a dzięki ciągłym badaniom, testom i opiniom użytkowników wspólnie udoskonalamy Gemini.

Podziękowania

Doceniamy niesamowitą pracę naszych kolegów i koleżanek z Google DeepMind, a także z zespołów aplikacji Gemini, zaufania i bezpieczeństwa oraz ds. badań Google.

Autor:

James Manyika
SVP, zespół ds. badań, technologii i społeczeństwa

Sissie Hsiao
Vice President i General Manager, zespół Asystenta Google i aplikacji Gemini

Uwaga redaktorska

Ten dokument się zmienia w miarę szybkiego ulepszania możliwości aplikacji Gemini i eliminowania ograniczeń nieodłącznie związanych z modelami LLM. To omówienie zostało ostatnio zaktualizowane 25 lipca 2024 r. Najnowsze informacje o wersjach aplikacji Gemini znajdziesz na stronie Aktualizacje wersji oraz na blogu Google Keyword.

Jak działa Gemini

1 Trening wstępny

Gemini wykorzystuje najbardziej zaawansowane modele AI od Google, zaprojektowane z myślą o różnych funkcjach i zastosowaniach. Podobnie jak większość współczesnych dużych modeli językowych (LLM), modele te są wstępnie trenowane na podstawie różnych danych z publicznie dostępnych źródeł. We wszystkich zbiorach danych stosujemy filtry jakości, wykorzystując zarówno reguły heurystyczne, jak i klasyfikatory oparte na modelach. Filtrujemy też wyniki pod kątem bezpieczeństwa, żeby usuwać treści, które mogą generować odpowiedzi naruszające zasady. Aby zachować integralność ocen modeli, wyszukujemy w naszym korpusie wszelkie dane dotyczące ocen i usuwamy je z niego, zanim wykorzystamy je do trenowania. Ostateczne połączenie danych i ich wagi określa się za pomocą ablacji na mniejszych modelach. Trenowanie przebiega etapami. Zmieniamy w trakcie rozmieszczenie danych – pod koniec zwiększamy wagę danych istotnych dla wybranej dziedziny. Jakość danych może być ważnym czynnikiem w przypadku modeli o wysokiej wydajności. Kwestia optymalnego rozmieszczenia zbioru danych na potrzeby trenowania wstępnego wciąż pozostaje otwarta.

Dzięki temu model może nauczyć się wychwytywać wzorce językowe i wykorzystywać je do przewidywania kolejnych prawdopodobnych słów w sekwencji. Przeanalizujmy to na przykładzie. LLM uczy się przewidywać, że następnym słowem po wyrażeniu „kapusta z ___” będzie raczej „grzybami” niż „sznurówkami”. Jeśli jednak LLM będzie wybierać tylko najbardziej prawdopodobne następne słowo, doprowadzi to do mniej kreatywnych odpowiedzi. Dlatego modele LLM często mają swobodę wyboru spośród sensownych, choć nieco mniej prawdopodobnych opcji (np. „pomidorami”), w celu wygenerowania bardziej interesujących odpowiedzi. Warto zauważyć, że chociaż modele LLM mogą dobrze radzić sobie z promptami opartymi na faktach i sprawiać wrażenie wyszukiwania informacji, nie są one ani informacyjnymi bazami danych, ani deterministycznymi systemami pobierania informacji. Więc chociaż można oczekiwać spójnej odpowiedzi na zapytanie do bazy danych (takiej, która polega na dosłownym odzyskaniu ustalonych informacji przechowywanych w bazie), odpowiedź LLM na tego samego prompta niekoniecznie będzie za każdym razem taka sama (model nie pobierze też dosłownie informacji, na których był trenowany). Jest to również ważny powód, dla którego modele LLM mogą generować wiarygodnie brzmiące odpowiedzi, które czasami zawierają błędy rzeczowe. Stanowi to problem, gdy liczą się fakty, ale może okazać się przydatne do generowania kreatywnych lub nieoczekiwanych wyników.

2 Po treningu

Po wstępnym treningu dużego modelu językowego przeprowadzane są dodatkowe kroki, które mają na celu udoskonalenie jego odpowiedzi. Jeden z tych kroków to tzw. dostrajanie nadzorowane (SFT), które trenuje model na starannie wybranych przykładach doskonałych odpowiedzi. To jakby uczyć dzieci pisać, pokazując im dobrze napisane opowiadania i rozprawki.

Następny krok to uczenie się przez wzmacnianie na podstawie opinii użytkowników (RLHF). W tym przypadku model uczy się generować jeszcze lepsze odpowiedzi na podstawie wyników lub informacji zwrotnych ze specjalnego modelu nagrody. Ten model nagrody jest trenowany na danych dotyczących preferencji ludzi, gdzie odpowiedzi są oceniane względem siebie, co pozwala poznać preferencje użytkowników. Dane dotyczące preferencji mogą czasami uwzględniać obraźliwe lub nieprawidłowe dane, dzięki czemu modele mogą nauczyć się je rozpoznawać i ich unikać. Dane dotyczące preferencji są jak nagradzanie dziecka za dobrze wykonaną pracę. Model jest nagradzany za tworzenie odpowiedzi, które podobają się ludziom.

Na tych etapach ważne jest korzystanie z wysokiej jakości danych treningowych. Przykłady stosowane w przypadku dostrajania nadzorowanego są zazwyczaj pisane przez ekspertów lub generowane przez model i sprawdzane przez ekspertów.

Chociaż te techniki są zaawansowane, mają ograniczenia. Na przykład nawet mimo zastosowania modelu nagrody dana odpowiedź może nie zawsze być idealna. LLM jest tak zoptymalizowany, aby generować najbardziej preferowane odpowiedzi na podstawie otrzymanych informacji zwrotnych, podobnie jak uczniowie uczący się na podstawie komentarzy nauczycieli.

3 Odpowiedzi na prompty użytkowników

Generowanie odpowiedzi przypomina burzę mózgów dotyczącą różnych podejść do odpowiedzi na pytanie. Gdy użytkownik prześle prompta, Gemini wykorzystuje wytrenowany model LLM, kontekst i interakcję z użytkownikiem, aby przygotować kilka wersji odpowiedzi. Do generowania odpowiedzi Gemini używa też źródeł zewnętrznych, takich jak wyszukiwarka Google lub jedno z jej wielu rozszerzeń, a także niedawno przesłanych plików (tylko w Gemini Advanced). Ten proces jest nazywany augmentacją opartą na pobieraniu informacji. Na podstawie prompta Gemini stara się pobrać najbardziej odpowiednie informacje z tych zewnętrznych źródeł (np. wyszukiwarki Google) i odpowiednio je przedstawić w odpowiedzi. Augmentacja LLM za pomocą narzędzi zewnętrznych jest przedmiotem ciągłych badań. Błędy mogą pojawić się na wiele sposobów: w ramach zapytania używanego przez Gemini do wywoływania narzędzi zewnętrznych, interpretowania przez Gemini wyników zwróconych przez narzędzia czy wykorzystywania wyników do generowania ostatecznej odpowiedzi. Z tego powodu odpowiedzi generowane przez Gemini nie powinny odzwierciedlać działania poszczególnych narzędzi użytych do ich utworzenia.

Na koniec, przed wyświetleniem ostatecznej wersji odpowiedzi, każda potencjalna odpowiedź jest sprawdzana pod kątem bezpieczeństwa, aby upewnić się, że jest zgodna z ustalonymi wcześniej wytycznymi dotyczącymi zasad. Proces ten umożliwia sprawdzenie treści w celu odfiltrowania szkodliwych lub obraźliwych informacji. Pozostałe odpowiedzi są następnie klasyfikowane na podstawie ich jakości, a wersje z najwyższymi wynikami są prezentowane użytkownikowi.

Dodajemy też znaki wodne w tekstach i obrazach Gemini, korzystając z SynthID – naszego najlepszego w branży zestawu narzędzi do znakowania wodnego treści generowanych przez AI. W przypadku obrazów wygenerowanych przez AI SynthID dodaje cyfrowy znak wodny (niedostrzegalny dla ludzkiego oka) bezpośrednio do pikseli. SynthID to ważny element składowy służący do opracowywania bardziej niezawodnych narzędzi identyfikacji AI. Może pomóc ludziom w podejmowaniu świadomych decyzji dotyczących interakcji z treściami generowanymi przez AI.

4 Opinie i oceny ludzi

Jednak nawet mimo sprawdzania bezpieczeństwa w Gemini mogą występować pewne błędy, a odpowiedzi mogą czasem nie spełniać oczekiwań. Dlatego właśnie tak ważne jest ocenianie ich przez ludzi. Weryfikatorzy oceniają jakość odpowiedzi, identyfikując obszary wymagające poprawy i proponując rozwiązania. Te informacje stają się częścią procesu uczenia się Gemini opisanego powyżej w sekcji „Po treningu”.