Pregled aplikacije Gemini

Već dugo znamo da informacije i obrada podataka mogu biti mnogo pristupačniji i korisniji za korisnike zahvaljujući AI-ju. Predvodnici smo u razvoju velikih jezičnih modela (LLM-ova) te smo ostvarili velik napredak na svim Googleovim uslugama i općenito u tom području. LLM-ove smo više godina primjenjivali u pozadini da bismo poboljšali mnoge svoje proizvode, primjerice samodovršavanje rečenica na Gmailu, proširivanje mogućnosti Google prevoditelja, kao i bolje razumijevanje upita na Google pretraživanju. LLM-ove nastavljamo upotrebljavati za brojne Googleove usluge, a oni ujedno pokreću aplikaciju Gemini koja korisnicima omogućuje izravnu suradnju pomoću generativnog AI-ja. Cilj nam je da aplikacija Gemini bude najkorisniji i najosobniji AI asistent koji korisnicima pruža izravan pristup najnovijim Googleovim AI modelima.

Iako se nalazimo na važnoj prekretnici i raduje nas uzbuđenje javnosti u pogledu generativnog AI-ja, ova je tehnologija još u fazi ranog razvoja. Ovdje objašnjavamo kako pristupamo usavršavanju aplikacije Gemini (odnosno Geminija), uključujući doživljaj u mobilnoj i web-aplikaciji – što je Gemini, kako funkcionira i koje su njegove trenutačne mogućnosti i ograničenja. Naš pristup izgradnji Geminija razvijat će se u skladu s razvojem te osnovne tehnologije i saznanjima na temelju kontinuiranog istraživanja, doživljaja i povratnih informacija korisnika.

Što je Gemini

Gemini je sučelje multimodalnog LLM-a (koji obrađuje tekst, audiozapise, slike i drugo). Gemini se temelji na Googleovom naprednom istraživanju u području LLM-ova koje je započelo radom Word2Vec iz 2013., a u kojem su predložene nove arhitekture modela koje mapiraju riječi kao matematičke koncepte, nakon čega je 2015. uslijedilo uvođenje neuronskog konverzacijskog modela. Taj je okvir pokazao kako modeli u razgovoru mogu predvidjeti sljedeću rečenicu na temelju prethodne rečenice odnosno rečenica, što dovodi do prirodnijih konverzacijskih doživljaja. Zatim je uslijedio naš revolucionarni rad o Transformeru iz 2017. te o mogućnostima fluidnog razgovora iz 2020., što je pokazalo još veći napredak u pogledu generativnog jezika.

Gemini (koji se tada zvao Bard) inicijalno smo pokrenuli kao eksperiment u ožujku 2023. u skladu sa svojim načelima za AI. Korisnici se otada oslanjaju na Geminijevu pomoć pri pisanju zanimljivih e-poruka, otklanjanju složenih pogrešaka u vezi s pisanjem koda, razmatranju ideja za predstojeće događaje, učenju zahtjevnih koncepata i drugom. Gemini je danas svestran AI alat koji vam može pomoći na brojne načine. Gemini već pomaže korisnicima da budu produktivniji, kreativniji i znatiželjniji, a redovito mu dodajemo nove funkcije i inovacije.

Produktivnost

Za početak, Gemini vam može uštedjeti vrijeme. Na primjer, pretpostavimo da želite sažeti dugi istraživački dokument. Gemini vam omogućuje da ga prenesete i pruža vam korisnu sintezu. Gemini vam može pomoći i sa zadacima pisanja koda, što je od samih početaka jedna od njegovih najpopularnijih primjena.

Kreativnost

Gemini vam može pomoći i da svoje ideje pretočite u stvarnost te potaknuti vašu kreativnost. Na primjer, ako sastavljate post na blogu, Gemini može izraditi skicu i generirati slike za ilustriranje posta. Osim toga, uz Gemove ćete uskoro moći prilagoditi Gemini pomoću posebnih uputa te se osloniti na njegovu stručnu pomoć za određene teme kako biste ostvarili svoje osobne ciljeve.

Znatiželja

Gemini vam može poslužiti kao polazište za istraživanje ideja i stvari o kojima želite saznati više. Na primjer, može jednostavno objasniti složeni koncept ili prikazati relevantne uvide u vezi s nekom temom ili slikom. Osim toga, te će uvide uskoro uparivati s preporučenim sadržajem s weba kako biste saznali više o određenim temama.

Geminijeve sposobnosti brzo se razvijaju – uskoro ćete moći usmjeriti kameru telefona prema nekom objektu, primjerice mostu Golden Gate, i Geminiju postaviti pitanje o njegovoj boji (ako se pitate, riječ je o "međunarodno narančastoj"). Od Geminija ćete moći zatražiti i da vam pomogne pročitati jelovnik u restoranu na drugom jeziku te vam preporuči jelo po vašem ukusu. To su samo dva primjera novih sposobnosti koje uskoro dolaze na Gemini.

Naravno, rigorozno obučavamo i nadziremo Gemini kako bi njegovi odgovori bili pouzdani i usklađeni s vašim očekivanjima. Surađujemo i sa stručnjacima iz branše, edukatorima, donositeljima politika, poslovnim liderima, zagovarateljima građanskih i ljudskih prava te autorima sadržaja kako bismo istražili nove primjene, rizike i ograničenja ove nove tehnologije.

Kako funkcionira Gemini

Poznata ograničenja sučelja koja se temelje na LLM-ovima poput Geminija

Gemini je samo dio naših kontinuiranih nastojanja u odgovornom razvoju LLM-ova. U okviru tog razvoja otkrili smo i predstavili nekoliko ograničenja povezanih s LLM-ovima. Ovdje se usredotočujemo na šest područja koja nastavljamo istraživati:

Točnost: Geminijevi odgovori mogu biti netočni, posebice ako mu se postavi pitanje o složenim ili činjeničnim temama.
Pristranost: Geminijevi odgovori mogu odražavati pristranost sadržanu u podacima za obuku.
Više gledišta: Geminijevi odgovori možda neće održavati čitav raspon različitih gledišta.
Persona: Geminijevi odgovori mogu netočno upućivati na to da on ima vlastita mišljenja ili osjećaje.
Lažno pozitivni i negativni odgovori: Gemini možda neće odgovoriti na neke primjerene upite, dok u drugim slučajevima može pružiti neprimjerene odgovore.
Ranjivost na zlonamjerne upite: korisnici mogu pronaći načine da Geminijevu izvedbu testiraju upućivanjem besmislenih upita ili pitanja koja se rijetko postavljaju u stvarnom svijetu.

Nastavljamo istraživati nove pristupe i područja za poboljšanje izvedbe u svakom od tih aspekata.

Točnost

Gemini se temelji na Googleovom razumijevanju vjerodostojnih informacija i obučen je za generiranje odgovora koji su relevantni za kontekst vašeg upita te su u skladu s onim što želite saznati. No poput svih LLM-ova, Gemini ponekad može generirati uvjerljive odgovore koji se čine pouzdanima, ali sadrže netočne ili zavaravajuće informacije.

Since LLMs work by predicting the next word or sequences of words, they are not yet fully capable of distinguishing between accurate and inaccurate information on their own. We have seen Gemini present responses that contain or even invent inaccurate information (e.g., misrepresenting how it was trained or suggesting the name of a book that doesn’t exist).

Pristranost

Podaci za obuku, uključujući one iz javno dostupnih izvora, odražavaju raznolika gledišta i mišljenja. Nastavljamo istraživati kako te podatke upotrebljavati na način kojim se osigurava da LLM-ov odgovor uključuje širok raspon stajališta, a da se istodobno smanje pretjerane generalizacije i pristranosti.

Praznine, pristranosti i pretjerane generalizacije u podacima za obuku mogu se odraziti u rezultatima obrade modela dok pokušava predvidjeti vjerojatne odgovore na upit. Primjećujemo da se ti problemi očituju na brojne načine (npr. odgovori koji odražavaju samo jednu kulturu ili demografsku skupinu, koji se pozivaju na problematične generalizacije, koji su pristrani u pogledu spola, vjere ili etničke pripadnosti ili koji promiču samo jedno stajalište). Za neke teme postoje praznine u podacima, odnosno nema dovoljno pouzdanih informacija o određenoj temi da bi LLM naučio više o njoj i zatim pružio točna predviđanja, što može dovesti do nekvalitetnih ili netočnih odgovora. Nastavljamo surađivati sa stručnjacima iz pojedinih područja i raznolikim zajednicama kako bismo iskoristili stručna znanja kojima Google ne raspolaže.

Više gledišta

Kad je riječ o subjektivnim temama, Gemini je osmišljen da korisnicima pruži više gledišta ako korisnik ne zatraži određeno stajalište. Na primjer, ako postavite upit o nečemu što se ne može potvrditi na temelju činjenica iz primarnih ili vjerodostojnih izvora, recimo ako zatražite subjektivno mišljenje o tome što je "najbolje" ili "najgore", Gemini bi trebao odgovoriti na način koji odražava širok raspon gledišta. No budući da se LLM-ovi poput Geminija obučavaju na sadržaju koji je javno dostupan na internetu, oni mogu odražavati pozitivne ili negativne stavove o određenim političarima, slavnim osobama ili drugim javnim ličnostima ili čak uključivati jednostrana stajališta o kontroverznim društvenim ili političkim pitanjima. Gemini ne bi smio odgovarati tako da promiče određeno stajalište o tim temama, a povratne informacije o takvim odgovorima upotrebljavat ćemo za njegovu daljnju obuku.

Persona

Budući da je obučen na temelju jezika koji odražava ljudsko iskustvo, Gemini ponekad može generirati odgovore u kojima se čini da izražava mišljenja ili osjećaje, poput ljubavi ili tuge. Razvili smo skup smjernica o načinu na koji se Gemini može predstavljati (odnosno o njegovoj personi) i nastavljamo prilagođavati model radi pružanja objektivnih odgovora.

Lažno pozitivni i negativni odgovori

Implementirali smo skup smjernica za pravila kako bismo obučili Gemini i izbjegli generiranje problematičnih odgovora. Gemini ponekad može pogrešno protumačiti navedene smjernice te generirati lažno pozitivne i negativne odgovore. U lažno pozitivnom odgovoru Gemini može odbiti odgovoriti na razuman upit jer ga pogrešno tumači kao neprimjeren, a u lažno negativnom odgovoru Gemini može generirati neprimjeren sadržaj unatoč postojećim smjernicama. Ponekad se zbog pojavljivanja lažno pozitivnih ili negativnih odgovora može steći dojam da je Gemini pristran. Na primjer, lažno pozitivan odgovor može dovesti do toga da Gemini ne odgovori na pitanje o jednom aspektu problema, ali da odgovori na isto pitanje o drugom aspektu. Te modele nastavljamo prilagođavati da bi bolje razumjeli i kategorizirali unose i rezultate obrade u skladu s brzim razvojem jezika, događaja i društva.

Ranjivost na zlonamjerne upite

Očekujemo da će korisnici testirati granice Geminijevih mogućnosti i pokušati zaobići njegove zaštite, primjerice navesti ga da razotkrije svoje protokole obuke ili druge podatke, ili pokušati zaobići njegove sigurnosne mehanizme. Testirali smo i nastavljamo rigorozno testirati Gemini, no znamo da korisnici pronalaze jedinstvene, složene načine da ispitaju granice njegovih mogućnosti. To je važan dio usavršavanja Geminija i radujemo se novim upitima koje će korisnici osmisliti. Naime, od pokretanja Geminija 2023. korisnici ga testiraju postavljajući mu upite, od filozofskih do besmislenih, a Gemini im ponekad pruža odgovore koji su podjednako besmisleni ili neusklađeni s našim objavljenim pristupom. Neprestano tražimo načine kako Geminiju pomoći da odgovori na takve upite te i dalje proširujemo interne procjene i simulirana testiranja kako bismo poboljšali točnost, objektivnost i sposobnost razlikovanja nijansi.

Kako nastavljamo razvijati Gemini

Primjena načina na koji pristupamo razvoju Geminija

Osim naših načela za AI, nedavno smo objasnili kako pristupamo razvoju Geminija: Gemini treba slijediti vaše upute, prilagoditi se vašim potrebama i pružiti vam siguran doživljaj. Naš se pristup temelji na odgovornosti i sigurnosti. Geminijevim smjernicama za pravila nastoje se izbjeći određene vrste problematičnih rezultata. Neprestano testiramo moguće prijetnje s članovima internog crvenog tima – stručnjacima za proizvode i stručnjacima iz područja društvenih znanosti koji namjerno ispituju granice modela kako bi otkrili neusklađenosti s tim smjernicama za pravila i našim strateškim pristupom za Gemini – kako bismo mogli primijeniti njihova saznanja i kontinuirano poboljšavati Gemini.

Osim toga, privatnost je ključan čimbenik koji uzimamo u obzir pri razvoju Geminija. U centru za privatnost u Gemini aplikacijama možete pronaći više informacija o tome kako razvijamo Gemini uz integriranu privatnost i mogućnost da samostalno upravljate njegovom upotrebom.

Omogućivanje kontrola za korisnike i izdavače

U Geminiju smo osmislili različite korisničke kontrole kojima lako možete pristupiti kako biste pregledali, ažurirali, izvezli i izbrisali svoje podatke s Geminija te upravljali njima. Svojim upitima, odgovorima i povratnim informacijama za Gemini možete upravljati putem kontrole aktivnosti u Gemini aplikacijama. Osim toga, možete onemogućiti da se razgovori s Geminijem ubuduće upotrebljavaju za poboljšavanje Googleovih tehnologija strojnog učenja tako da isključite postavku spremanja aktivnosti u Gemini aplikacijama. Kao i na drugim Googleovim uslugama, svoje podatke možete preuzeti i izvesti putem Googleovog alata za arhiviranje. Imamo i kontrole koje vam omogućuju da upravljate javnim vezama koje ste izradili na Geminijeve niti, kao i kontrole koje vam omogućuju da uključite/isključite pristup za proširenja (npr. Workspace, Karte, YouTube). Istražujemo i nove načine da vam pružimo veću kontrolu nad Geminijevim odgovorima, uključujući prilagodbu filtara radi omogućivanja šireg raspona odgovora.

Za izdavače smo pokrenuli Google-Extended, kontrolu koja web-izdavačima omogućuje da upravljaju time hoće li se njihove web-lokacije upotrebljavati za poboljšanje Geminija i generativnih API-ja za Vertex AI. Omogućivanje da Google-Extended pristupa sadržaju web-lokacija pomaže AI modelima u poboljšanju točnosti i njihovih sposobnosti. Osim što se sadržaj s isključenih URL-ova neće upotrebljavati za obuku modela, Gemini taj sadržaj neće upotrebljavati ni kao izvor informacija prilikom generiranja odgovora. Kako se primjene AI-ja proširuju, web-izdavači se suočavaju sa sve složenijim upravljanjem različitim načinima upotrebe u velikim razmjerima, a mi u suradnji s web-zajednicama i AI zajednicama radimo na pronalaženju strojno čitljivijih pristupa izboru i kontroli.

Improving Gemini together

Vjerujemo u brza poboljšanja i svijetu želimo ponuditi najbolju verziju Geminija. Zahvaljujući povratnim informacijama korisnika brže poboljšavamo svoje modele. Na primjer, upotrebljavamo vrhunske tehnike podržanog učenja kako bismo modele obučili da budu intuitivniji i maštovitiji te da pružaju kvalitetnije i točnije odgovore. Nastavljamo ulagati u istraživanja kako bismo saznali više o tehničkim, društvenim i etičkim izazovima i mogućnostima LLM-ova. To činimo kako bismo poboljšali Geminijevu obuku modela i tehnike preciziranja odgovora, ali i kako bismo svoja saznanja podijelili s istraživačima, primjerice u nedavnom radu Ethics of Advanced AI Assistants (Etika naprednih AI asistenata). Predano radimo na odgovornom inoviranju u tom području te surađujemo s korisnicima, pouzdanim testerima i istraživačima kako bismo pronašli načine da cijeli ekosustav ima koristi od te nove tehnologije.

Transparentnost je važna, pa nastojimo otvoreno govoriti o procesu razvoja Geminija i njegovim ograničenjima. Gemini nije magična crna kutija, nego se neprestano razvija te ćemo nastaviti dijeliti novosti o svojem napretku. Pokrenuli smo stranicu Ažuriranja izdanja da biste mogli vidjeti najnovije Geminijeve značajke, poboljšanja i ispravke programskih pogrešaka te ćemo u skladu s tim ažurirati ovaj pregled. Razmotrit ćemo u kojim je područjima Gemini koristan, a što trebamo poboljšati. Aktivno dodajemo nove mogućnosti te se radujemo poboljšavanju Geminija na temelju kontinuiranog istraživanja, testiranja i povratnih informacija korisnika.

Zahvale

Zahvaljujemo i odajemo priznanje izvrsnom radu kolega u timovima za aplikaciju Gemini, Google DeepMind, povjerenje i sigurnost te Google istraživanje.

Autori

James Manyika
Viši potpredsjednik, Odjel za istraživanje, tehnologiju i društvo

Sissie Hsiao
Potpredsjednica i glavna direktorica, Google asistent i aplikacija Gemini

Napomena urednika

Ovaj dokument podliježe promjenama te ćemo ga povremeno ažurirati dok nastavljamo ubrzano poboljšavati mogućnosti aplikacije Gemini i rješavati ograničenja svojstvena LLM-ovima. Ovaj je pregled posljednji put ažuriran 25. srpnja 2024. Za najnovija ažuriranja aplikacije Gemini otvorite stranicu Ažuriranja izdanja ili pročitajte više na blogu Google Keyword.

3 Odgovori na upite korisnika

Generiranje odgovora slično je načinu na koji ljudski mozak razmatra različite pristupe pri odgovaranju na pitanje. Nakon što korisnik postavi upit, Gemini pomoću naknadno obučenog LLM-a, konteksta u upitu i interakcije s korisnikom sastavlja nekoliko verzija odgovora. Pri generiranju odgovora oslanja se i na vanjske izvore, kao što su Google pretraživanje i/ili jedno od njegovih nekoliko proširenja, te nedavno prenesene datoteke (samo Gemini Advanced). Taj je proces poznat kao prošireno dohvaćanje informacija. Kada Geminiju postavite upit, on nastoji dohvatiti najrelevantnije informacije iz vanjskih izvora (npr. Google pretraživanje) i točno ih predstaviti u odgovoru. Proširenje LLM-ova pomoću vanjskih alata dinamično je područje istraživanja. Pogreške se mogu uvesti na brojne načine, uključujući u upitu koji Gemini upotrebljava za pozivanje tih vanjskih alata, u Geminijevom tumačenju rezultata koje alati vrate te u postupku tijekom kojeg se ti vraćeni rezultati upotrebljavaju za generiranje konačnog odgovora. Zato odgovori koje generira Gemini nisu pouzdan pokazatelj izvedbe pojedinačnih alata koji se upotrebljavaju za generiranje konkretnog odgovora.

Na kraju, prije nego što se prikaže konačan odgovor, svaki potencijalni odgovor prolazi sigurnosnu provjeru kako bi se osiguralo da je u skladu s unaprijed utvrđenim smjernicama za pravila. Ta se dodatna provjera provodi radi filtriranja štetnih ili uvredljivih informacija. Preostali odgovori zatim se rangiraju na temelju kvalitete, a korisniku se prikazuje jedna ili više verzija s najboljom ocjenom.

Osim toga, Geminijevim rezultatima obrade teksta i slika dodajemo vodeni žig pomoću SynthID-ja, našeg najnaprednijeg digitalnog alata za dodavanje vodenog žiga sadržaju koji je generirao AI. Kad je riječ o generiranim slikama, SynthID dodaje digitalni vodeni žig (koji se ne može vidjeti ljudskim okom) izravno u piksele. SynthID važan je sastavni element za razvoj pouzdanijih alata za otkrivanje AI-ja, a korisnicima može pomoći u donošenju informiranih odluka o načinima interakcije sa sadržajem koji je generirao AI.

Pregled aplikacije Gemini

Što je Gemini

Produktivnost

Kreativnost

Znatiželja

Kako funkcionira Gemini

Predobuka

Naknadna obuka

Odgovori na upite korisnika

Povratne informacije i ljudska procjena

Poznata ograničenja sučelja koja se temelje na LLM-ovima poput Geminija

Točnost

Pristranost

Više gledišta

Persona

Lažno pozitivni i negativni odgovori

Ranjivost na zlonamjerne upite

Kako nastavljamo razvijati Gemini

Primjena načina na koji pristupamo razvoju Geminija

Omogućivanje kontrola za korisnike i izdavače

Improving Gemini together

Zahvale

Promijenite regiju i jezik

Europa i Afrika

Sjeverna i Južna Amerika

Azija i Pacifik

1 Predobuka

2 Naknadna obuka

3 Odgovori na upite korisnika

4 Povratne informacije i ljudska procjena