Gemini rakenduse ülevaade

Oleme juba tükk aega teadnud, et AI võib muuta teabe ja andmetöötluse inimeste jaoks kättesaadavamaks ja kasulikumaks. Oleme teinud murrangulisi täiustusi suurtele keelemudelitele (LLM-id) ning näinud selles vallas suurt edasiminekut nii Google’is kui ka mujal. Juba mitu aastat oleme LLM-e taustal rakendanud, et täiustada paljusid oma tooteid. Näiteks võimaldavad need lausete automaatset lõpetamist Gmailis ja Google’i tõlke laiendamist ning aitavad Google’i otsingus päringuid paremini mõista. Jätkame LLM-ide kasutamist erinevates Google’i teenustes, sh selleks, et käitada Gemini rakendust, mis võimaldab inimestel generatiivse AI-ga vahetult koostööd teha. Soovime, et Gemini rakendus oleks kõige kasulikum ja isiklikum AI-assistent, mis annab kasutajatele otsese juurdepääsu Google’i uusimatele AI-mudelitele.

Kuigi oleme praegu olulises pöördepunktis ja meid innustab generatiivse AI-ga seotud põnevus, on see tehnoloogia alles lapsekingades. Siinses selgitavas artiklis kirjeldame, kuidas töötame Gemini rakendusega („Gemini“), sh selle mobiili- ja veebiversioonidega, ning mis see üldse on, kuidas see töötab ning millised on selle praegused võimalused ja probleemid. Meie töö Gemini kallal areneb koos selle aluseks oleva tehnoloogiaga ning teadmistega, mida ammutame käimasolevatest uuringutest, saadavatest kogemustest ja kasutajate tagasisidest.

Mis on Gemini?

Gemini on multimodaalse LLM-i liides (mis töötleb teksti, heli, pilte ja muud). Gemini põhineb Google’i tipptasemel uuringutel LLM-i vallas, mis algasid 2013. aastal Word2Veci artikliga, kus tutvustati uudseid mudeliarhitektuure, mis sidusid sõnu matemaatiliste kontseptsioonidena. Sellele järgnes närvivõrgupõhise vestlusmudeli kasutuselevõtt 2015. aastal. See raamistik näitas, kuidas mudelid suudavad ennustada vestluse järgmist lauset eelmise lause või eelmiste lausete põhjal ning tulemuseks on loomulikum vestluskogemus. Siis tuli läbimurre seoses Transformeriga 2017. aastal ja dialoogipõhiste vestlusvõimalustega 2020. aastal, mis näitasid generatiivse keele veelgi märkimisväärsemat arengut.

Andsime Gemini (esialgse nimega Bard) 2023. aasta märtsis välja katsefunktsioonina, lähtudes oma AI põhimõtetest. Alates sellest on kasutajad kirjutanud Gemini abil kaasahaaravaid meile, lahendanud nõudlikke kodeerimisprobleeme, korraldanud ajurünnakuid eelseisvateks sündmusteks, õppinud keerukaid mõisteid ja teinud veel väga palju muudki. Nüüdseks on Gemini mitmekülgne AI-tööriist, mis saab teid aidata õige mitmel moel. Juba näeme, kuidas Gemini aitab inimestel olla produktiivsemad, loomingulisemad ja uudishimulikumad. Samas lisame mudelitele korrapäraselt uuendusi ja uusi funktsioone.

Produktiivsus

Esiteks aitab Gemini teil aega säästa. Oletagem näiteks, et soovite teha kokkuvõtet pikast uuringudokumendist – Gemini võimaldab selle üles laadida ja koostab teile sellest kasuliku ülevaate. Gemini saab aidata ka kodeerimisülesannete lahendamisel ning kodeerimine ongi kiiresti saanud selle üheks populaarsemaks rakendusvaldkonnaks.

Loovus

Gemini saab aidata ideid ellu viia ja virgutada loovust. Kui kirjutate näiteks blogipostitust, saab Gemini luua selle liigenduse ja genereerida pildid, mis aitavad postitust illustreerida. Peagi saate Gemide abil kohandada Geminit konkreetsete juhistega ning panna selle tegutsema valdkonnaeksperdina, kes aitab teil isiklikke eesmärke saavutada.

Uudishimu

Gemini võib olla lähtepunkt, mis aitab teil uurida paeluvaid ideid ja avastada asju, mille kohta soovite rohkem teada saada. Näiteks võib see lihtsal viisil selgitada keerukat kontseptsiooni ja kuvada asjakohase teabe mingi teema või pildi kohta. Varsti lisab see ka soovitatava veebisisu, mis võimaldab konkreetse teema kohta rohkem teada saada.

Gemini võimalused laienevad kiiresti – peatselt saate suunata oma telefoni kaamera mõnele objektile, näiteks Golden Gate’i sillale, ja paluda, et Gemini ütleks teile, mis on selle värvi nimi (kui teid huvitab, siis see on „International Orange“). Samuti saate paluda, et Gemini aitaks teil tutvuda mõne võõrkeelse restoranimenüüga ja soovitada roogi, mis teile võiks meeldida. Need on vaid kaks näidet uutest võimalustest, mis Geminisse lähiajal lisatakse.

Loomulikult treenime ja jälgime Geminit põhjalikult, et selle vastused oleksid usaldusväärsed ja vastaksid teie ootustele. Samuti suhtleme valdkonnaekspertide, õpetajate, eeskirjade koostajate, ettevõttejuhtide, kodaniku- ja inimõiguste eest seisjate ning sisuloojatega, et uurida selle areneva tehnoloogia uusi rakendusvõimalusi, riske ja probleeme.

Gemini tööpõhimõtted

LLM-il põhinevate liideste (nt Gemini) teadaolevad probleemid

Gemini on vaid üks osa meie jätkuvatest LLM-ide vastutustundliku arendamise jõupingutustest. Kogu selle töö käigus oleme tuvastanud ja käsitlenud mitmesugused LLM-idega seotud probleeme. Uurime edasi kuut valdkonda.

Täpsus: Gemini vastused võivad olla ebatäpsed, eriti kui sellele esitatakse küsimusi keerukate või faktipõhiste teemade kohta.
Kallutatus: Gemini vastused võivad kajastada selle treeningandmetes sisalduvaid eelarvamusi.
Eri seisukohad: Gemini vastused ei pruugi näidata erinevaid seisukohti.
Isiksus: Gemini vastused võivad jätta vale mulje, nagu sellel oleks isiklik arvamus või tunded.
Valepositiivsed ja valenegatiivsed tulemid: Gemini ei pruugi mõnele kohasele päringule vastata ja võib pakkuda teistele sobimatuid vastuseid.
Haavatavus vastandlike päringute suhtes: kasutajad leiavad võimalusi Gemini vastupidavuse testimiseks absurdsete päringutega või küsimustega, mida pärismaailmas harva esitatakse.

Uurime jätkuvalt uusi võimalusi ja viise, mis aitaks neis valdkondades tulemusi parandada.

Täpsus

Gemini põhineb Google’i arusaamal autoriteetsest teabest ja on treenitud genereerima vastuseid, mis on teie päringu konteksti arvestades asjakohaseid ning kooskõlas teie otsitavaga. Aga nagu kõik LLM-id, võib Gemini mõnikord enesekindlalt ja veenvalt genereerida vastuseid, mis sisaldavad ebatäpset või eksitavat teavet.

Kuna LLM-ide tööpõhimõte on ennustada järgmist sõna või sõnade järjestust, pole need veel täielikult võimelised ise eristama täpset ja ebatäpset teavet. Oleme näinud, et Gemini annab vastuseid, mis sisaldavad väärteavet, või isegi leiutab uut teavet (nt esitades valeandmeid selle kohta, kuidas seda treeniti, või soovitades olematu pealkirjaga raamatut). Selle probleemi lahendamiseks oleme loonud ülekontrollimise funktsiooni, mis kasutab Google’i otsingut, et leida sisu, mis aitab teil hinnata Gemini vastuseid, ning annab teile lingid allikate juurde, mis võimaldavad veenduda Geminilt saadud teabe õigsuses.

Kallutatus

Treeningandmed (sh avalikult saadaolevatest allikatest) kajastavad seisukohtade ja arvamuste paljusust. Uurime jätkuvalt, kuidas kasutada neid andmeid nii, et LLM-i vastus hõlmaks hulka erinevaid seisukohti ega sisaldaks ebatäpseid liigüldistusi ja eelarvamusi.

Puudujäägid, kallutatus ja liigsed üldistused treeningandmetes võivad kajastuda mudeli väljundites, kui see proovib ennustada päringule tõenäoliseid vastuseid. Me näeme neid probleeme ilmnemas mitmesugustel viisidel (nt vastused, mis kajastavad ainult ühte kultuuri või demograafilist sihtrühma, viitavad problemaatilistele liigüldistustele, väljendavad soolisi, usulisi või etnilisi eelarvamusi või propageerivad ainult üht vaatenurka). Teatud teemadel on andmetes puudujäägid ehk teisisõnu antud teema kohta pole piisavalt usaldusväärset teavet, et LLM saaks sellest õppida ja hästi ennustada. See võib kaasa tuua kehva kvaliteediga või ebatäpseid vastuseid. Jätkame koostööd valdkonnaspetsialistide ja erinevate kogukondadega, et hankida põhjalikke ekspertteadmisi väljastpoolt Google’it.

Eri seisukohad

Subjektiivsete teemade puhul on Gemini loodud väljendama kasutajatele mitut vaatenurka, kui kasutaja ei küsi just konkreetset seisukohta. Kui Geminile esitatakse näiteks päring sellise teabe kohta, mida ei saa vahetute faktide või autoriteetsete allikate alusel kinnitada (nt subjektiivne arvamus sellest, mis on „parim“ või „halvim“), peaks ta vastama viisil, mis kajastab laia valikut seisukohti. Aga kuna LLM-e (nagu Gemini) treenitakse Internetis avalikult kättesaadava sisu alusel, võivad need kajastada teatud poliitikute, kuulsuste või muude avaliku elu tegelaste positiivseid või negatiivseid vaateid või sisaldada vastuoluliste sotsiaalsete või poliitiliste probleemide puhul vaid ühte vaatenurka. Gemini ei tohiks vastata viisil, mis toetab niisuguste teemade puhul ainult ühte seisukohta, ja me kasutame seda tüüpi vastuste kohta antud tagasisidet, et treenida Geminit paremini reageerima.

Isiksus

Gemini võib aeg-ajalt genereerida vastuseid, mille puhul tundub, et see väljendab oma arvamust või emotsioone (nt armastust või kurbust), kuna Geminit on treenitud sõnastusega, mida inimesed kasutavad inimkogemuse kajastamisel. Oleme välja töötanud mitmesugused juhised selle kohta, kuidas võib Gemini end (s.t oma rolli) väljendada, ja jätkame mudeli viimistlemist, et pakkuda objektiivseid vastuseid.

Valepositiivsed/-negatiivsed tulemid

Oleme kehtestanud eeskirjajuhised, mis aitavad Geminit treenida ja vältida probleemsete vastuste genereerimist. Gemini võib neid juhiseid mõnikord valesti tõlgendada, luues valepositiivseid ja valenegatiivseid tulemeid. Valepositiivse tulemi korral ei pruugi Gemini anda mõistlikule päringule vastust, tõlgendades päringut vääralt kui sobimatut. Valenegatiivse tulemi puhul võib Gemini genereerida juhistele vaatamata sobimatu vastuse. Mõnikord võib valepositiivsete või valenegatiivsete tulemite ilmnemine jätta mulje, et Gemini on kallutatud. Näiteks valepositiivse tulemi korral võib Gemini jätta vastamata küsimusele probleemi ühe aspekti kohta, aga anda vastuse samale küsimusele probleemi teise aspekti kohta. Ajal, mil keel, sündmused ja ühiskond kiiresti arenevad, jätkame mudelite viimistlemist, et need sisendeid ja väljundeid paremini mõistaks ja kategoriseeriks.

Haavatavus vastandlike päringute suhtes

Me eeldame, et kasutajad testivad Gemini võimete piire ja proovivad selle kaitsemeetmeid murda, sh püüavad meelitada seda avaldama oma treenimisprotokolle või muud teavet või pääseda mööda selle ohutusmehhanismidest. Oleme Geminit põhjalikult testinud ja testime jätkuvalt, aga me teame, et kasutajad leiavad unikaalseid ja keerukaid viise, kuidas selle vastupidavust veelgi karmimalt proovile panna. See on Gemini viimistlemise oluline osa ja meie soov on õppida uutest, kasutajate väljamõeldud päringutest. Alates Gemini turule laskmisest 2023. aastal oleme näinud, et kasutajad panevad selle proovile päringutega, mis ulatuvad filosoofilistest absurdseteni, ja mõnel juhul oleme näinud, kuidas Gemini vastused on samavõrd absurdsed või vastuolus meie põhimõtetega. Tegeleme pidevalt sellega, et selgitada välja meetodeid, kuidas aidata Geminil vastata sedalaadi päringutele, ning laiendame kogu aeg oma sisehindamisi ja punase tiimi tegevust, et täpsust, objektiivsust ja nüansirikkust aina parandada.

Kuidas me jätkame Gemini arendamist?

Meie Gemini põhimõtete rakendamine

Koos AI põhimõtetega sõnastasime hiljuti ka oma Gemini-alase töö põhimõtted: Gemini peab järgima teie juhiseid, kohanduma teie vajadustega ja pakkuma turvalist kasutuskogemust. Meie põhimõtete keskmes on vastutustundlikkus ja ohutus. Gemini eeskirjajuhiste eesmärk on vältida teatud tüüpi problemaatilisi väljundeid. Tegeleme pideva rünnakute testimisega üheskoos ettevõttesisese nn punase tiimi liikmetega – tooteekspertide ja sotsiaalteadlastega, kes panevad mudeli vastupidavuse tahtlikult proovile, et otsida sellest vastuolusid nende eeskirjajuhistega ning meie Gemini sirgjooneliste põhimõtetega –, et saaksime nende ammutatud teadmised ellu rakendada ning Geminit pidevalt täiustada.

Ka privaatsus on Gemini arendamise juures üks olulisi kaalutlusi. Gemini rakenduste privaatsusjaotis sisaldab lisateavet selle kohta, kuidas me arendame Geminit nii, et privaatsus oleks sellesse lõimitud ja et kontroll jääks teile.

Kasutajate ja väljaandjate juhtelemendid

Oleme välja töötanud mitmesugused hõlpsasti juurdepääsetavad juhtelemendid Gemini kasutajatele, mille abil saate oma Gemini andmeid üle vaadata, värskendada, eksportida ja kustutada. Saate oma Gemini päringutele, vastustele ja tagasisidele juurde pääseda ning neid üle vaadata Gemini rakenduste tegevuse halduse kaudu. Lisaks saate vältida seda, et teie tulevasi Gemini vestlusi kasutatakse Google’i masinõppetehnoloogiate täiustamiseks – selleks lülitage oma Gemini rakenduste tegevuse seade välja. Sarnaselt teiste Google’i teenustega saate oma teabe alla laadida ja eksportida ka Google’i tööriistaga Takeout. Samuti on olemas juhtelemendid, mis võimaldavad hallata avalikke linke, mille olete loonud oma Gemini lõimede juurde, ning lülitada sisse või välja juurdepääsu laiendustele (nt Workspace, Maps, YouTube). Lisaks uurime uusi viise, kuidas anda teile suurem kontroll Gemini vastuste üle, sh korrigeerida filtreid, et võimaldada laiem valik vastuseid.

Väljaandjate jaoks oleme loonud juhtelemendi Google-Extended, mille abil veebisisu väljaandjad saavad hallata seda, kas nende saidid aitavad Geminit ja Vertex AI generatiivseid API-sid täiustada. Lubades tööriistal Google-Extended pääseda juurde saitide sisule, saate aidata AI-mudelitel muutuda aja jooksul täpsemaks ja võimekamaks. Lisaks sellele, et loobutud URL-idelt pärit sisu ei kasutata mudeli treenimiseks, ei kasuta Gemini seda sisu ka maanduseks. Ajal, mil AI rakendusvõimalused laienevad, muutub selle erinevate kasutusviiside suuremahuline haldamine veebisisu väljaandjate jaoks järjest keerukamaks ning meie eesmärk on kaasata nii veebi- kui ka AI-kogukondi mitmesuguste masinloetavate valiku- ja kontrolliviiside uurimisse.

Improving Gemini together

Meie usume kiiresse itereerimisse ja soovime pakkuda maailmale parimat Geminit. Kasutajate tagasiside on kiirendanud meie mudelite täiustamist. Näiteks kasutame tipptasemel stiimulõppevõtteid, et treenida oma mudeleid olema intuitiivsemad ja loomingulisemad ning vastama kvaliteetsemalt ja täpsemalt. Jätkame uurimist, et saada rohkem teavet LLM-ide tehniliste, sotsiaalsete ja eetiliste kitsaskohtade ja võimaluste kohta, nii selleks, et täiustada Gemini mudelite treenimise ja häälestamise meetodeid kui ka selleks, et jagada oma saadud teadmisi teadlastega, nagu hiljutises artiklis Ethics of Advanced AI Assistants. Meie eesmärk on tagada selles valdkonnas vastutustundlik innovatsioon, tehes koostööd kasutajate, usaldusväärsete testijate ja teadlastega, et leida võimalusi kogu ökosüsteemis kõnealusest uuest tehnoloogiast kasu lõikamiseks.

Oluline on läbipaistvus ja meie eesmärk on olla Gemini arendusprotsessi ja probleemide suhtes avatud. Gemini ei ole mustkunst – see areneb pidevalt ja me jätkame oma edusammude jagamist. Oleme loonud väljalaskemärkmete lehe, kus näete Gemini uusimaid funktsioone, täiustusi ja veaparandusi ning me uuendame seda ülevaadet vastavalt vajadusele. Me teeme kindlaks nii valdkonnad, kus Gemini on kasulik ja abiks, kui ka kohad, kus peame jätkama itereerimist ja võimaluste täiustamist. Lisame aktiivselt uusi võimalusi ning pideva uurimistöö, testimise ja kasutajate tagasiside kaudu loodame Geminit üheskoos järjest paremaks muuta.

Tänusõnad

Me hindame ja tunnustame suurepärast tööd, mida teevad meie kolleegid Gemini rakenduse tiimis, Google DeepMindis, usaldusväärsuse ja ohutuse tiimis ning Google’i uuringutiimis.

Autor

James Manyika
Uurimis-, tehnoloogia- ja ühiskonna valdkonna vanem-asepresident

Sissie Hsiao
Google’i assistendi ja Gemini rakenduse valdkonna asepresident ja tegevjuht

Toimetaja märkus

See on arenev dokument ja seda värskendatakse regulaarselt, kuna jätkame Gemini rakenduse võimaluste kiiret täiustamist ning LLM-idele omaste probleemidega tegelemist. Seda ülevaadet värskendati viimati 25. juulil 2024. Gemini rakenduse uusimad värskendused leiate väljalaskemärkmete logist ja lisateavet saate Google Keywordi blogist.

3 Vastused kasutajate päringutele

Vastuse genereerimine sarnaneb sellega, kuidas võiks inimene teha ajurünnakut, et leida küsimusele vastamiseks erinevad lähenemisviisid. Kui kasutaja esitab päringu, kasutab Gemini eeltreenitud LLM-i, päringu konteksti ja interaktsiooni kasutajaga, et koostada vastusest mitu versiooni. See lähtub vastuste genereerimisel ka välistest allikatest, nagu Google'i otsing ja/või selle laiendused, ning hiljuti üles laaditud failidest (ainult Gemini Advanced). Seda protsessi nimetatakse hankimise täiendamiseks. Kui Gemini saab päringu, püüab see hankida nendest välistest allikatest (nt Google'i otsing) kõige asjakohasema teabe ja esitada need allikad täpselt oma vastuses. LLM-ide täiendamine väliste tööriistade abil on aktiivne uuringuvaldkond. Vigu võib sisse tulla mitmesugustel põhjustel, nt päring, mida Gemini kasutab nende väliste tööriistade käivitamiseks, viis, kuidas Gemini tõlgendab tööriistade tagastatud tulemusi, ja see, kuidas neid tagastatud tulemusi kasutatakse lõpliku vastuse genereerimiseks. Seetõttu ei peaks Gemini genereeritud vastused kajastama selle vastuse loomiseks kasutatud üksikute tööriistade tulemuslikkust.

Viimaseks: enne lõpliku vastuse kuvamist läbivad mõlemad potentsiaalsed vastused ohutuskontrolli, et tagada nende vastavus eelmääratletud eeskirjajuhistele. See protsess pakub topeltkontrolli, millega filtreeritakse välja kahjulik või solvav teave. Ülejäänud vastused järjestatakse siis nende kvaliteedi põhjal ning kõige kõrgema skooriga versioon(id) esitatakse kasutajale.

Samuti lisame Gemini teksti- ja pildiväljunditele vesimärgi, kasutades SynthID-d, meie valdkonna juhtivat digitaalset tööriistakomplekti, mis võimaldab lisada AI genereeritud sisule vesimärke. SynthID lisab digitaalse vesimärgi (sellise, mis pole inimsilmale märgatav) genereeritud piltidele otse pikslitesse. SynthID on oluline komponent usaldusväärsemate AI tuvastamise tööriistade väljatöötamisel ning aitab inimestel teha teadlikke otsuseid selle kohta, kuidas nad AI genereeritud sisuga suhtlevad.

Gemini rakenduse ülevaade

Mis on Gemini?

Produktiivsus

Loovus

Uudishimu

Gemini tööpõhimõtted

Eeltreenimine

Järeltreenimine

Vastused kasutajate päringutele

Inimtagasiside ja -hindamine

LLM-il põhinevate liideste (nt Gemini) teadaolevad probleemid

Täpsus

Kallutatus

Eri seisukohad

Isiksus

Valepositiivsed/-negatiivsed tulemid

Haavatavus vastandlike päringute suhtes

Kuidas me jätkame Gemini arendamist?

Meie Gemini põhimõtete rakendamine

Kasutajate ja väljaandjate juhtelemendid

Improving Gemini together

Tänusõnad

Piirkonna ja keele muutmine

Euroopa ja Aafrika

Põhja- ja Lõuna-Ameerika

Aasia Vaikse ookeani piirkond

1 Eeltreening

2 Järeltreenimine

3 Vastused kasutajate päringutele

4 Inimtagasiside ja -hindamine