„Gemini“ programos apžvalga

Jau seniai žinome, kad pasitelkę DI galime padaryti informaciją ir skaičiavimo procesus lengviau pasiekiamus ir naudingesnius žmonėms. Pirmieji žengėme į priekį didelės apimties kalbos modelių (LLM) srityje ir stebime nuostabią pažangą sistemoje „Google“ bei plačiau šioje srityje. Keletą metų taikėme LLM fone tobulindami daug savo produktų, pvz., automatinio sakinių užbaigimo funkciją sistemoje „Gmail“, plėsdami „Google“ vertėją ir norėdami geriau suprasti užklausas „Google“ paieškoje. Toliau naudojame LLM daugelyje „Google“ paslaugų bei siekdami įgalinti „Gemini“ programą, kurią naudodami žmonės gali bendradarbiauti tiesiogiai su generatyviniu DI. Norime, kad „Gemini“ programa būtų naudingiausias ir labiausiai suasmenintas DI padėjėjas, suteikiantis naudotojams tiesioginę prieigą prie naujausių „Google“ DI modelių.

Nors pasiekėme svarbų pokyčių tašką ir esame skatinami plataus susidomėjimu generatyviniu DI, vis dar esame tik ankstyvajame šios technologijos vystymo etape. Šiame aiškinamajame tekste išdėstytas mūsų požiūris į savo darbą kuriant „Gemini“ programą („Gemini“), įskaitant jos versiją mobiliesiems ir žiniatinklio patirtis, kas tai yra, kaip tai veikia ir kokios jos dabartinės galimybės bei apribojimai. Mūsų požiūris kuriant „Gemini“ keisis tobulėjant pamatinei technologijai ir mokantis iš nuolat vykdomų tyrimų, įgijus patirties ir gaunant naudotojų atsiliepimų.

Kas yra „Gemini“

„Gemini“ – tai kelių režimų LLM (teksto, garso, vaizdų ir kt. apdorojimo) sąsaja. „Gemini“ pagrįstas moderniausiais „Google“ LLM tyrimais, kurie buvo pradėti 2013 m. atliktu „Word2Vec“ moksliniu darbu, kuriame buvo siūlomos naujoviškos modelių struktūros, sujungiančios žodžius kaip matematines koncepcijas, ir 2015 m. pristatytu neuraliu pokalbių modeliu. Ši struktūra pademonstravo, kaip modeliai galėtų numatyti kitą pokalbio sakinį pagal ankstesnįjį, užtikrindami natūralesnius pokalbius. Tada 2017 m. buvo atliktas mūsų proveržio darbas, susijęs su Transformatoriumi, o 2020 m. pristatytos ilgo pokalbio galimybės, parodžiusios dar daugiau žadančią generatyvinės kalbos pažangą.

Pirmą kartą pristatėme „Gemini“ (tuomet buvo vadinama „Bard“) kaip eksperimentą 2023 m. kovo mėn. vadovaudamiesi savo DI principais. Nuo to laiko naudotojai naudoja „Gemini“ rašydami įtikinamus el. laiškus, spręsdami sudėtingas programavimo problemas, kurdami būsimų renginių idėjas, ieškodami pagalbos mokydamiesi sudėtingų sąvokų ir dar daug kitų sričių. Šiandien „Gemini“ yra universalus DI įrankis, galintis padėti jums įvairiais būdais. Jau stebime, kaip „Gemini“ padeda skatinti žmonių produktyvumą, kūrybiškumą ir smalsumą, ir reguliariai pridedame naujų funkcijų bei naujovių.

Produktyvumas

Pradedantiesiems „Gemini“ gali padėti taupyti laiką. Pvz., tarkime, kad norite apibendrinti ilgo tyrimo dokumentą. „Gemini“ leidžia jį įkelti ir pateikia naudingą sintezę. Be to, „Gemini“ gali padėti atlikti programavimo užduotis ir programavimas sparčiai tapo viena iš populiariausių jo pritaikymo sričių.

Kūrybiškumas

„Gemini“ taip pat gali padėti įgyvendinti idėjas ir paskatinti jūsų kūrybiškumą. Pvz., jei rašote tinklaraščio įrašą, „Gemini“ gali sukurti planą ir sugeneruoti vaizdų, kuriais galėtumėte iliustruoti įrašą. Be to, netrukus, naudodami „Gem“, galėsite tinkinti „Gemini“ naudodami konkrečias instrukcijas, kad jis veiktų kaip tam tikros srities ekspertas, padedantis jums siekti asmeninių tikslų.

Smalsumas

„Gemini“ gali būti tas pradinis taškas tyrinėjant idėjas ir dalykus, apie kuriuos norėtumėte sužinoti daugiau. Pvz., jis gali paprastai paaiškinti sudėtingą sąvoką ar pateikti su tema ar vaizdu susijusių įžvalgų. Be to, netrukus jis susies šias įžvalgas su rekomenduojamu turiniu iš žiniatinklio, kad galėtumėte sužinoti daugiau informacijos konkrečiomis temomis.

„Gemini“ galimybės sparčiai plečiasi. Netrukus galėsite nukreipę telefono fotoaparatą į objektą pasakyti, pvz., Aukso Vartų tiltas, ir paprašyti „Gemini“ papasakoti apie jo dažų spalvą (jei stebitės, kodėl jis tarptautinės oranžinės spalvos). Be to, galėsite paprašyti „Gemini“ padėti naršyti restorano meniu kita kalba ir rekomenduoti patiekalą, kuris jums turėtų patikti. Tai tik du naujų „Gemini“ galimybių, kurios netrukus bus pristatytos, pavyzdžiai.

Žinoma, griežtai mokome ir stebime „Gemini“, kad jo atsakymai būtų patikimi ir atitiktų jūsų lūkesčius. Be to, bendraujame su pramonės srities ekspertais, mokytojais, politikos kūrėjais, įmonių vadovais, piliečių ir žmonių teisių vadovais bei turinio kūrėjais, siekdami atrasti naujų šios populiarėjančios technologijos pritaikymo galimybių, nustatyti pavojus ir apribojimus.

Kaip veikia „Gemini“

Žinomi LLM pagrįstų sąsajų, tokių kaip „Gemini“, apribojimai

„Gemini“ – tai tik viena mūsų nuolatinių pastangų atsakingai kurti LLM dalis. Vykdydami šį procesą atradome ir aptarėme keletą apribojimų, susijusių su LLM. Čia sutelkiame dėmesį į šešias tęstinių tyrimų sritis.

Tikslumas: „Gemini“ atsakymai gali būti netikslūs, ypač kai klausiama sudėtingomis ar faktais pagrįstomis temomis.
Šališkumas: „Gemini“ atsakymai gali atspindėti šališką požiūrį, išreikštą mokymosi duomenyse.
Kelios perspektyvos: „Gemini“ atsakymuose gali nepavykti išreikšti įvairių požiūrių.
Asmenybė: „Gemini“ atsakymuose gali būti netinkamo dviprasmiško turinio, nurodančio asmenines nuomones ar jausmus.
Klaidingai teigiamas ir klaidingai neigiamas turinys: „Gemini“ gali neatsakyti į tam tikras tinkamas užklausas ir pateikti kitiems nepriimtinų atsakymų.
Pažeidžiamumas prieštaringoms užklausoms: naudotojai ras būdų, kaip netinkamai testuoti „Gemini“ teikiant beprasmiškas užklausas ar klausimus, kurie retai užduodami realiame pasaulyje.

Toliau nagrinėjame naujus principus ir tobulintiną našumą kiekvienoje iš šių sričių.

Tikslumas

„Gemini“ pagrįstas „Google“ atliekama autoritetingos informacijos analize ir mokomas generuoti atsakymus, kurie susiję su jūsų užklausos kontekstu ir atitinka tai, ko ieškote. Bet kaip visi LLM, „Gemini“ kartais gali užtikrintai ir įtikinamai generuoti atsakymus, kuriuose yra netikslios ar klaidinančios informacijos.

Since LLMs work by predicting the next word or sequences of words, they are not yet fully capable of distinguishing between accurate and inaccurate information on their own. We have seen Gemini present responses that contain or even invent inaccurate information (e.g., misrepresenting how it was trained or suggesting the name of a book that doesn’t exist).

Šališkumas

Mokymosi duomenys, įskaitant gautus iš viešai pasiekiamų šaltinių, atspindi įvairias perspektyvas ir nuomones. Toliau tyrinėjame, kaip naudoti šiuos duomenis užtikrinant, kad į LLM atsakymą būtų įtraukiami įvairūs požiūriai, sumažinant netikslius per didelius apibendrinimus ir šališkumą.

Mokymosi duomenų spragos, šališkumas ir per dideli apibendrinimai gali atsispindėti modelio išvediniuose jam bandant numatyti tikėtinus atsakymus į užklausą. Šios problemos pasireiškia įvairiais būdais (pvz., pateikiami atsakymai, kurie atspindi tik vieną kultūrą ar demografinius rodiklius, nurodomi problemiški per dideli apibendrinimai, išreiškiamas šališkumas lyties, religijos ar etninės kilmės atžvilgiu arba akcentuojamas tik vienas požiūris). Tam tikromis temomis yra duomenų tuštuma, t. y. nepakanka patikimos informacijos nurodyta tema, kad LLM galėtų apie tai sužinoti ir pateikti gerus numatymus, todėl gali būti pateikiami prastos kokybės ar netikslūs atsakymai. Toliau bendradarbiaujame su duomenų ekspertais ir įvairiomis bendruomenėmis, kad galėtume remtis ne tik „Google“ gilia patirtimi.

Kelios perspektyvos

Atsakant subjektyviomis temomis, „Gemini“ sukurtas teikti naudotojams kelias perspektyvas, jei naudotojas neprašo konkretaus požiūrio. Pvz., jei prašoma informacijos apie kažką, ko negalima patvirtinti pirminio šaltinio faktais ar patikimais šaltiniais, pvz., subjektyvios nuomonės, kas geriausia ar blogiausia, „Gemini“ turėtų atsakyti atspindėdamas įvairius požiūrius. Bet kadangi tokie LLM kaip „Gemini“ mokosi pagal viešai internete pasiekiamą turinį, jie gali atspindėti teigiamus arba neigiamus konkrečių politikų, žvaigždžių ar kitų viešų asmenų požiūrius ar net įtraukti tik vienos pusės požiūrį prieštaringomis socialinėmis ar politinėmis temomis. „Gemini“ neturėtų atsakyti skatindamas konkretų požiūrį tokiomis temomis, ir naudosime atsiliepimus tokių tipų atsakymams, kad išmokytume „Gemini“ geriau atsakyti.

Asmenybė

Kartais „Gemini“ gali generuoti atsakymus, iš kurių gali atrodyti, kad jis turi savo nuomonę ar emocijas, pvz., myli ar liūdi, nes jis mokomas pagal kalbą, kurią žmonės vartoja žmogiškai patirčiai atspindėti. Sukūrėme gairių rinkinį, kaip „Gemini“ gali save pristatyti (t. y. savo asmenybę), ir toliau derinsime modelį, kad būtų teikiami objektyvūs atsakymai.

Klaidingai teigiamas ir (arba) klaidingai neigiamas turinys

Sukūrėme politikos gairių rinkinį, kad padėtume mokyti „Gemini“ ir išvengtume problematiškų atsakymų generavimo. Kartais „Gemini“ gali netinkamai interpretuoti šias gaires, sukurdamas klaidingai teigiamo ir klaidingai neigiamo turinio. Klaidingai teigiamo turinio atveju „Gemini“ gali nepateikti atsakymo į pagrįstą užklausą, netinkamai interpretuodamas užklausą kaip nepriimtiną. O klaidingai neigiamo turinio atveju „Gemini“ gali generuoti nepriimtiną atsakymą, neatsižvelgdamas į nustatytas gaires. Kartais pasitaikant klaidingai teigiamo ar klaidingai neigiamo turinio gali susidaryti įspūdis, kad „Gemini“ yra šališkas: pvz., klaidingai teigiamo turinio atveju „Gemini“ gali neatsakyti į klausimą iš vienos problemos pusės, bet atsakyti į tą patį klausimą iš kitos pusės. Toliau deriname šiuos modelius, kad geriau suprastume ir galėtume skirstyti į kategorijas įvestis ir išvedinius sparčiai vystantis kalbai, įvykiams ir visuomenei.

Pažeidžiamumas prieštaringoms užklausoms

Numatėme, kad naudotojai išbandys „Gemini“ gebėjimų apribojimus ir bandys įveikti jo apsaugos priemones, įskaitant bandymą priversti jį atskleisti savo mokymosi protokolus ar kitą informaciją, arba bandys apeiti jo saugos mechanizmus. Griežtai išbandėme ir toliau bandome „Gemini“, bet žinome, kad naudotojai ras unikalių, sudėtingų būtų, kaip jį toliau netinkamai testuoti. Tai yra svarbi „Gemini“ tikslinimo dalis ir nekantriai laukiame naujų užklausų, kurias naudotojai sugalvos. Iš tiesų nuo „Gemini“ pristatymo 2023 m. stebėjome, kaip naudotojai meta jam iššūkį teikdami įvairiausias užklausas: nuo filosofinių iki beprasmiškų, ir tam tikrais atvejais pastebėjome, kaip „Gemini“ atsako pateikdamas atitinkamai beprasmiškus ar su mūsų nustatytais principais nesuderinamus atsakymus. Vis dar stengiamės rasti metodų, kaip padėti „Gemini“ atsakyti į tokių tipų užklausas, ir toliau plečiame savo vidinius vertinimus bei raudonosios komandos darbą, kad galėtume nuolat tobulinti tikslumą, objektyvumą bei įvairiapusiškumą.

Kaip toliau tobuliname „Gemini“

„Gemini“ principų taikymas

Kartu su savo DI principais neseniai aiškiai apibrėžėme savo požiūrį į darbą su „Gemini“: „Gemini“ turi vadovautis jūsų nurodymais, prisitaikyti pagal jūsų poreikius ir užtikrinti saugią jūsų patirtį. Mūsų principų pagrindas yra atsakomybė ir saugumas. „Gemini“ politikos gairėse siekiama vengti tam tikrų tipų problematiškų išvedinių. Užsiimame nuolatiniu prieštaringu testavimu su vidiniais raudonosios komandos nariais – produktų ekspertais ir socialinės srities mokslininkais, kurie tikslingai netinkamai testuoja modelį, kad ištirtų suderinimo su šiomis politikos gairėmis ir mūsų kelrodžiu požiūriu į „Gemini“ problemas, todėl galime pritaikyti jų rezultatus ir nuolat tobulinti „Gemini“.

Privatumas taip pat yra viena pagrindinių svarstymo sričių kuriant „Gemini“. „Gemini Apps“ privatumo pagalbos centre pateikiama daugiau informacijos, kaip kuriame „Gemini“ užtikrindami privatumą kuriant ir galimybę jums valdyti.

Naudotojų ir leidėjų valdymo įgalinimas

Sukūrėme įvairių lengvai pasiekiamų „Gemini“ naudotojų valdiklių, kuriuos naudodami galite peržiūrėti, atnaujinti, tvarkyti, eksportuoti ir ištrinti „Gemini“ duomenis. Galite pasiekti ir peržiūrėti savo „Gemini“ pateiktas užklausas, atsakymus ir atsiliepimus naudodami „Gemini Apps“ veiklos valdiklius. Taip pat galite neleisti būsimų „Gemini“ pokalbių naudoti „Google“ mašininio mokymosi technologijoms tobulinti, išjungę „Gemini Apps“ veiklos nustatymą. Be to, kaip naudodami kitas „Google“ paslaugas, taip pat galite atsisiųsti ir eksportuoti savo informaciją naudodami „Google“ eksportavimo įrankį. Taip pat teikiame valdiklius, kuriuos naudodami galite tvarkyti sukurtas viešąsias „Gemini“ grupių nuorodas, ir valdiklius, kuriais galite įjungti ir (arba) išjungti prieigą prie plėtinių (pvz., „Workspace“, Žemėlapių, „YouTube“). Be to, tyrinėjame naujus būdus, kaip suteikti jums daugiau „Gemini“ atsakymų valdymo galimybių, įskaitant filtrų koregavimą norint įgalinti įvairesnius atsakymus.

Leidėjams pristatėme „Google-Extended“ – valdiklį, kurį naudodami žiniatinklio leidėjai gali tvarkyti, ar jų svetainės padeda tobulinti „Gemini“ ir „Vertex“ DI generatyvines API. Leidžiant „Google-Extended“ pasiekti svetainių turinį laikui bėgant DI modeliai gali tapti tikslesni ir pajėgesni. „Gemini“ ne tik nenaudos turinio iš atsisakytų URL modeliams mokyti, bet ir nenaudos tokio turinio kaip atskaitos taško. Plečiantis DI pritaikymo sritims, žiniatinklio leidėjams bus vis sudėtingiau tvarkyti skirtingus naudojimo atvejus dideliu mastu, todėl esame įsipareigoję tyrinėti daugiau įrenginių skaitomų pasirinkimo ir valdymo metodų, įsitraukdami į žiniatinklio ir DI bendruomenes.

Improving Gemini together

Tikime sparčia iteracija ir geriausių „Gemini“ funkcijų pateikimu visuomenei. Naudotojų atsiliepimai paspartino mūsų modelių tobulėjimą. Pvz., naudojame moderniausius grįžtamojo ryšio mokymosi metodus mokydami savo modelius būti intuityvesniais ir vaizdingesniais bei teikti dar kokybiškesnius ir tikslesnius atsakymus. Toliau investuojame į tyrimus, kad sužinotume daugiau apie techninius, socialinius ir etinius LMM iššūkius bei galimybes, siekdami tobulinti „Gemini“ modelių mokymąsi ir derinimo metodus bei bendrinti savo rezultatus su tyrėjais, kaip ir šį pastarąjį mokslinį darbą tema „Pažangių DI padėjėjų etika“. Esame įsipareigoję atsakingai diegti naujoves šioje srityje, bendradarbiauti su naudotojais, patikimais bandytojais ir tyrėjais ieškodami būdų, kuo ši nauja technologija galėtų būti naudinga visai ekosistemai.

Skaidrumas yra svarbu ir esame įsipareigoję teikti visą informaciją apie „Gemini“ kūrimo procesą ir apribojimus. „Gemini“ nėra magiška juodoji dėžė. Jis nuolat vystosi ir mes toliau bendrinsime naujausią informaciją apie savo pažangą. Pristatėme „Leidimo atnaujinimų“ puslapį, kad galėtumėte peržiūrėti naujausias „Gemini“ funkcijas, patobulinimus ir riktų pataisymus, ir atitinkamai atnaujinsime šią apžvalgą. Nurodysime ir tai, kokiose srityse „Gemini“ yra naudingas ir gali padėti, ir tai, ką reikia toliau kartoti ir tobulinti. Aktyviai pridedame naujų funkcijų ir nuolat vykdydami tyrimus, testuodami bei atsižvelgdami į naudotojų atsiliepimus kartu ieškome „Gemini“ tobulinimo galimybių.

Padėka

Vertiname ir pripažįstame neįtikėtiną savo kolegų darbą su „Gemini“ programos komanda, „Google DeepMind“, „Trust & Safety“ ir „Google“ tyrimų komanda.

Autorius

James Manyika
Tyrimų, technologijų ir visuomenės vadovas

Sissie Hsiao
„Google“ padėjėjo ir „Gemini“ programos viceprezidentė ir generalinė direktorė

Redaktoriaus pastaba

Tai yra kintantis dokumentas, kuris bus periodiškai atnaujinamas, mums toliau sparčiai tobulinant „Gemini“ programos funkcijas ir šalinant LLM būdingus apribojimus. Ši apžvalga paskutinį kartą atnaujinta 2024 m. liepos 25 d. Jei norite paskiausių „Gemini“ programos atnaujinimų, žr. „Leidimo atnaujinimų“ žurnalą arba skaitykite daugiau „Google Keyword“ tinklaraštyje.

3 Atsakymai į naudotojų užklausas

Atsakymo generavimo procesas panašus į žmonių idėjų kūrimą skirtingais aspektais, siekiant atsakyti į klausimą. Naudotojui pateikus užklausą, „Gemini“ naudoja iš anksto apmokytą LLM, užklausos kontekstą ir sąveiką su naudotoju, kad sukurtų kelias atsakymo versijas. Be to, generuojant atsakymus atsižvelgiama į išorinius šaltinius, pvz., „Google“ paiešką, ir (arba) vieną iš kelių plėtinių bei neseniai įkeltus failus (tik „Gemini Advanced“). Šis procesas vadinamas paieškos stiprinimu. Gavęs užklausą „Gemini“ stengiasi ieškoti tinkamiausios informacijos iš šių išorinių šaltinių (pvz., „Google“ paieškos) ir tiksliai juos perteikia savo atsakyme. LLM pastiprinimas išoriniais įrankiais yra aktyviai tyrinėjama sritis. Čia yra įvairių klaidų tikimybė, įskaitant užklausą, kurią „Gemini“ naudoja šiems išoriniams įrankiams iškviesti, kaip „Gemini“ interpretuoja įrankių pateiktus rezultatus ir kaip šie pateikti rezultatai naudojami galutiniam atsakymui generuoti. Dėl to „Gemini“ sugeneruoti atsakymai neturėtų atspindėti atskirų įrankių, naudojamų tam atsakymui sukurti, veikimo.

Galiausiai, prieš pateikiant galutinį atsakymą, atliekama kiekvieno potencialaus atsakymo saugos patikra, siekiant užtikrinti, kad jis atitinka iš anksto nustatytas politikos gaires. Vykdant šį procesą atliekama pakartotinė patikra, siekiant išfiltruoti žalingą ar įžeidžiančią informaciją. Tuomet likę atsakymai reitinguojami pagal jų kokybę, geriausiai įvertintą (-as) versiją (-as) pateikiant naudotojui.

Be to, „Gemini“ teksto ir vaizdų išvedinius žymime vandens ženklu, naudodami „SynthID“ – pramonės srityje pirmaujantį skaitmeninį įrankių komplektą, skirtą DI sugeneruotam turiniui žymėti vandens ženklu. Sugeneruotuose vaizduose „SynthID“ prideda skaitmeninį vandens ženklą (tokį, kurio žmogus nepastebi) tiesiai prie pikselių. „SynthID“ yra svarbus kūrimo blokas skirtas kurti patikimesnius DI identifikavimo įrankius ir gali padėti žmonėms priimti pagrįstus sprendimus dėl sąveikos su DI sugeneruotu turiniu.

„Gemini“ programos apžvalga

Kas yra „Gemini“

Produktyvumas

Kūrybiškumas

Smalsumas

Kaip veikia „Gemini“

Išankstinis mokymas

Vėlesnis mokymas

Atsakymai į naudotojų užklausas

Žmonių atsiliepimai ir įvertinimas

Žinomi LLM pagrįstų sąsajų, tokių kaip „Gemini“, apribojimai

Tikslumas

Šališkumas

Kelios perspektyvos

Asmenybė

Klaidingai teigiamas ir (arba) klaidingai neigiamas turinys

Pažeidžiamumas prieštaringoms užklausoms

Kaip toliau tobuliname „Gemini“

„Gemini“ principų taikymas

Naudotojų ir leidėjų valdymo įgalinimas

Improving Gemini together

Padėka

Regiono ir kalbos keitimas

Europa ir Afrika

Amerika

Ramiojo vandenyno Azijos regionas

1 Išankstinis mokymas

2 Vėlesnis mokymas

3 Atsakymai į naudotojų užklausas

4 Žmonių atsiliepimai ir įvertinimas