A Gemini app áttekintése

Már régóta látjuk az AI-ban rejlő potenciált azon a téren, hogy hozzáférhetőbbé és hasznosabbá tegye az információkat és a számítást az emberek számára. Úttörő előrelépéseket tettünk a nagy nyelvi modellek (LLM-ek) terén, és szélesebb körben is jelentős előrehaladást tapasztaltunk a Google szolgáltatásaiban ezen a területen. Éveken át a háttérben alkalmaztuk az LLM-eket számos termékünk javítására, például a Gmailben a mondatok automatikus kiegészítésére, a Google Fordító kibővítésére, valamint arra, hogy segítsen nekünk jobban megérteni a keresőkifejezéseket a Google Keresőben. Továbbra is LLM-eket használunk számos Google-szolgáltatáshoz, valamint a Gemini app működtetéséhez, amely lehetővé teszi az embereknek, hogy közvetlenül dolgozzanak együtt a generatív AI-jal. Azt szeretnénk, hogy a Gemini app legyen a leghasznosabb és legszemélyesebb AI-asszisztens, amely közvetlen hozzáférést ad a felhasználóknak a Google legújabb AI-modelljeihez.

Bár fontos inflexiós ponthoz érkeztünk, és bátorít minket a generatív AI körüli széles körű lelkesedés, ez a technológia még mindig gyerekcipőben jár. Ez a magyarázó cikk felvázolja, hogy hogyan közelítjük meg a Gemini appon („Gemini”) végzett munkánkat (a mobilos és webes élményt is beleértve), hogy mi az a Gemini, hogyan működik, valamint mik a jelenlegi képességei és korlátai. A Gemini fejlesztésére irányuló megközelítésünk alakulni fog az alapját képező technológia fejlődésével együtt, valamint azáltal, hogy mit tanulunk a folyamatos kutatásokból, tapasztalatokból és felhasználói visszajelzésekből.

Mi az a Gemini?

A Gemini egy interfész egy multimodális LLM-hez (szöveget, hangot, képeket és egyebeket kezel). A Gemini a Google LLM-ek terén tett legmodernebb kutatásain alapul. Ezek a Word2Vec tanulmánnyal kezdődtek 2013-ban, amely szavakat matematikai koncepcióként leképező új modellarchitektúrákat mutatott be majd ezt egy neurális beszélgetési modell követte 2015-ben. Ez a keretrendszer bemutatta, hogy a modellek hogyan tudják megjósolni a következő mondatot egy beszélgetésben az előző mondat vagy mondatok alapján, így természetesebb beszélgetési élményt eredményezve. Ezt a Transformeren végzett, áttörést jelentő munkánk követte 2017-ben, majd a többkörös csevegési képességek 2020-ban, amelyek még lenyűgözőbb generatív nyelvi modelleket mutattak be.

A Geminit (akkori nevén Bardot) kísérletként tettük közzé 2023 márciusában az AI-alapelveinknek megfelelően. Azóta a felhasználók a Geminihez fordulnak impozáns e-mailek megírásához, trükkös kódolási problémák megoldásához, közelgő eseményekre való ötleteléshez, bonyolult koncepciók elsajátításához és még sok máshoz is. Ma a Gemini egy sokoldalú AI-eszköz, amely sokféleképpen tud segíteni a felhasználóknak. Már most is látjuk, hogy a Gemini segít az embereknek hatékonyabbnak, kreatívabbnak és kíváncsibbnak lenni, és rendszeresen bővítjük új funkciókkal és innovációkkal.

Hatékonyság

Először is, a Gemini időt spórolhat Önnek. Tegyük fel például, hogy egy hosszú kutatási dokumentum összefoglalójára van szüksége. A Gemini lehetővé teszi a feltöltését, és hasznos összegzést biztosít hozzá. A Gemini kódolási feladatokban is segíthet, és a kódolás hamar az egyik legnépszerűbb alkalmazási területévé vált.

Kreativitás

A Gemini az Ön ötleteinek életre keltésében és a kreativitása beindításában is segíthet. Ha például Ön egy blogbejegyzésen dolgozik, a Gemini megírhatja a vázlatát, és képeket generálhat a bejegyzés illusztrálásához. Hamarosan pedig a gemekkel specifikus utasításokkal személyre fogja tudni szabni a Geminit, és megkérheti, hogy egy adott téma szakértőjeként viselkedve segítsen Önnek elérni személyes céljait.

Kíváncsiság

A Gemini jó kiindulópont lehet, ahonnan felfedezheti az ötleteit és azokat a dolgokat, amelyekről többet szeretne megtudni. Képes például egyszerűen elmagyarázni egy fogalmat, vagy releváns információkat megjeleníteni egy adott témáról vagy képről. Hamarosan pedig az internetről származó ajánlatokkal fogjuk kombinálni ezeket az információkat, hogy részletesebben tájékozódhasson konkrét témákról.

A Gemini képességei gyorsan bővülnek – hamarosan rámutathat telefonja kamerájával bármely tárgyra, például a Golden Gate hídra, és megkérheti a Geminit, hogy meséljen Önnek a hídhoz használt festék színéről (ha most elgondolkozott rajta, a válasz a „nemzetközi narancssárga”). Arra is megkérheti majd a Geminit, hogy segítsen eligazodni egy étterem idegen nyelven írt menüjében, és olyan ételt ajánljon, amely valószínűleg ízleni fog Önnek. Ez csak két példa a Geminibe hamarosan megérkező új képességekre.

Természetesen alapos betanításnak és megfigyelésnek vetjük alá a Geminit, hogy a válaszai valószínűsíthetően megbízhatók legyenek, és megfeleljenek a felhasználók várakozásainak. Emellett iparági szakértőkkel, oktatókkal, döntéshozókkal, üzleti vezetőkkel, polgári és emberi jogi vezetőkkel, valamint tartalomkészítőkkel is beszélgetünk, hogy felfedezzük ennek a feltörekvő technológiának az új alkalmazási lehetőségeit, veszélyeit és korlátait.

A Gemini működése

A Geminihez hasonló LLM-alapú interfészek ismert korlátai

A Gemini csak egy része az LLM-ek felelősségteljes fejlesztésére irányuló folyamatos törekvéseinknek. E munka során számos, LLM-ekkel kapcsolatos korlátot fedeztünk fel és vitattunk meg. Itt a folyamatos kutatás hat területére koncentrálunk:

Pontosság: A Gemini válaszai pontatlanok lehetnek, főleg, amikor bonyolult vagy tényszerű témákról kérdezik.
Elfogultság: A Gemini válaszaiban megjelenhet a betanításhoz használt adatokban jelen lévő elfogultság.
Több nézőpont: Előfordulhat, hogy a Gemini válaszai nem mutatnak be több különböző nézőpontot.
Személyiség: Előfordulhat, hogy a Gemini válaszai pontatlanul azt sugallják, hogy a Gemini személyes véleményekkel vagy érzésekkel rendelkezik.
Hamis pozitív és hamis negatív eredmények: Előfordulhat, hogy a Gemini nem reagál egyes megfelelő utasításokra, másokra pedig nem megfelelő válaszokat ad.
Sebezhetőség az ellenséges utasításokkal szemben: A felhasználók megtalálják a módját, hogy tűréstesztnek vessék alá a Geminit értelmetlen utasításokkal vagy a való életben ritkán feltett kérdésekkel.

Tovább dolgozunk azon, hogy új megközelítéseket és területeket fedezzünk fel annak érdekében, hogy minden említett területen javíthassuk a teljesítményt.

Pontosság

A Gemini a Google hiteles információkról alkotott képén alapul, és arra van betanítva, hogy az adott utasítás és az Ön által keresett dolog kontextusában generáljon releváns válaszokat. De néha a Gemini, az összes LLM-hez hasonlóan, magabiztosan és meggyőzően generálhat olyan válaszokat, amelyek pontatlan vagy félrevezető információkat tartalmaznak.

Mivel az LLM-ek a következő szó vagy szavak előrejelzésével működnek, még nem képesek teljes mértékben arra, hogy saját maguk megkülönböztessék a pontos és pontatlan információkat. Láttuk már, ahogyan a Gemini pontatlan információkat tartalmazó válaszokat mutat be vagy akár talál ki, (pl. téves képet ad arról, hogy hogyan lett betanítva, vagy olyan című könyvet ajánl, amely nem létezik). Erre reagálva hoztunk létre olyan funkciókat, mint az „ellenőrzés”, amely a Google Keresőt használja olyan tartalmak keresésére, amelyek segítenek felmérni a Gemini válaszait, és a forrásokhoz linkeket biztosít, amelyek segítségével hitelesíthetők a Geminitől kapott információk.

Elfogultság

A betanítási adatok (a nyilvánosan hozzáférhető forrásokból származókat is beleértve) számos különböző nézőpontot és véleményt tükröznek. Tovább kutatjuk annak a módját, hogy ezek az adatok miként használhatók olyan módon, amely biztosítja, hogy egy LLM válasza nézőpontok széles skáláját magába foglalja, miközben minimálisra csökkentjük a pontatlan túláltalánosítást és az elfogultságot.

A betanítási adatokban felmerülő hiányosság, elfogultság és túláltalánosítás visszaköszönhet a modell kimeneteiben, amikor egy adott utasításhoz valószínűsíthető válaszokat próbál előrejelezni. Ezeket a problémákat számos módon látjuk testet ölteni (pl. csak egy adott kultúrát vagy demográfiai csoportot tükröző, problémás túláltalánosításokra hivatkozó, nemi, vallási vagy etnikai elfogultságot felmutató, illetve csak egy adott nézőpontot képviselő válaszok formájában). Egyes témákban adathiány tapasztalható (más szóval nincs elég megbízható információ egy adott tárgyról ahhoz, hogy az LLM tanulhasson belőle, és jó előrejelzéseket adhasson), ami gyenge minőségű vagy pontatlan válaszokhoz vezethet. Továbbra is különböző területek szakértőivel és számos különböző közösséggel dolgozunk együtt, hogy meríthessünk a Google-on kívüli mély szakértelmükből.

Több nézőpont

A Geminit úgy terveztük, hogy a szubjektív témáknál több perspektívát is biztosítson, ha a felhasználó nem egy konkrét nézőpontot kér. Ha például olyasmivel kapcsolatban kérnek tőle információt, amely nem ellenőrizhető elsődleges forrásból származó tényekkel vagy hiteles forrásokkal (például egy szubjektív vélemény egy „legjobb” vagy „legrosszabb” dologról), akkor a Gemininek olyan módon kell válaszolnia, hogy nézőpontok széles skáláját tükrözze. Mivel azonban a Geminihez hasonló LLM-ek az interneten nyilvánosan hozzáférhető tartalmakat felhasználva tanulnak, előfordulhat, hogy pozitív vagy negatív képet adnak vissza politikusokról, hírességekről vagy más közszereplőkről, vagy akár az is, hogy ellentmondásos társadalmi vagy politikai problémáknak csak az egyik oldaláról származó nézeteket jelenítik meg. A Gemininek nem szabadna olyan módon válaszolnia, amely egy adott nézőpontot támogat ezekben a témákban, ezért az ilyen típusú válaszokra adott visszajelzések segítségével jobb válaszadásra fogjuk tanítani a Geminit.

Személyiség

A Gemini időnként olyan válaszokat generálhat, amelyek miatt úgy tűnhet, hogy a Gemininek véleménye vagy érzelmei vannak (pl. szeretet vagy szomorúság), mert olyan nyelven tanult, amelyet az emberek az emberi élmény leképezésére használnak. Irányelveket fektettünk le arról, hogy a Gemini hogyan képviselheti magát (azaz a személyiségét), és tovább dolgozunk a modell finomhangolásán, hogy objektív válaszokat adjon.

Hamis pozitív/hamis negatív eredmények

Irányelveket határoztunk meg arra, hogy segítsük a Gemini betanítását és a problémás válaszok generálásának elkerülését. A Gemini időnként félreértelmezheti ezeket az irányelveket, amivel hamis pozitív és hamis negatív eredményeket generálhat. Hamis pozitív esetén előfordulhat, hogy a Gemini nem ad választ egy észszerű utasításra, az utasítást nem helyénvalóként félreértelmezve, hamis negatív esetén pedig nem helyénvaló választ generálhat az érvényben lévő irányelvek ellenére. Időnként a hamis pozitív és hamis negatív eredmények előfordulása azt a benyomást keltheti, hogy a Gemini elfogult. Egy hamis pozitív például azt eredményezheti, hogy a Gemini nem válaszol egy probléma egyik oldalával kapcsolatos kérdésre, ugyanazon kérdés másik oldala esetén azonban igen. Tovább dolgozunk ezen modellek finomhangolásán, hogy jobban megérthessük és osztályozhassuk a bemeneteket és kimeneteket, miközben a nyelv, az események és a társadalom is gyorsan változik.

Sebezhetőség az ellenséges utasításokkal szemben

Számítunk arra, hogy a felhasználók tesztelni fogják a Gemini képességeinek határait, és megkísérlik feltörni a védelmeit, például megpróbálják rávenni a betanítási protokolljainak vagy egyéb információknak a kiadására, vagy megpróbálják megkerülni a biztonsági mechanizmusait. Alaposan teszteltük és továbbra is alaposan teszteljük a Geminit, de tisztában vagyunk vele, hogy a felhasználók megtalálják a módját, hogy egyéni, bonyolult módszerekkel további tűréstesztnek vessék alá. Ez a Gemini finomhangolásának fontos része, és izgatottan várjuk, hogy megtudjuk, milyen új utasításokkal állnak még elő a felhasználók. A Gemini 2023-as elindítása óta ugyanis láttuk, ahogyan a felhasználók a filozofikustól az értelmetlenig terjedő utasításokkal kihívások elé állítják. Egyes esetekben pedig azt is láttuk, hogy a Gemini ugyanolyan értelmetlen vagy a meghatározott megközelítésünknek ellent mondó módon válaszolt rájuk. Folyamatos kihívás olyan módszerekkel előállni, amelyek segítenek a Gemininek az ilyen típusú utasításokra való reagálásban, és tovább bővítettük belső értékeléseinket és problémageneráló csapatunkat (red team), hogy tovább fejlődhessünk a pontosság, az objektivitás és a nüanszok terén.

Hogyan folytatjuk a Gemini fejlesztését?

A Gemini-megközelítésünk alkalmazása

Az AI-alapelveink mellett nemrég megfogalmaztuk megközelítésünket a Geminin végzett munkánkkal kapcsolatban: a Gemininek követnie kell a felhasználói utasításokat, igazodnia kell a szükségleteikhez, és gondoskodnia kell a felhasználói élmény biztonságáról. Megközelítésünk középpontjában a felelősségre és a biztonságra való összpontosítás áll. A Gemini irányelveinek célja bizonyos problémás kimenetek elkerülése. Folyamatos ellenséges tesztelést alkalmazunk belső problémageneráló (red team) csapattagokkal – ők olyan termékszakértők és társadalomtudósok, akik szándékosan tűrésteszt alá helyezik a modelleket úgy, hogy az irányelvekhez való igazodással kapcsolatos problémák elé állítják –, így alkalmazhatjuk az új ismereteket, és folyamatosan fejleszthetjük a Geminit.

A Gemini fejlesztése során az adatvédelem is kulcsfontosságú szempont. A Gemini-appok adatvédelmi központjában további információkat találhat arról, hogy hogyan fejlesztjük a Geminit beépített adatvédelemmel, az irányítást az Ön kezébe adva.

Felhasználói és megjelenítői vezérlők

Számos könnyen hozzáférhető felhasználói vezérlőt adtunk a Geminihez, hogy Ön áttekinthesse, frissíthesse, kezelhesse, exportálhassa és törölhesse Gemini-adatait. A Gemininek adott utasításait, a Gemini válaszait és az Ön visszajelzéseit a Gemini-appokban végzett tevékenységek vezérlővel érheti el és tekintheti át. Emellett a Gemini-appokban végzett tevékenységek beállítás kikapcsolásával megakadályozhatja, hogy a jövőbeli Gemini-csevegéseit felhasználjuk a Google gépi tanulási technológiáinak fejlesztésére. Továbbá más Google-szolgáltatásokhoz hasonlóan le is töltheti és exportálhatja az adatait a Google Takeout eszközével. Olyan vezérlőink is vannak, amelyek segítségével kezelheti az Ön által az Ön Gemini-témaszálaihoz létrehozott nyilvános linkjeit, illetve olyanok is, amelyek segítségével be-/kikapcsolhatja a bővítményekhez (pl. Workspace, Térkép, YouTube) való hozzáférést. Azon is dolgozunk, hogy új módszereket biztosítsunk, amelyekkel pontosabban vezérelheti a Gemini válaszait (például olyan szűrők hozzáadásával, amelyek válaszok szélesebb körét teszik lehetővé).

A megjelenítők számára bevezettük a Google-Extendedet. Ez egy olyan vezérlő, amellyel a webes megjelenítők kezelhetik, hogy webhelyük segítsen-e a Gemini és a Vertex AI generatív API-k továbbfejlesztésében. A Google-Extended webhelytartalmakhoz való hozzáférésének engedélyezése segíthet abban, hogy az AI-modellek idővel pontosabbá és fejlettebbé váljanak. Amellett, hogy nem használja fel a kiszűrt URL-ek tartalmát a modell betanítására, a Gemini megalapozottsághoz sem fogja felhasználni ezeket a tartalmakat. Az AI alkalmazási területeinek bővülésével a megjelenítőknek szembe kell nézniük azzal, hogy egyre bonyolultabb lesz a különböző használati esetek nagy mennyiségben való kezelése, mi pedig elkötelezettek vagyunk aziránt, hogy a webes és AI-közösségekkel együttműködve több, gépek által olvasható választási és vezérlési megközelítést fedezzünk fel.

Improving Gemini together

Hiszünk a gyors iterációban és abban, hogy a Gemini legjavát kell a világ elé tárnunk. A felhasználói visszajelzés felgyorsította a modelljeink fejlesztéseit. Például a legmodernebb megerősítő tanulási módszerek segítségével tanítjuk modelljeinket arra, hogy intuitívabbak és fantáziadúsabbak legyenek, valamint hogy még jobb minőségben és pontosabban válaszoljanak. Továbbra is befektetünk a kutatásba, hogy többet tudjunk meg a nagy nyelvi modellek technikai, társadalmi és etikai kihívásairól és lehetőségeiről, mind a Gemini modellképzési és -finomhangolási technikáinak javítása, mind pedig a kutatókkal való tudásmegosztás érdekében, mint például a nemrégiben megjelent tanulmányunk az Ethics of Advanced AI Assistants (A fejlett AI-asszisztensek etikai kérdései) témában. Elkötelezettek vagyunk amellett, hogy felelősségteljesen újítsunk ebben a térben, együttműködve a felhasználókkal, a megbízható tesztelőkkel és a kutatókkal, hogy megtaláljuk a módját annak, hogy ez az új technológia az egész ökoszisztéma javára váljon.

Az átláthatóság fontos, és elkötelezettek vagyunk aziránt, hogy nyíltak legyünk a Gemini fejlesztési folyamatával és korlátaival kapcsolatban. A Gemini nem egy varázsdoboz; folyamatosan fejlődik, és továbbra is meg fogjuk osztani az előrelépéseinkkel kapcsolatos híreket. Elindítottuk a Kiadott verziókkal kapcsolatos infók oldalt, ahol áttekintheti a Gemini legújabb funkcióit, fejlesztéseit és hibajavításait, és ezt az áttekintést adott esetben frissíteni fogjuk. Azonosítani fogjuk azokat a területeket, ahol hasznos a Gemini, és azokat is, ahol folytatnunk kell az iterálást és a fejlesztését. Rendszeresen adunk hozzá új képességeket, és izgatottan várjuk, hogy a folyamatos kutatással, teszteléssel és felhasználói visszajelzésekkel közösen jobbá tegyük a Geminit.

Elismerések

Nagyra tartjuk és elismerjük a Gemini app, a Google DeepMind, a megbízhatósági és biztonsági, valamint a Google Research csapatában dolgozó munkatársaink hihetetlen munkáját.

Írta:

James Manyika
A kutatási, technológiai és társadalmi ügyekért felelős vezető alelnök

Sissie Hsiao
A Google Segédért és a Gemini appért felelős alelnök és ügyvezető igazgató

Szerkesztői megjegyzés

Ez egy folyamatosan változó dokumentum, amelyet időnként frissítünk, miközben gyorsan fejlesztjük a Gemini app funkcióit, valamint foglalkozunk az LLM-ek kapcsán óhatatlanul felmerülő korlátokkal. Ezt az áttekintést legutóbb 2024. július 25-én frissítettük. A Gemini app legújabb frissítésével kapcsolatban keresse fel a Kiadott verziókkal kapcsolatos infók oldalt, vagy tájékozódjon a Google Keyword blogon.

3. A felhasználói utasításokra adott válaszok

A válaszgenerálás hasonlít arra, ahogyan egy ember egy kérdés megválaszolására alkalmas különböző megközelítéseken ötletel. Miután a felhasználó megadta az utasítást, a Gemini az utólagosan tanított LLM-et, az utasításban lévő kontextust és a felhasználóval folytatott interakciót felhasználva számos válaszverziót vázol fel. A válaszai generálásához külső forrásokat is felhasznál, például a Google Keresőt és/vagy valamelyiket a számos bővítményei közül, valamint a legutóbb feltöltött fájlokat (csak a Gemini Advanced esetén). Ez a folyamat lekérdezésaugmentációként ismert. Amikor a Gemini utasítást kap, megpróbálja lekérdezni a legmegfelelőbb információkat ezekből a külső forrásokból (pl. Google Keresőből), és pontosan megjeleníteni őket a válaszában. Az LLM-ek külső eszközökkel való kiegészítése egy aktív kutatási terület. Számos módon kerülhetnek hibák a rendszerbe – például a Gemini által a külső eszközök hívására használt lekérdezésnél, az eszközöktől kapott eredmények Gemini általi értelmezésénél, valamint a visszakapott eredmények Gemini által a végső válasz generálására való felhasználásánál. Ehhez a Gemini által generált válaszoknak nem szabad reflektálniuk az adott válasz létrehozásához használt egyéni eszközök teljesítményére.

Végül a végleges válasz megjelenítése előtt minden egyes potenciális válasz biztonsági ellenőrzésen esik át annak biztosítása érdekében, hogy megfeleljen az előre meghatározott irányelveknek. Ez a folyamat az ellenőrzéssel kiszűri a kártékony és sértő információkat. A fennmaradó válaszokat ezt követően minőség alapján rangsorolja a rendszer, és a legjobban teljesítő verziót vagy verziókat jeleníti meg a felhasználónak.

A Gemini szöveg- és képkimeneteit vízjelezzük is a SynthID-vel, az AI által létrehozott tartalmak vízjelezésére használt iparágvezető digitális eszközünkkel. A generált képek esetén a SynthID közvetlenül a képpontokba helyez el egy digitális vízjelet (amely az emberi szem számára észrevehetetlen). A SynthID egy fontos építőkocka a megbízhatóbb AI-azonosító eszközök kifejlesztéséhez, és segíthet az embereknek megalapozottabb döntéseket hozni arról, hogy hogyan használják az AI által létrehozott tartalmakat.

A Gemini app áttekintése

Mi az a Gemini?

Hatékonyság

Kreativitás

Kíváncsiság

A Gemini működése

Előzetes betanítás

Utólagos tanítás

Válaszok a felhasználói utasításokra

Emberi visszajelzés és értékelés

A Geminihez hasonló LLM-alapú interfészek ismert korlátai

Pontosság

Elfogultság

Több nézőpont

Személyiség

Hamis pozitív/hamis negatív eredmények

Sebezhetőség az ellenséges utasításokkal szemben

Hogyan folytatjuk a Gemini fejlesztését?

A Gemini-megközelítésünk alkalmazása

Felhasználói és megjelenítői vezérlők

Improving Gemini together

Elismerések

Régió és nyelv módosítása

Európa és Afrika

Amerika

Ázsia/Csendes-óceán

1. Előzetes betanítás

2. Utólagos tanítás

3. A felhasználói utasításokra adott válaszok

4. Emberi visszajelzés és értékelés