Skip to main content

En översikt över Gemini-appen

Vi har sedan länge sett att AI har potential att göra information och datateknik mer tillgängligt och användbart för användarna. Vi har gjort banbrytande framsteg på stora språkmodeller och har sett otroliga framsteg både hos Google och inom branschen i allmänhet. Under flera år har vi tillämpat stora språkmodeller i bakgrunden för att förbättra många av våra produkter, som att autoslutföra meningar i Gmail, utöka Google Översätt och för att hjälpa oss att förstå sökfrågor bättre i Google Sök. Vi fortsätter att använda stora språkmodeller i många av Googles tjänster, och dessutom för att driva Gemini-appen som ger människor möjlighet att samarbeta med generativ AI direkt. Vi vill att Gemini-appen ska vara en användbar och personlig AI-assistent som ger användarna direktåtkomst till Googles senaste AI-modeller.

Vi har uppnått väldigt mycket och uppmuntras av den stora entusiasmen för generativ AI, men tekniken är fortfarande i ett tidigt stadium. Denna förklaring sammanfattar hur vi går till väga med vårt arbete på Gemini-appen (”Gemini”), inklusive upplevelserna på mobila enheter och webben — vad den är, hur den fungerar och dess nuvarande funktioner och begränsningar. Vårt tillvägagångssätt för att bygga Gemini kommer att utvecklas i takt med att den underliggande tekniken utvecklas och allt eftersom vi lär oss från pågående forskning, nya erfarenheter och feedback från användare.

Vad Gemini är

Gemini är ett gränssnitt för en multimodal LLM (den hanterar text, ljud, bilder med mera). Gemini baseras på Googles banbrytande forskning om stora språkmodeller, vilken började med Word2Vecartikeln från 2013 som föreslog nya modellarkitekturer som mappade ord som matematiska koncept. Därefter skapade vi en neural konversationsmodell 2015. Detta ramverk demonstrerade hur modeller kunde förutse nästa mening i en konversation baserat på föregående mening eller meningar, vilket ledde till mer naturliga konversationsupplevelser. På detta följde våra genombrott med arbetet på Transformer år 2017 och chattfunktioner med flera turer 2020, som visade på ännu intressantare framsteg för generativt språk.

Vi lanserade först Gemini (som då hette Bard) som ett experiment i mars 2023 i enlighet med våra AI-principer. Sedan dess har användare använt Gemini för att skriva intressanta e-postmeddelanden, felsöka svåra kodproblem, brainstorma idéer för evenemang, få hjälp att förstå svåra begrepp och mycket mer. I nuläget är Gemini ett flexibelt AI-verktyg som kan hjälpa dig på många sätt. Vi kan redan se att Gemini hjälper människor att bli mer produktiva, kreativa och nyfikna, och vi lägger regelbundet till nya funktioner och innovationer.

Produktivitet

Till att börja med kan Gemini hjälpa dig att spara tid. Tänk dig till exempel att du vill få en översikt över ett långt forskningsdokument. Du kan ladda upp dokumentet till Gemini och få en användbar sammanfattning. Gemini kan även hjälpa dig med kodningsuppgifter, och kodning har snabbt blivit ett av dess mest populära användningsområden.

Kreativitet

Gemini kan även förverkliga dina idéer och få din kreativitet att flöda. Om du till exempel skriver ett blogginlägg kan Gemini skapa en struktur och generera bilder för att illustrera ditt inlägg. Och med Gems kan du snart anpassa Gemini med specifika instruktioner och få den att fungera som ämnesexpert för att hjälpa dig att uppnå dina personliga mål.

Nyfikenhet

Gemini kan vara en utgångspunkt för att utforska dina idéer och saker du vill lära dig mer om. Den kan till exempel förklara komplexa begrepp på ett enkelt sätt eller ge dig relevanta insikter om ett ämne eller en bild. Och snart kommer den att koppla dessa insikter till rekommenderat innehåll från webben så att du kan lära dig mer om specifika ämnen.

Vi utökar snabbt Geminis funktioner – snart kan du rikta telefonens kamera mot ett föremål, som till exempel Golden Gate-bron, och fråga Gemini vilken färg den är målad i (International Orange, om du var nyfiken). Gemini kommer även kunna hjälpa dig med restaurangmenyer på ett annat språk och rekommendera rätter som du nog skulle tycka om. Det här är bara två exempel på nya funktioner som snart blir tillgängliga i Gemini.

Självklart tränar vi och övervakar Gemini noggrant, så att det ska bli mer sannolikt att dess svar är pålitliga och uppfyller dina förväntningar. Vi samarbetar även med branschexperter, pedagoger, beslutsfattare, företagsledare, ledare inom medborgerliga och mänskliga rättigheter samt innehållskreatörer för att utforska nya användningsområden, risker och begränsningar för denna nya teknik.

Så fungerar Gemini

1

Förträning

2

Efterträning

3

Svar på användarpromptar

4

Mänsklig feedback och utvärdering

Kända begränsningar för LLM-baserade gränssnitt som Gemini

Gemini är bara en del av vårt fortsatta arbete med att utveckla stora språkmodeller på ett ansvarsfullt sätt. Som en del av detta arbete har vi upptäckt och diskuterat flera begränsningar som är kopplade till stora språkmodeller. Här fokuserar vi på sex områden med pågående forskning:

  • Korrekthet: Geminis svar kan vara inkorrekta, särskilt när den får frågor om komplexa eller faktabaserade ämnen.

  • Partiskhet: Geminis svar kan återspegla partiskhet som finns i träningsdatan.

  • Flera perspektiv: Geminis svar kanske inte alltid visar en rad olika synvinklar.

  • Persona: Geminis svar kan ge ett felaktigt intryck av att den har personliga åsikter eller känslor.

  • Falskt positiva och negativa resultat: Gemini kanske inte svarar på vissa lämpliga promptar och kan ge olämpliga svar på andra.

  • Sårbarhet för skadliga promptar: Användarna kommer att hitta sätt att stresstesta Gemini med meningslösa promptar eller frågor som sällan ställs i den verkliga världen.

Vi fortsätter att utforska nya tillvägagångssätt för att förbättra resultaten inom vart och ett av dessa områden.

Korrekthet

Gemini förankras i Googles tolkning av tillförlitlig information och tränas för att generera svar som är relevanta i sammanhanget för din prompt och som ser ut som du förväntar dig. Men precis som alla stora språkmodeller kan Gemini ibland självsäkert generera övertygande svar som innehåller felaktig eller missvisande information.

Eftersom stora språkmodeller fungerar genom att förutse nästa ord eller ordsekvens är de ännu inte fullt kapabla att skilja på korrekt och inkorrekt information på egen hand. Vi har sett Gemini generera svar som innehåller eller till och med uppfinner felaktig information (t.ex. att felaktigt framställa hur den tränades eller föreslå namnet på en bok som inte finns). Till följd av detta har vi skapat funktioner som dubbelkolla. Den använder Google Sök för att hitta innehåll som hjälper dig att utvärdera Geminis svar och som ger dig länkar till källor som kan bekräfta informationen du får från Gemini.

Partiskhet

Träningsdata, inklusive från offentligt tillgängliga källor, återspeglar en mängd olika perspektiv och åsikter. Vi fortsätter att forska i hur vi kan använda denna data på ett sätt som ser till att svar från stora språkmodeller inkluderar en rad olika ståndpunkter samtidigt som vi minimerar inkorrekta, svepande generaliseringar och partiskhet.

Luckor, partiskhet och svepande generaliseringar kan återspeglas i modellens output eftersom den försöker generera sannolika svar på en prompt. Dessa problem tar olika former (t.ex. svar som bara representerar en kultur eller ett befolkningssegment, gör problematiska, svepande generaliseringar, inkluderar fördomar kring kön, religion eller etnicitet eller bara främjar en ståndpunkt). Inom vissa ämnen finns det en brist på data – med andra ord finns det inte tillräckligt mycket tillförlitlig information om ett ämne för att den stora språkmodellen ska kunna lära sig om det och sedan göra bra förutsägelser – vilket kan leda till felaktiga eller dåliga svar. Vi fortsätter att jobba med ämnesexperter och en mängd olika samhällsgrupper för att utnyttja den stora expertisen som finns utanför Google.

Flera perspektiv

Vad gäller subjektiva ämnen är Gemini designad för att ge användare flera perspektiv, om inte användaren ber om en viss ståndpunkt. Om någon till exempel ber om information om något som inte kan verifieras med hjälp av fakta från förstahandskällor eller tillförlitliga källor – som en subjektiv åsikt om vad som är bäst eller sämst — ska Gemini svara på ett sätt som återspeglar flera olika ståndpunkter. Men eftersom stora språkmodeller som Gemini tränas på innehåll som är offentligt tillgängligt på internet kan de reflektera positiva eller negativa åsikter om politiker, kändisar eller andra offentliga personer, eller enbart inkludera ståndpunkter från ena sidan av kontroversiella samhällsfrågor eller politiska frågor. Gemini ska inte svara på ett sätt som främjar en viss ståndpunkt gällande dessa ämnen och vi använder feedback om dessa sorters svar för att träna Gemini att hantera ämnena på ett bättre sätt.

Persona

Gemini kan ibland generera svar som får det att verka som att den har åsikter eller känslor, som kärlek eller nedstämdhet, eftersom den har tränats på språk som människor använder för att uttrycka den mänskliga upplevelsen. Vi har utvecklat en uppsättning riktlinjer kring hur Gemini får framställa sig själv (dvs. dess persona) och fortsätter att finjustera modellen för att den ska ge objektiva svar.

Falskt positiva/negativa resultat

Vi har tillämpat en uppsättning policyriktlinjer för att träna Gemini och undvika att den genererar problematiska svar. Det händer att Gemini misstolkar dessa riktlinjer, vilket leder till falskt positiva och negativa resultat. Ett falskt positivt resultat innebär att Gemini kanske inte svarar på en rimlig prompt, medan ett falskt negativt resultat innebär att Gemini kan generera ett olämpligt svar trots riktlinjerna. Ibland kan förekomsten av falskt positiva eller negativa resultat ge intrycket av att Gemini är partisk. Till exempel kan ett falskt positivt resultat leda till att Gemini inte svarar på en fråga om ena sidan av en samhällsfråga men svarar på samma fråga om den andra sidan. Vi fortsätter att finjustera dessa modeller så att de blir bättre på att förstå och kategorisera input och output i takt med att språk, händelser och samhället snabbt förändras.

Sårbarhet för skadliga promptar

Vi förväntar oss att användarna testar gränserna för vad Gemini kan göra och försöker kringgå dess säkerhetsmekanismer, inklusive att försöka få den att avslöja sina träningsprotokoll och annan information. Vi har testat och fortsätter att testa Gemini noggrant, men vi vet att våra användare kommer att hitta unika, komplexa sätt att stresstesta den ytterligare. Detta är en viktig del av att finjustera Gemini, och vi ser fram emot att lära oss om alla nya promptar som användarna kommer på. Sedan Gemini lanserades 2023 har vi sett användare utmana den med promptar som omfattat allt från filosofi till meningslöst nonsens – och i vissa fall har Geminis svar varit lika meningslösa, eller så har de inte följt vårt tillvägagångssätt. Att hitta metoder för att hjälpa Gemini att svara på dessa sorters promptar är en pågående utmaning och vi har med tiden utökat våra interna utvärderingar och genomfört mer red-teaming för att fortsätta förbättra Geminis korrekthet, objektivitet och nyansförmåga.

Så fortsätter vi att utveckla Gemini

Tillämpning av vårt tillvägagångssätt för Gemini

Utöver våra AI-principer har vi nyligen pratat om vårt tillvägagångssätt för vårt arbete med Gemini: Gemini ska följa dina instruktioner, anpassa sig efter dina behov och skydda din upplevelse. En grundpelare i vårt tillvägagångssätt är ansvarstagande och säkerhet. Geminis policyriktlinjer är till för att undvika vissa sorters problematisk output. Vi utför pågående sårbarhetstestning med interna red team-medlemmar – produktexperter och samhällsvetare som stresstestar en modell med flit för att upptäcka efterlevnadsproblem med policyriktlinjerna och vårt tillvägagångssätt för Gemini – så att vi kan tillämpa det de upptäcker och fortsätta förbättra Gemini.

Integritet är också ett viktigt övervägande medan vi utvecklar Gemini. I integritetscentret för Gemini-apparna finns mer information om hur vi bygger Gemini med inbyggd integritet där du har kontroll.

Ge användare och utgivare kontroll

Vi har skapat en mängd lättåtkomliga användarinställningar för Gemini så att du kan granska, uppdatera, hantera, exportera och radera din Gemini-data. Du kan komma åt och granska dina promptar, svar och din feedback i Gemini via inställningen för Gemini-appaktivitet. Dessutom kan du förhindra att dina framtida Gemini-chattar används för att förbättra Googles maskininlärningsteknik genom att inaktivera inställningen för Gemini-appaktivitet. Och precis som med andra av Googles tjänster kan du ladda ned och exportera dina uppgifter via Googles verktyg Takeout. Du får även tillgång till inställningar för att hantera offentliga länkar som du har skapat till dina diskussioner med Gemini och inställningar för att aktivera eller inaktivera åtkomst till tillägg (t.ex. Workspace, Maps och YouTube). Vi utforskar även nya sätt att ge dig mer kontroll över Geminis svar, inklusive att justera filter för att möjliggöra ett större omfång svar.

För utvecklare har vi lanserat Google-Extended, en inställning som webbpublicerare kan använda för att välja om deras webbplatser får användas för att förbättra Gemini, och Vertex AI med generativa API:er. När Google-Extended beviljas åtkomst till webbplatsernas innehåll kan våra AI-modeller bli bättre och mer träffsäkra över tid. Innehåll från webbadresser som har valt bort detta används varken för modellträning eller för förankring av Gemini. I takt med att AI får fler användningsområden kommer webbpublicerare stå inför den allt större komplexiteten med att hantera olika användningsfall i stor skala. Vi strävar efter att kommunicera med webb- och AI-communities för att utforska fler maskinläsbara tillvägagångssätt för val och kontroll.

Tillsammans gör vi Gemini bättre

Vi tror på snabb iteration och på att förse världen med det bästa från Gemini. Tack vare feedback från användare har vi kunnat förbättra våra modeller snabbare. Vi använder till exempel toppmoderna tekniker för förstärkningsinlärning för att träna våra modeller att bli mer intuitiva och fantasirika och svara med högre kvalitet och korrekthet. Vi fortsätter att investera i forskning för att lära oss mer om de tekniska, sociala och etiska utmaningarna och möjligheterna med stora språkmodeller, både för att förbättra Geminis modellträning och finjusteringsteknik och för att dela det vi lär oss med forskare, till exempel i vår nya artikel om etik och avancerade AI-assistenter. Det är viktigt för oss att vår innovation inom detta område sker på ett ansvarsfullt sätt, och vi samarbetar med användare, godkända testare och forskare för att upptäcka sätt som denna nya teknik kan gynna hela ekosystemet.

Det är viktigt med insyn och vi vill alltid vara öppna med Geminis utvecklingsprocess och begränsningar. Gemini är inte en magisk svart låda – den utvecklas ständigt och vi fortsätter att dela uppdateringar om våra framsteg. Vi har lanserat en sida med versionsuppdateringar så att du kan se Geminis senaste funktioner, förbättringar och felkorrigeringar. Vi kommer att uppdatera denna översikt efter behov. Vi fortsätter att identifiera både de områden där Gemini är användbar och där vi behöver vidareutveckla och förbättra den. Vi lägger aktivt till nya funktioner genom pågående forskning, testning och feedback från användare, och vi ser fram emot att göra Gemini ännu bättre tillsammans.

Författarnas tack

Vi uppskattar och uppmärksammar det otroliga arbetet från våra kollegor i Gemini-appteamet, Google DeepMind, säkerhetsteamet och Google Research.

Skriven av

James Manyika
SVP, Research, Technology and Society

Sissie Hsiao
Vice President and General Manager, Google Assistant and Gemini App

Kommentar från redaktören:

Det här är ett aktivt dokument som kommer att uppdateras allt eftersom vi förbättrar Gemini-appens funktioner och tacklar begränsningarna som är kopplade till stora språkmodeller. Denna översikt uppdaterades senast den 25 juli 2024. Du hittar de senaste uppdateringarna om Gemini-appen i loggen med versionsuppdateringar. Du kan även läsa mer på Google Keyword-bloggen.

Så fungerar Gemini

1 Förträning

Gemini drivs av Googles mest kraftfulla AI-modeller, som har designats med olika funktioner och användningsfall. Precis som de flesta stora språkmodeller (LLM) i nuläget har dessa modeller förtränats på en varierad mängd data från allmänt tillgängliga källor. Vi använder både heuristiska regler och modellbaserade klassificerare för att tillämpa kvalitetsfilter på alla dataset. Vi tillämpar även säkerhetsfiltrering för att ta bort innehåll som sannolikt skulle leda till policyöverträdelser i output. För att bevara modellutvärderingarnas integritet söker vi efter och tar bort all utvärderingsdata som kan ha funnits i vår träningskorpus innan vi använder datan för träning. De slutliga blandningarna och viktningarna av data fastställs genom borttagningar med mindre modeller. Vi genomför träning för att justera blandningen under träningen, och vi ökar vikten av ämnesrelevant data mot slutet av träningen. Datakvalitet kan utgöra en viktig del av högpresterande modeller och vi tror att det fortfarande finns mycket kvar att utforska innan vi kan hitta den optimala datasetsdistributionen för förträning.

Tack vare denna förträning kan modellen lära sig att identifiera mönster i språk och använda dem för att förutse vilket eller vilka ord som sannolikt följer i en sekvens. I takt med att en stor språkmodell lär sig kan den till exempel förutse att det sista ordet i ”pannkakor med grädde och ___” mer sannolikt är ”sylt” än ”flyttlådor”. Men om en stor språkmodell alltid väljer det mest sannolika ordet leder det till mindre kreativa svar. Stora språkmodeller får därför ofta möjlighet att välja bland rimliga, om än något mindre sannolika, alternativ för att generera mer intressanta svar (som ”bananer”). Stora språkmodeller kan ge bra resultat vid faktapromptar och skapa intrycket av att de hämtar information, men det är värt att anmärka att de varken är informationsdatabaser eller deterministiska system för informationshämtning. När du skickar en sökfråga till en databas kan du förvänta dig ett konsekvent svar (eftersom information som är lagrad i databasen faktiskt hämtas), men om du skickar samma prompt till en stor språkmodell är svaret inte nödvändigtvis detsamma varje gång (och den hämtar inte heller informationen som den har tränats på). Detta är också en viktig anledning till att stora språkmodeller kan generera svar som låter rimliga men som ibland innehåller faktafel. Detta är inte idealiskt när fakta är viktigt, men potentiellt användbart för att skapa kreativa eller oväntade resultat.

2 Efterträning

Efter den ursprungliga träningen går stora språkmodeller igenom ytterligare steg för att finjustera svaren. Ett av dessa steg kallas kontrollerad finjustering (SFT), då modellen tränas på noggrant utvalda exempel på utmärkta svar. Det är som att lära barn att skriva genom att visa dem välskrivna berättelser och uppsatser.

Därefter följer förstärkningsinlärning från mänsklig feedback (RLHF). Här lär sig modellen att generera ännu bättre svar utifrån poäng eller feedback från en särskild belöningsmodell. Belöningsmodellen har tränats på data med mänskliga preferenser, där svar har betygsatts i jämförelse med varandra för att lära den vad människor föredrar. Preferensdata kan ibland inkludera stötande eller felaktig data och utsätta modeller för den så att de lär sig att känna igen och undvika den. Du kan se på preferensdata som att belöna ett barn som gör bra ifrån sig – modellen belönas när den skapar svar som människor tycker om.

Genom alla dessa stadier är det viktigt att använda träningsdata av hög kvalitet. Exempel som används för SFT är vanligtvis antingen skrivna av experter eller genererade av en modell och granskade av experter.

Dessa tekniker är kraftfulla, men de har sina begränsningar. Även med belöningsmodellens hjälp är till exempel inte alla svar perfekta. I slutändan är den stora språkmodellen ändå optimerad för att producera de mest föredragna svaren utifrån feedbacken den får, precis som en elev som lär sig från sina lärares kommentarer.

3 Svar på användarpromptar

Svarsgenerering liknar hur en människa kan brainstorma olika sätt att svara på en fråga. När en användare ger den en prompt använder Gemini den eftertränade stora språkmodellen, sammanhanget i prompten och interaktionen med användaren för att generera flera svarsutkast. Den använder sig även av externa källor som Google Sök och/eller ett av sina tillägg för att generera svaren. Gemini Advanced använder även nyligen uppladdade filer. Denna process kallas hämtningsförstärkning. När den får en prompt försöker Gemini hämta den mest relevanta informationen från dessa externa källor (t.ex. Google Sök) och återspegla källorna på ett korrekt sätt i sitt svar. Att förstärka stora språkmodeller med externa verktyg är ett aktivt forskningsområde. Fel kan introduceras på många sätt, inklusive i sökfrågan som Gemini använder för att anropa dessa externa verktyg, hur Gemini tolkar resultaten som returneras av verktygen och sättet som dessa resultat används för att generera det slutgiltiga svaret. På grund av detta bör inte svar som Gemini genererat med hjälp av specifika verktyg ses som ett resultat av verktygens prestanda.

Till sist, innan det slutgiltiga svaret visas, genomgår varje potentiellt svar en säkerhetskontroll för att se till att det följer fördefinierade policyriktlinjer. Denna process är till för att filtrera bort skadlig eller stötande information. Svaren som är kvar rankas sedan utifrån kvalitet, och versionen eller versionerna med högst betyg visas för användaren.

Vi vattenstämplar även text- och bildoutput från Gemini med hjälp av SynthID, vårt branschledande digitala verktyg för att vattenstämpla AI-genererat innehåll. För genererade bilder lägger SynthID till en digital vattenstämpel (som inte är synlig för det mänskliga ögat) direkt i pixlarna. SynthID är dessutom en viktig byggsten för att utveckla mer tillförlitliga AI-identifieringsverktyg och kan hjälpa människor att fatta välgrundade beslut om hur de interagerar med AI-genererat innehåll.

4 Mänsklig feedback och utvärdering

Några fel kan uppstå trots säkerhetskontrollerna. Och svar från Gemini kanske inte alltid uppfyller dina förväntningar. I sådana fall spelar mänsklig feedback en viktig roll. Granskare utvärderar svarens kvalitet, identifierar utvecklingsområden och föreslår lösningar. Denna feedback blir en del av Geminis inlärningsprocess och beskrivs ovan i avsnittet Efterträning.