Skip to main content

Et overblik over Gemini-appen

Vi har længe været bevidste om, at AI kan gøre oplysninger og databehandling mere bredt tilgængelige og nyttige for folk. Vi har gjort banebrydende fremskridt inden for store sprogmodeller (LLM'er, large language models) og set stor fremgang både hos Google og i branchen generelt. Vi har i mange år brugt LLM'er i baggrunden til at forbedre mange af vores produkter, f.eks. autofuldførelse af sætninger i Gmail, forbedring af Google Oversæt og bedre forståelse af forespørgsler i Google Søgning. Vi fortsætter med at bruge LLM'er til mange Google-tjenester samt til at understøtte Gemini-appen, så folk får mulighed for at samarbejde direkte med generativ AI. Vores mål er at gøre Gemini-appen til den mest hjælpsomme og personlige AI-assistent på markedet ved at give brugerne direkte adgang til Googles nyeste AI-modeller.

Selvom vi står ved et vigtigt vendepunkt, og begejstringen for generativ AI er enorm, er vi stadig tidligt i teknologiens udvikling. Denne oversigt giver dig et overblik over, hvad tilgangen til vores arbejde med Gemini-appen ("Gemini") er, herunder brugeroplevelsen på mobil og web – hvad den er, hvordan den fungerer, og dens aktuelle funktioner og begrænsninger. Vores tilgang til at udvikle Gemini vil ændre sig, efterhånden som dens underliggende teknologi udvikler sig, og i takt med at vi lærer af løbende forskning, erfaringer og brugerfeedback.

Hvad er Gemini?

Gemini er en grænseflade til en multimodal LLM (håndtering af tekst, lyd, billeder og meget mere). Gemini er baseret på Googles banebrydende forskning i LLM'er, der begyndte med Word2Vec-artiklen i 2013, der foreslog nye modelarkitekturer, som kortlagde ord som matematiske begreber, efterfulgt af introduktionen af en neural samtalebaseret model i 2015. Denne tilgang viste, hvordan modeller kunne forudsige den næste sætning i en samtale baseret på den forrige sætning eller sætninger, hvilket førte til mere naturlige samtalebaserede oplevelser. I kølvandet på dette fulgte vores banebrydende arbejde med Transformer i 2017 og muligheden for turbaserede udvekslinger i 2020, som demonstrerede endnu mere overbevisende generative sprogfunktioner.

Vi lancerede oprindeligt Gemini (dengang kaldet Bard) som et eksperiment i marts 2023 i overensstemmelse med vores AI-principper. Siden da har brugerne benyttet Gemini til at skrive overbevisende mails, fejlrette komplekse kodningsproblemer, brainstorme idéer til kommende begivenheder, få hjælp til at forstå svære begreber og meget mere. I dag er Gemini et alsidigt AI-værktøj, der kan hjælpe dig på mange forskellige måder. Vi ser allerede nu, hvordan Gemini hjælper folk med at være mere produktive, mere kreative og mere nysgerrige, og vi tilføjer regelmæssigt nye funktioner og innovationer.

Produktivitet

Med Gemini kan du først og fremmest spare tid. Lad os f.eks. sige, at du gerne vil have et resumé af en lang forskningsartikel. Gemini giver dig mulighed for at uploade artiklen og giver dig så en nyttig opsummering. Gemini kan også hjælpe med kodningsopgaver, og kodning er hurtigt blevet en af modellens mest populære anvendelser.

Kreativitet

Gemini kan også hjælpe dig med at puste liv i dine idéer og slippe din kreativitet løs. Hvis du f.eks. skriver et blogopslag, kan Gemini lave et udkast og generere billeder, der hjælper med at give dit opslag et billedligt udtryk. Og med Gem-bots, der er lige på trapperne, kan du tilpasse Gemini med specifikke instruktioner og få den til at agere som en ekspert inden for et emne, så du kan få hjælp til at opnå dine personlige mål.

Nysgerrighed

Gemini kan være dit udgangspunkt, når du udforsker idéer og ting, du gerne vil lære mere om. F.eks. kan den forklare et komplekst begreb på en enkel måde eller vise relevante oplysninger om et emne eller et billede. Og snart vil den koble disse indsigter til anbefalet indhold fra hele nettet, så du kan blive klogere på specifikke emner.

Gemini bliver hurtigt og hele tiden bedre – snart vil du kunne pege din telefons kamera mod et objekt, f.eks. Golden Gate Bridge, og bede Gemini fortælle dig om farven (hvis du skulle være i tvivl, så kaldes den "International Orange"). Du vil også kunne få hjælp til at forstå en menu på et fremmedsprog og få anbefalet en ret, der sandsynligvis er noget for dig. Dette er blot to eksempler på de nye funktioner, der snart kommer til Gemini.

Selvfølgelig træner og overvåger vi Gemini grundigt for at sikre, at dens svar er pålidelige og lever op til dine forventninger. Vi taler også med brancheeksperter, undervisere, politiske beslutningstagere, erhvervsledere, forkæmpere for borger- og menneskerettigheder samt indholdsskabere for at udforske nye anvendelser, risici og begrænsninger ved denne nye teknologi.

Sådan fungerer Gemini

1

Forudtræning

2

Efter træning

3

Svar på brugernes prompter

4

Menneskelig feedback og evaluering

Kendte begrænsninger ved LLM-baserede grænseflader som Gemini

Gemini er blot en del af vores fortsatte indsats mod at udvikle LLM'er på ansvarlig vis. I forbindelse med dette arbejde har vi opdaget og diskuteret en række begrænsninger ved LLM'er. Her fokuserer vi på seks områder, der skal nærstuderes yderligere:

  • Nøjagtighed: Geminis svar kan være unøjagtige, især når den bliver bedt om at forholde sig til komplekse eller faktuelle emner.

  • Bias: Geminis svar kan afspejle bias, der findes i dens træningsdata.

  • Flere synspunkter: Geminis svar lykkes muligvis ikke med at præsentere forskellige synspunkter.

  • Persona: Geminis svar kan fejlagtigt give indtryk af, at den har personlige holdninger eller følelser.

  • Falske positiver og falske negativer: I nogle tilfælde kan Gemini undlade at svare på relevante prompter, og i andre tilfælde kan Gemini give et upassende svar.

  • Sårbarhed over for angreb med skadelige prompter: Brugere vil finde måder at stressteste Gemini på med meningsløse prompter eller spørgsmål, der sjældent stilles i den virkelige verden.

Vi fortsætter med at udforske nye tilgange og områder, der kan hjælpe os med at forbedre effektiviteten inden for hvert af disse områder.

Nøjagtighed

Gemini tager udgangspunkt i Googles forståelse af autoritative oplysninger og er trænet i at generere svar, der er relevante for konteksten i din prompt og det, du leder efter. Men som med alle LLM'er kan Gemini nogle gange generere overbevisende svar, der indeholder forkerte eller misvisende oplysninger.

LLM'er fungerer ved at forudsige det næste ord eller den næste sekvens af ord, og derfor er de endnu ikke fuldt ud i stand til at skelne mellem nøjagtige og unøjagtige oplysninger på egen hånd. Vi har set Gemini præsentere svar, der indeholder eller endda opfinder unøjagtige oplysninger (f.eks. ved at give forkerte oplysninger om, hvordan den blev trænet, eller foreslå navnet på en bog, der ikke eksisterer). Som følge af dette har vi skabt funktioner såsom "dobbelttjek", der anvender Google Søgning til at finde indhold, som hjælper dig med at vurdere Geminis svar, og giver dig links til kilder, så du nemmere kan tjekke de oplysninger, du får fra Gemini.

Bias

Træningsdata, herunder fra offentligt tilgængelige kilder, afspejler en bred vifte af synspunkter og holdninger. Vi fortsætter med at forske i, hvordan vi kan bruge disse data på en måde, der sikrer, at en LLM's svar inkorporerer et stort udvalg af meninger, samtidig med at unøjagtige overgeneraliseringer og bias minimeres.

Mangler, bias og overgeneraliseringer i træningsdata kan afspejles i en models output, idet den forsøger at forudsige sandsynlige svar på en prompt. Disse problemer kommer til udtryk på forskellige måder (f.eks. i form af svar, der kun tager højde for én kultur eller ét demografisk segment, svar, der tager udgangspunkt i problematiske overgeneraliseringer, svar, der afspejler bias om køn, religion eller etnicitet, eller svar, der kun fremmer ét synspunkt). I forbindelse med nogle emner mangler der data – sagt med andre ord, er der ikke nok pålidelige oplysninger om et givet emne, som LLM'en kan lære af og derefter bruge til at lave en god forudsigelse – hvilket kan medføre svar af lav kvalitet eller unøjagtige svar. Vi fortsætter med at arbejde med fageksperter og et bredt udvalg af fællesskaber for at drage fordel af deres ekspertise, som ikke er om Google.

Flere perspektiver

Når det gælder subjektive emner, er Gemini designet til at give brugerne flere perspektiver, hvis brugeren ikke anmoder om et bestemt synspunkt. Hvis brugeren f.eks. beder om oplysninger om noget, der ikke kan verificeres af fakta fra primære kilder eller autoritative kilder – såsom en subjektiv holdning om "det bedste" eller "det værste" ved noget – bør Gemini svare på en måde, der afspejler en bred vifte af synspunkter. Men eftersom LLM'er som Gemini trænes i det indhold, der er offentligt tilgængeligt på internettet, kan de afspejle både positive og negative opfattelser af specifikke politikere, kendte eller andre offentlige personer. De kan endda inkorporere holdninger, der kun afspejler den ene side af kontroversielle sociale eller politiske problemstillinger. Gemini bør ikke svare på en måde, der går ind for en bestemt holdning, når det gælder disse emner, og vi vil bruge feedback vedrørende disse typer svar til at træne Gemini til at håndtere dem bedre.

Persona

Gemini kan til tider generere svar, der kan give indtryk af, at den har meninger eller følelser – som kærlighed eller nedtrykthed – da den er trænet på sprog, som mennesker bruger til at udtrykke den menneskelige erfaring. Vi har udviklet et sæt retningslinjer omkring, hvordan Gemini kan fremstå (dvs. dens persona), og vi fortsætter med at finjustere modellen, så den kan give objektive svar.

Falske positiver/negativer

Vi har opstillet et sæt retningslinjer for politikker for at hjælpe med at træne Gemini og undgå generering af problematiske svar. Gemini kan af og til misforstå disse retningslinjer og producere "false positiver" og "falske negativer". I en "falsk positiv" giver Gemini muligvis ikke et svar på en rimelig prompt, da den fejlagtigt tolker prompten som upassende. I en "falsk negativ" genererer Gemini muligvis et upassende svar på trods af de gældende retningslinjer. Nogle gange kan forekomsten af falske positiver eller falske negativer give indtryk af, at Gemini er forudindtaget: For eksempel kan en falsk positiv få Gemini til ikke at svare på et spørgsmål om den ene side af en sag, mens den godt vil svare på det samme spørgsmål om den anden side af samme sag. For at holde trit med den rivende udvikling i sproget og samfundet fortsætter vi med at finjustere disse modeller, så de bedre kan forstå og kategorisere input og output.

Sårbarhed over for angreb med skadelige prompter

Vi forventer, at brugere vil teste grænserne for, hvad Gemini kan, og forsøge at bryde gennem dens sikkerhedsforanstaltninger, herunder ved at prøve at få den til at afsløre dens træningsprotokoller eller andre oplysninger, eller forsøge at omgå dens sikkerhedsmekanismer. Vi har testet og fortsætter med at teste Gemini omhyggeligt, men vi ved, at brugerne vil finde nye unikke og komplekse måder at stressteste den på. Dette er en vigtig del af finjusteringen af Gemini, og vi ser frem til at blive klogere på, hvilke nye prompter brugerne finder på. Siden lanceringen af Gemini i 2023 har vi faktisk set brugere udfordre den med prompter, der spænder fra det filosofiske til det meningsløse – og i nogle tilfælde har vi også set Gemini give svar, der enten er lige så meningsløse eller ikke stemmer overens med vores erklærede tilgang. Det er en vedvarende udfordring at finde metoder, som kan hjælpe Gemini med bedre at håndtere disse prompter. Vi arbejder løbende på at forbedre nøjagtigheden, objektiviteten og nuancerne ved at udvide vores interne evalueringer og benytte red-teams.

Sådan fortsætter vi med at udvikle Gemini

Anvendelse af vores Gemini-tilgang

Sammen med vores AI-principper præsenterede vi for nylig vores tilgang til vores arbejde med Gemini: Gemini skal følge dine anvisninger, tilpasse sig dine behov og værne om din oplevelse. Kernen i vores tilgang er et fokus på ansvar og sikkerhed. Geminis retningslinjer for politikker har til formål at undgå visse typer problematiske output. Vi tester løbende modellens modstandsdygtighed med interne "red-team"-medlemmer – produkteksperter og fagfolk inden for samfundsvidenskab, som bevidst stresstester en model for at undersøge eventuelle problemer med overholdelse af disse retningslinjer for politikker og vores overordnede tilgang til Gemini – så vi kan drage fordel af det, de lærer, og løbende forbedre Gemini.

Privatlivsbeskyttelse er også en prioritet under udviklingen af Gemini. Gå til Hjælp til privatliv for Gemini-apps for at få flere oplysninger om, hvordan vi skaber Gemini med indbygget privatlivsbeskyttelse og giver dig kontrollen.

Muliggørelse af kontrol til brugere og udgivere

Vi har skabt en række brugervenlige Gemini-indstillinger, som du kan bruge til at gennemgå, opdatere, administrere, eksportere og slette dine Gemini-data. Du kan tilgå og gennemgå dine Gemini-prompter, -svar og -feedback via Gemini-appens Aktivitetsadministration. Derudover kan du forhindre, at dine fremtidige Gemini-chatsamtaler bruges til at forbedre Googles maskinlæringsteknologier, ved at deaktivere indstillingen Gemini-appaktivitet. Og som med andre Google-tjenester kan du også downloade og eksportere dine oplysninger via Googles Takeout-værktøj. Vi har også de indstillinger, du skal bruge for at administrere offentlige links, du har oprettet til dine Gemini-tråde, og indstillinger, der giver dig mulighed for at aktivere/deaktivere adgangen til udvidelser (f.eks. Workspace, Maps og YouTube). Vi undersøger også nye måder at give dig mere kontrol over Geminis svar på, herunder ved at justere filtre, så et bredere udvalg af svar bliver muligt.

Til udgivere har vi lanceret Google-Extended, der er en indstilling, som webudgivere kan bruge til at administrere, om deres websites skal hjælpe med at forbedre generative API'er for Gemini og Vertex AI. Når Google-Extended gives adgang til indholdet på websites, kan det hjælpe AI-modeller med at blive mere nøjagtige og nyttige over tid. Udover ikke at bruge indholdet fra de webadresser, der er undtaget modeltræning, bruger Gemini heller ikke sådant indhold til begrundelser. Efterhånden som AI bliver mere udbredt, vil webudgivere stå over for en stigende kompleksitet i forhold til at håndtere forskellige anvendelser i stor skala, og vi vil samarbejde med web- og AI-fællesskaber om at udforske mere maskinaflæselige tilgange til valg og kontrol.

Forbedring af Gemini sammen

Vi tror på hurtig videreudvikling for at bringe det bedste fra Gemini til verden. Feedback fra brugerne har accelereret forbedringer af vores modeller. For eksempel bruger vi avancerede teknikker til forstærket læring til at træne vores modeller, så de bliver mere intuitive og fantasifulde og kan svare med højere kvalitet og større nøjagtighed. Vi investerer fortsat i forskning for at blive klogere på de tekniske, sociale og etiske udfordringer og muligheder ved LLM’er, både for at forbedre Geminis modeltræning og teknikker til finjustering og for at dele vores resultater med forskere, ligesom i denne nylige artikel om de etiske overvejelser i forbindelse med avancerede AI-assistenter. Vi arbejder målrettet på at udvikle ansvarligt inden for dette område og samarbejder med brugere, betroede testere og forskere om at finde måder, hvorpå denne nye teknologi kan komme hele økosystemet til gavn.

Gennemsigtighed er vigtigt, og vi stræber efter at være åbne omkring Geminis udviklingsproces og modellens begrænsninger. Gemini er ikke en magisk sort æske. Den udvikler sig konstant, og vi vil fortsætte med at dele opdateringer om vores fremgang. Vi har lanceret en side med udgivelsesopdateringer, så du kan se Geminis nyeste funktioner, forbedringer og fejlrettelser, og vi vil opdatere denne oversigt, når det er relevant. Vi vil identificere både, hvor Gemini er nyttig og hjælpsom, og hvor der er behov for, at vi fortsætter med at forbedre og udvikle den. Vi tilføjer løbende nye funktioner og ser frem til at forbedre Gemini i fællesskab med andre takket være forskning, tests og brugerfeedback.

Anerkendelse

Vi anerkender og værdsætter det fantastiske arbejde, som vores kolleger har bedrevet på teamet for Gemini-appen og hos Google DeepMind, Trust & Safety og Google Research.

Skrevet af

James Manyika
SVP, Research, Technology and Society

Sissie Hsiao
Vice President og General Manager, Google Assistent og Gemini-appen

Bemærkning fra redaktøren

Dette er et levende dokument, som løbende vil blive opdateret, i takt med at vi hurtigt forbedrer Gemini-appens funktioner og arbejder med de begrænsninger, der er forbundet med LLM’er. Denne oversigt blev sidst opdateret den 25. juli 2024. Få de seneste opdateringer om Gemini-appen ved at gå til loggen Udgivelsesopdateringer eller læse mere på Google Keyword-bloggen.

Sådan fungerer Gemini

1 Forudgående træning

Gemini kører på Googles mest avancerede AI-modeller, der er designet med forskellige funktioner og til forskellig brug. Som de fleste LLM'er i dag er disse modeller forudtrænet på en bred vifte af data fra offentligt tilgængelige kilder. Vi anvender kvalitetsfiltre på alle datasæt, herunder både heuristiske regler og modelbaserede klassificeringsalgoritmer. Vi udfører også sikkerhedsfiltrering for at fjerne indhold, der med stor sandsynlighed vil føre til output, som overtræder retningslinjerne. For at opretholde integriteten af modelevalueringerne søger vi efter og fjerner eventuelle evalueringsdata, der måtte have indgået i vores træningsmateriale, inden vi bruger dataene til træning. Den endelige sammensætning af datasæt og vægtninger fastlægges gennem ablation på mindre modeller. Vi tilrettelægger træningen, så sammensætningen af datasættene ændres undervejs – og øger vægtningen af områderelevant data mod slutningen af træningen. Datakvalitet kan være en vigtig faktor for højtydende modeller, og vi mener, at der stadig er mange interessante spørgsmål i forhold til at finde den optimale fordeling af datasæt til forudtræning.

Denne forudtræning gør det muligt for modellen at registrere mønstre i sprog og bruge dem til at forudsige det næste sandsynlige ord eller den næste sekvens af ord. I takt med at en LLM lærer nye ting, kan den f.eks. forudsige, at det næste ord i "stegt flæsk med _______" sandsynligvis er "persillesovs" og ikke "skosnører". Men hvis en LLM kun vælger det mest sandsynlige næste ord, kan det gå ud over kreativiteten i svarene. Derfor gives LLM'er ofte fleksibilitet til at vælge mellem rimelige, omend lidt mindre sandsynlige, muligheder (f.eks. "løgsovs") med henblik på at generere mere interessante svar. Det er værd at bemærke, at selvom LLM'er klarer sig godt, når det gælder faktuelle prompter, og giver indtryk af, at de indhenter oplysninger, er de hverken databaser over oplysninger eller deterministiske systemer til informationshentning. Så selvom du kan forvente et konsekvent svar på en databaseforespørgsel (som er en bogstavelig hentning af de konkrete oplysninger, der er lagret i databasen), vil en LLM's svar på den samme prompt ikke nødvendigvis være det samme hver gang (og den vil heller ikke bogstaveligt hente de oplysninger, den blev trænet på). Dette er også en stor del af årsagen til, at LLM'er kan generere svar, der lyder som et plausibelt svar, men som af og til indeholder faktuelle fejl. Dette er ikke optimalt, når den faktuelle karakter af svaret er det vigtigste, men det kan være nyttigt i forhold til at generere kreative eller uforudsigelige svar.

2 Efterfølgende træning

Efter den indledende træning skal LLM'er gennemgå yderligere trin for at finjustere deres svar. Et af disse trin kaldes overvåget finjustering (SFT, Supervised Fine-Tuning), som træner modellen på nøje udvalgte eksempler på fremragende svar. Det er som at lære børn at skrive ved at vise dem velskrevne historier og essays.

Derefter følger forstærket læring fra menneskelig feedback (RLHF, Reinforcement Learning from Human Feedback). Her lærer modellen at generere endnu bedre svar baseret på bedømmelser eller feedback fra en særlig belønningsmodel. Denne belønningsmodel er trænet på data baseret på menneskelige præferencer, hvor svarene er blevet bedømt i forhold til hinanden, så den lærer, hvad folk foretrækker. Præferencedata kan nogle gange omfatte og eksponere modeller for stødende eller ukorrekte data, så de kan lære, hvordan de genkender og undgår disse data. Præferencedata er ligesom, når du belønner et barn for at have gjort en god gerning – modellen belønnes for at skabe svar, som folk kan lide.

I disse faser er det vigtigt at bruge træningsdata af høj kvalitet. De eksempler, der bruges til SFT, er typisk enten skrevet af eksperter eller genereret af en model og gennemgået af eksperter.

Selvom disse teknikker er effektive, har de deres begrænsninger. F.eks. er et givet svar muligvis ikke altid perfekt, selvom belønningsmodellen har hjulpet. Alligevel er LLM'en optimeret til at producere de mest bredt foretrukne svar baseret på den feedback, den modtager, ligesom studerende, der lærer af underviserens kommentarer.

3 Svar på brugernes prompter

Generering af svar fungerer ligesom, når et menneske brainstormer forskellige tilgange til besvarelse af et spørgsmål. Når en bruger skriver en prompt, bruger Gemini den trænede LLM, konteksten i prompten og interaktionen med brugeren til at generere flere versioner af et svar. Den benytter også eksterne kilder såsom Google Søgning og/eller en af dens mange udvidelser samt nyligt uploadede filer (kun Gemini Advanced) til at generere sine svar. Denne proces kaldes "retrieval augmentation". Når Gemini får en prompt, prøver den at hente de mest relevante oplysninger fra disse eksterne kilder (f.eks. Google Søgning) og repræsentere dem på nøjagtig vis i sit svar. Der arbejdes flittigt på at gøre LLM'er mere effektive ved hjælp af eksterne værktøjer. Der er flere måder, hvorpå fejl kan opstå, herunder i den forespørgsel, Gemini bruger til at aktivere disse eksterne værktøjer, i måden Gemini fortolker de resultater, værktøjerne returnerer, og i den måde, disse resultater bruges til at generere det endelige svar. Derfor bør de svar, Gemini genererer, ikke opfattes som et udtryk for, hvor godt de enkelte værktøjer, der blev brugt til at generere svaret, fungerer.

Til sidst, før det endelige svar vises, gennemgår hvert muligt svar et sikkerhedstjek for at sikre, at det overholder de foruddefinerede retningslinjer for politikker. Denne proces fungerer som en ekstra kontrol, der bortfiltrerer skadeligt eller stødende indhold. De resterende svar rangeres derefter baseret på deres kvalitet, og de bedst bedømte versioner præsenteres for brugeren.

Vi vandmærker også Gemini-tekst- og -billedoutput ved hjælp af SynthID, der er vores brancheførende digitale værktøj til vandmærkning af AI-genereret indhold. I forbindelse med genererede billeder tilføjer SynthID et digitalt vandmærke (et, der ikke kan ses med det blotte øje) direkte ind i billedets pixels. SynthID er en vigtig byggesten, når det gælder udvikling af mere pålidelige værktøjer til identificering af AI, og kan hjælpe folk med at træffe velinformerede beslutninger om, hvordan de interagerer med AI-genereret indhold.

4 Menneskelig feedback og evaluering

Selvom der foretages sikkerhedstjek, kan der stadig opstå fejl. Og Geminis svar lever muligvis ikke altid op til dine forventninger. Det er her, at menneskelig feedback kommer ind i billedet. De eksperter, der vurderer kvaliteten af svarene, identificerer ting, der kan forbedres, og foreslår løsninger. Denne feedback bliver en del af Geminis læringsproces, som er beskrevet ovenfor i sektionen "Efter træning".