Übersicht der Gemini App
Wir haben schon lange das Potenzial von KI erkannt, Informationen und Technologie für die Menschen besser zugänglich und noch nützlicher zu machen. So haben wir bahnbrechende Innovationen bei der Entwicklung von LLMs erzielt und bereits große Fortschritte verzeichnet – bei Google selbst und auch auf diesem Gebiet im Allgemeinen. Außerdem nutzen wir LLMs schon seit einigen Jahren im Hintergrund, um viele unserer Produkte zu optimieren, zum Beispiel für die Autovervollständigung von Sätzen in Gmail, die Bereitstellung von Google Übersetzer in weiteren Sprachen und ein besseres Verständnis der Suchanfragen in der Google Suche. Wir setzen bei vielen Google-Diensten auch weiterhin auf LLMs – beispielsweise bei der Gemini App, die es ermöglicht, direkt mit generativer KI zu interagieren. Wir wollen die Gemini App zum hilfreichsten und persönlichsten KI-Assistenten machen und Nutzerinnen und Nutzern Zugriff auf die neuesten KI-Modelle von Google bieten.
Wir befinden uns an einem entscheidenden Wendepunkt und freuen uns über die allgemeine Begeisterung für generative KI, doch diese Technologie steckt noch in den Kinderschuhen. In diesem Artikel möchten wir sowohl die mobile als auch die webbasierte Gemini App genauer vorstellen – das Konzept, die Funktionsweise und die aktuellen Möglichkeiten und Einschränkungen. Unsere Herangehensweise bei Gemini wird sich ebenso wie die zugrundeliegende Technologie im Laufe der Zeit weiterentwickeln, da wir ständig aus der aktuellen Forschung, Erfahrungswerten und Nutzerfeedback lernen.
Was ist Gemini?
Gemini ist die Benutzeroberfläche für ein multimodales LLM, das unter anderem Text, Audio und Bilder verarbeiten kann. Gemini basiert auf den wegweisenden Forschungsergebnissen von Google zu LLMs – darunter der Artikel Word2Vec aus dem Jahr 2013 zu neuartigen Modellarchitekturen, bei denen Wörter mathematischen Konzepten zugeordnet werden, sowie die Vorstellung eines neuronalen dialogorientierten Modells im Jahr 2015. Dabei wurde ein Framework verwendet, mit dem der nächste Satz in einer Unterhaltung basierend auf dem vorherigen Satz (oder den vorherigen Sätzen) vorhergesagt werden konnte. Dadurch wurde ein natürlicherer Gesprächsfluss möglich. Darauf folgte unsere bahnbrechende Forschung zu Transformer im Jahr 2017 und Multi-Turn-Unterhaltungen im Jahr 2020, die die enormen Fortschritte im Bereich der generativen Sprachmodelle zeigten.
Gemini basiert auf unseren KI-Grundsätzen und wurde im März 2023 unter dem Namen Bard als Experiment veröffentlicht. Seitdem verwenden Nutzerinnen und Nutzer Gemini, um zum Beispiel überzeugende E‑Mails zu schreiben, knifflige Programmieraufgaben zu lösen, Ideen für die Eventplanung zu brainstormen und komplexe Sachverhalte leichter zu verstehen. Gemini hat sich zu einem vielseitigen KI-Tool entwickelt, das Menschen bei allen möglichen Aufgaben unterstützen kann. Gemini hilft dabei, produktiver, kreativer und neugieriger zu sein. Und wir erweitern die Möglichkeiten ständig mit neuen Funktionen und Innovationen.
Produktivität
Mit Gemini kannst du wertvolle Zeit sparen. Wenn du zum Beispiel einen langen Recherchebericht zusammenfassen möchtest, kannst du ihn hochladen und Gemini erledigt den Rest. Gemini kann dir auch bei Programmieraufgaben helfen – ein Anwendungsfall, der in letzter Zeit immer beliebter geworden ist.
Kreativität
Gemini kann deine Ideen zum Leben erwecken und dich inspirieren. Wenn du zum Beispiel einen Blogpost schreibst, kann Gemini eine Kurzfassung davon erstellen und passende Bilder dazu generieren. Demnächst kannst du Gemini mithilfe von Gems personalisieren: Anhand deiner Anweisungen unterstützt dich die KI dann mit Fachwissen zu einem bestimmten Thema, damit du deine persönlichen Ziele leichter erreichen kannst.
Neugierde
Gemini kann als Ausgangspunkt dienen, wenn du Ideen ausarbeiten oder mehr über ein Thema erfahren möchtest. So kann Gemini beispielsweise ein komplexes Konzept verständlich erklären oder relevante Punkte zu einem bestimmten Thema oder Bild zusammenstellen. Demnächst werden diese Informationen auch empfohlene Inhalte aus dem Web mit weiterführenden Informationen enthalten.
Der Funktionsumfang von Gemini wächst immer weiter – demnächst kannst du die Kamera deines Smartphones auf etwas richten, um Informationen dazu zu erhalten. Zum Beispiel kannst du sie auf die Golden Gate Bridge halten und dann nach ihrer Farbe fragen (die Antwort lautet übrigens „International Orange“). Und wenn du im Urlaub essen gehst, kann Gemini die Speisekarte für dich übersetzen und dir ein Gericht empfehlen, das dir schmecken könnte. Das sind nur ein paar Beispiele für die neuen Funktionen, die bald für Gemini verfügbar sein werden.
Wir trainieren und prüfen Gemini sorgfältig, damit die Antworten zuverlässig sind und deinen Erwartungen entsprechen. Außerdem tauschen wir uns mit Branchenfachleuten, Lehrkräften, Entscheidungsträger*innen, Führungskräften von Unternehmen, Bürger- und Menschenrechtsaktivist*innen sowie Creator*innen über die potenziellen Anwendungsbereiche, aber auch über die Risiken und Einschränkungen aus, die diese neue Technologie mit sich bringt.
So funktioniert Gemini
Vortraining
Nachtraining
Antworten auf Prompts von Nutzer*innen
Feedback und Bewertung durch Menschen
Bekannte Einschränkungen LLM-basierter Benutzeroberflächen wie Gemini
Gemini ist Teil unserer kontinuierlichen Bemühungen, LLMs verantwortungsvoll weiterzuentwickeln. Dabei haben wir einige Einschränkungen im Zusammenhang mit LLMs entdeckt und erörtert, darunter insbesondere sechs Bereiche, an denen wir derzeit arbeiten:
Accuracy: Die Antworten, die Gemini gibt, können – insbesondere bei Fragen zu komplexen oder sachbezogenen Themen – fehlerhaft sein.
Bias: Geminis Antworten können in den Trainingsdaten vorhandene Bias widerspiegeln.
Unterschiedliche Perspektiven: Die Antworten von Gemini zeigen möglicherweise keine unterschiedlichen Sichtweisen.
Persönlichkeit: Antworten von Gemini können den Eindruck erwecken, als hätte die KI eine eigene Meinung oder Gefühle.
Falsch positive und falsch negative Ergebnisse: Gemini reagiert möglicherweise nicht auf angemessene Prompts und beantwortet andere dagegen in unangemessener Weise.
Anfälligkeit für bösartige Prompts: Nutzerinnen und Nutzer können und werden versuchen, Gemini „herauszufordern“ – beispielsweise mit sehr ungewöhnlichen oder unsinnigen Prompts.
Wir entwickeln weiterhin neue Ansätze und Leistungsoptimierungen in allen diesen Bereichen.
Accuracy
Wie bei Google im Allgemeinen haben verlässliche Informationen auch bei Gemini Priorität. Die KI wurde so trainiert, dass sie Antworten generiert, die im Kontext deines Prompts und für deine Frage relevant sind. Wie alle LLMs kann Gemini unter Umständen Antworten geben, die fehlerhafte oder irreführende Informationen enthalten, sie aber überzeugend präsentieren.
Da LLMs immer nur das nächste Wort oder die nächste Wortfolge vorhersagen können, sind sie noch nicht vollständig in der Lage, zwischen richtigen und fehlerhaften Informationen zu unterscheiden. Aus diesem Grund kann Gemini Antworten geben, die fehlerhafte oder sogar erfundene Informationen enthalten (beispielsweise falsche Angaben zum Training von Gemini machen oder Buchtitel vorschlagen, die es gar nicht gibt). Deshalb haben wir Funktionen wie „Überprüfung“ entwickelt – dabei werden mithilfe der Google Suche Inhalte gefunden, mit denen du die von Gemini ausgegebenen Informationen verifizieren kannst. Außerdem erhältst du Links zu Quellen mit passenden Belegen.
Bias
Trainingsdaten stammen unter anderem aus öffentlich verfügbaren Quellen und spiegeln ganz unterschiedliche Perspektiven und Auffassungen wider. Wir suchen weiterhin nach Möglichkeiten, diese Daten so zu nutzen, dass die Antworten des LLM vielfältige Sichtweisen umfassen und so wenig Verallgemeinerungen und Bias wie möglich enthalten.
Lücken, Bias und Verallgemeinerungen in den Trainingsdaten können dazu führen, dass ein Modell diese Informationen ausgibt, wenn es nach einer plausiblen Antwort sucht. Uns sind dabei bisher verschiedene Probleme aufgefallen: zum Beispiel Antworten, die nur eine Kultur oder demografische Gruppe widerspiegeln, problematische Verallgemeinerungen oder Bias in Bezug auf Geschlecht, Religion oder ethnische Herkunft enthalten oder nur eine einzige Perspektive beleuchten. Bei einigen Themen gibt es sogenannte „Datenlücken“. Das bedeutet, es fehlen schlichtweg genügend verlässliche Informationen, damit das LLM daraus lernen und präzise Vorhersagen treffen kann. Die Folge sind oft Antworten, die entweder unzureichend oder schlichtweg falsch sind. Wir arbeiten kontinuierlich mit externen Fachleuten und verschiedenen Communitys zusammen, um Fachwissen von außerhalb unseres Unternehmens zu gewinnen.
Unterschiedliche Perspektiven
Bei subjektiven Themenbereichen soll Gemini unterschiedliche Sichtweisen liefern, wenn keine bestimmte Perspektive angefragt wird. Bezieht sich ein Prompt beispielsweise auf einen Punkt, der nicht durch Fakten aus primären oder verlässlichen Quellen verifiziert werden kann – etwa eine subjektive Einschätzung zu der besten oder schlechtesten Alternative –, sollte Gemini in den Antworten mehrere unterschiedliche Sichtweisen liefern. Da aber für das Training von LLMs wie Gemini auch öffentlich verfügbare Inhalte aus dem Internet genutzt werden, können LLMs sowohl positive als auch negative Ansichten über einzelne Politikerinnen und Politiker, Prominente oder andere Personen des öffentlichen Lebens wiedergeben. Kontroverse soziale oder politische Themen werden in den Antworten möglicherweise nur von einer Seite beleuchtet. Gemini sollte aber nicht nur eine bestimmte Sichtweise zu diesen Themen hervorheben. Das Nutzerfeedback zu solchen Antworten hilft uns, Gemini so zu trainieren, dass es in Zukunft noch besser mit solchen Fragen umgehen kann.
Persönlichkeit
Die Antworten von Gemini können manchmal den Eindruck hervorrufen, das Gemini eine eigene Meinung hat und Gefühle wie Liebe oder Trauer empfindet. Das hängt damit zusammen, dass für das Training von Gemini sprachliche Äußerungen verwendet wurden, mit denen Menschen ihre Gefühle ausdrücken. Wir haben Richtlinien dazu entwickelt, wie Gemini sich selbst in den Antworten darstellen darf (also Geminis Persona), und nehmen weiterhin Feinabstimmungen vor, um für objektive Antworten zu sorgen.
Falsch positive und falsch negative Ergebnisse
Wir haben Richtlinien festgelegt, um Gemini zu trainieren und problematische Antworten zu verhindern. Gemini kann diese in einigen Fällen aber falsch auslegen und liefert dann sogenannte „falsch positive“ oder „falsch negative“ Ergebnisse. Bei einem falsch positiven Ergebnis ignoriert Gemini einen angemessenen Prompt, da dieser fälschlicherweise als unangemessen eingestuft wurde. Bei einem falsch negativen Ergebnis liefert Gemini trotz der Richtlinien eine unangemessene Antwort. Manchmal kann durch falsch positive und falsch negative Ergebnisse der Eindruck entstehen, dass Gemini voreingenommen ist: Beispielsweise kann ein falsch positives Ergebnis dazu führen, dass Gemini keine Antwort auf eine Frage zu einer bestimmten Sichtweise auf ein Thema liefert, jedoch dieselbe Frage zur gegenteiligen Perspektive beantwortet. Wir nehmen weiterhin Feinabstimmungen an den Modellen vor, um Eingaben und Ausgaben besser erkennen und einstufen zu können. Das ist ein fortlaufender Prozess, da sich der Sprachgebrauch, das Weltgeschehen und die Gesellschaft schnell verändern.
Anfälligkeit für bösartige Prompts
Wir gehen davon aus, dass einige Nutzerinnen und Nutzer versuchen werden, die Grenzen von Gemini auszuloten und bestehende Schutzmaßnahmen zu überwinden, um beispielsweise die Trainingsprotokolle oder sonstige Informationen zu erhalten. Eventuell werden sie auch versuchen, die Sicherheitsmechanismen zu umgehen. Wir haben intensive Tests durchgeführt und überprüfen Gemini laufend, aber wir wissen, dass Menschen kreative Wege finden werden, um Gemini herauszufordern. Das ist ein wichtiger Teil der Feinabstimmung von Gemini. Wir sind auch weiterhin gespannt, welche neuen Prompts sich Nutzerinnen und Nutzer einfallen lassen. Seit dem Launch 2023 wurde Gemini mit verschiedenen Prompts auf die Probe gestellt, von philosophischen Fragen bis hin zu unsinnigen Anfragen – in manchen Fällen hat Gemini ebenso unsinnig oder nicht unserem Ansatz entsprechend geantwortet. Wir versuchen fortlaufend, Methoden zu entwickeln, wie Gemini auf diese Prompts reagieren kann, und haben unsere internen Überprüfungsprozesse und Red Team-Bewertungen entsprechend erweitert, um Accuracy, Objektivität und Nuancierung zu optimieren.
So werden wir Gemini weiterentwickeln
Anwendung unseres Ansatzes für Gemini
Neben unseren KI-Grundsätzen haben wir vor Kurzem unseren Ansatz für die Entwicklung von Gemini erläutert: Gemini sollte deinen Anweisungen folgen, sich deinen Anforderungen anpassen und eine sichere Nutzung ermöglichen. Im Mittelpunkt unserer Bemühungen stehen dabei Verantwortungsbewusstsein und Sicherheit. Die Richtlinien für Gemini sollen bestimmte problematische Ausgaben verhindern. Wir führen regelmäßig Stresstests mit internen Red Teams durch. Das sind Produktexpert*innen und Sozialwissenschaftler*innen, die ein Modell gezielt auf Verstöße gegen unsere Richtlinien und Leitsätze für Gemini überprüfen. Diese Ergebnisse fließen dann auch in die Weiterentwicklung und Verbesserung von Gemini ein.
Auch Datenschutz hat bei der Entwicklung von Gemini oberste Priorität. Im Gemini-Apps Privacy Hub findest du weitere Informationen, wie wir bei der Entwicklung von Gemini dem Privacy by Design-Prinzip folgen, damit du die Kontrolle über deine Daten behältst.
Kontrolle für Nutzerinnen und Publisherinnen
Wir bieten verschiedene leicht zugängliche Möglichkeiten, mit denen Nutzerinnen und Nutzer ihre Gemini-Daten prüfen, aktualisieren, verwalten, exportieren und löschen können. Über „Aktivitäten in Gemini-Apps“ kannst du Prompts, Antworten und Feedback abrufen und prüfen. Außerdem kannst du „Aktivitäten in Gemini-Apps“ deaktivieren, um zu verhindern, dass deine zukünftigen Gemini-Chats zur Verbesserung von Google-Technologien für maschinelles Lernen verwendet werden. Und genau wie bei anderen Google-Diensten kannst du deine Daten über den Datenexport herunterladen und exportieren. Darüber hinaus kannst du die von dir erstellten öffentlichen Links zu deinen Gemini-Unterhaltungen verwalten und den Zugriff auf Erweiterungen (zum Beispiel Workspace, Maps, YouTube) aktivieren oder deaktivieren. Wir erforschen weitere Möglichkeiten, wie wir dir die Kontrolle über die Antworten von Gemini geben können – darunter die Anpassung von Filtern, um eine breitere Palette von Antworten zu ermöglichen.
Für Publisher haben wir Google-Extended eingeführt. Damit können Webpublisher festlegen, ob ihre Websites zur Verbesserung der generativen APIs von Gemini und Vertex AI beitragen sollen. Wenn Publisher*innen Google-Extended erlauben, ihre Websites zu crawlen, kann das dazu beitragen, die KI-Modelle im Laufe der Zeit noch genauer und leistungsfähiger zu machen. Inhalte auf Websites, für die der Zugriff nicht erlaubt ist, werden weder zum Trainieren von Modellen noch zur Fundierung von Gemini verwendet. Mit zunehmender Verbreitung von KI wird die Verwaltung verschiedener Anwendungsfälle in großem Umfang für Web-Publisher*innen immer komplexer – wir arbeiten deshalb mit den Web- und KI-Communitys zusammen, um maschinenlesbare Ansätze für Auswahlmöglichkeiten und Kontrolle zu entwickeln.
Gemini zusammen besser machen
Wir sind davon überzeugt, dass eine schnelle Versionsentwicklung Innovationen fördert, und wir möchten das Beste von Gemini für alle zugänglich machen. Dank Nutzerfeedback können wir unsere Modelle noch schneller verbessern. Wir setzen beispielsweise innovative Reinforcement-Learning-Methoden ein, um unsere Modelle so zu trainieren, dass sie noch intuitiver, einfallsreicher, besser und genauer sind. Wir investieren weiter in Forschung zu den technischen, sozialen und ethischen Herausforderungen und Möglichkeiten von LLMs, um das Training und die Feinabstimmung unserer Gemini-Modelle zu optimieren. Wir teilen unsere Forschungsergebnisse mit Forschenden, beispielsweise durch Artikel wie Ethics of Advanced AI Assistants. Wir möchten diesen Bereich durch verantwortungsvolle Innovationen fördern und arbeiten daher auch mit Nutzerinnen und Nutzern, Trusted Testern und Forschenden zusammen, um herauszufinden, wie diese neue Technologie allen zugutekommen kann.
Transparenz ist uns wichtig – deshalb gehen wir offen mit der Entwicklung und den Einschränkungen von Gemini um. Gemini ist keine undurchsichtige Blackbox – wir entwickeln die KI ständig weiter und werden auch weiterhin unsere Fortschritte teilen. Auf der Seite Versionsupdates findest du Updates zu den neuesten Funktionen, Verbesserungen und Fehlerbehebungen für Gemini. Diese Übersicht wird regelmäßig aktualisiert. Wir untersuchen sowohl, für welche Anwendungsbereiche Gemini besonders nützlich ist, als auch die Aspekte und Funktionen mit Verbesserungspotenzial. Wir führen kontinuierlich neue Funktionen ein und werden Gemini durch fortlaufende Forschungsstudien, Tests und Nutzerfeedback gemeinsam noch besser machen.
Danksagung
Wir bedanken uns für die fantastische Arbeit unserer Kolleginnen und Kollegen im Gemini App-Team, bei Google DeepMind, im Trust & Safety-Team und im Google Research-Team.
James Manyika
SVP, Research, Technology and Society
Sissie Hsiao
Vice President und General Manager, Google Assistant und Gemini App
Dieses Dokument ist bei Weitem nicht vollständig und wird regelmäßig aktualisiert, während wir den Funktionsumfang von Gemini verbessern und daran arbeiten, die Einschränkungen von LLMs zu überwinden. Diese Übersicht wurde zuletzt am 25. Juli 2024 aktualisiert. Aktuelle Neuigkeiten zur Gemini App findest du in den Versionsupdates und im Google Keyword-Blog.