Gemini アプリの概要

Google は以前から、AI には情報やコンピューティングへのアクセスを容易にし、人々の役に立つ可能性があると考えてきました。大規模言語モデル（LLM）に関して先駆的な発展を遂げ、Google 全体で、そして広くこの分野において進化を続けています。Google は数年にわたってバックグラウンドで LLM を適用し、Gmail における文章の予測入力、Google 翻訳の拡張、Google 検索におけるクエリの理解の向上など、多くのプロダクトを改善してきました。今後も引き続き、多くの Google サービスに LLM を使用するとともに、Gemini アプリを強化することで、ユーザーに生成 AI を活用した機能を提供していきます。Gemini アプリは、Google の最新 AI モデルを直接体験できる特別なアプリです。皆様にとって最も使いやすく、一人ひとりのニーズに寄り添った AI アシスタントとなるよう、開発を進めています。

生成 AI は世界を変える可能性を秘めた技術として注目を集めていますが、まだ発展の初期段階にあります。この概要では、Google がモバイルおよびウェブで提供する Gemini アプリ（以下「Gemini」といいます）の開発を行ううえでのアプローチ（Gemini とは何か、Gemini の仕組み、現時点での機能と制約など）について説明します。Gemini の基礎技術が発展を遂げるにつれ、また、Google が研究、経験、ユーザーフィードバックからの学びを重ねるにつれ、Gemini の開発に対するアプローチも進化していきます。

Gemini とは何か

Gemini は、テキスト、音声、画像などを処理するマルチモーダル LLM のインターフェースです。Gemini は 2013 年の Word2Vec に関する論文から始まった Google の最先端の LLM 研究に基づいています。この論文では、単語を数学的概念としてマッピングする新しいモデルアーキテクチャが提案されました。その後、2015 年にニューラル会話モデルが導入されました。このフレームワークでは、会話が自然な流れになるように、前の文に基づいて会話の次の文を予測するモデルの仕組みを明確にしました。さらに、2017 年には Transformer、2020 年にはマルチターンチャット機能で画期的な成果を上げ、生成言語モデルの確実な進歩を示しました。

Google は、AI に関する原則に従って、2023 年 3 月に初めて Gemini（当時は Bard）を試験運用版としてリリースしました。それ以来、Gemini はメールの作成、複雑なコーディングの問題のデバッグ、イベントのアイデア出し、難しい概念の理解など、多くのタスクに活用されています。今日 Gemini は、創造力や生産性、好奇心を高める多用途の AI ツールとしてさまざまな方法でユーザーをサポートしていますが、今後も定期的に新しい機能や革新的な技術が追加される予定です。

生産性

Gemini は作業の効率化に役立ちます。たとえば、長い研究資料の概要が知りたい場合、Gemini にアップロードすればわかりやすく要約することができます。また、コーディングのサポートも可能で、コーディングは最もポピュラーな用途の一つとして急速に広まっています。

創造力

Gemini は、ユーザーのアイデアを形にしたり、創造力を高めたりすることもできます。たとえば、ユーザーがブログ投稿を作成しようとする場合、Gemini は大まかな構成を示し、投稿の内容に合った画像を生成することができます。また、近日提供予定の Gem 機能を使用すると、ユーザーは Gemini にカスタム指示を出し、SME（特定の分野の専門家）として個人的な目標の達成をサポートしてもらえるようになります。

好奇心

Gemini は、ユーザーが気になるアイデアやトピックについて調べる過程で、好奇心をさらに深めるきっかけになる可能性があります。たとえば、複雑なトピックを簡単に説明したり、トピックや画像と関連性の高い分析情報を示したりすることができます。また、特定のトピックについてより詳しく知るために、そうした分析情報をウェブからのおすすめのコンテンツと組み合わせて表示する機能も間もなくリリースされる予定です。

Gemini は急速に発展を遂げており、スマートフォンのカメラを何かにかざすだけでその情報を得られる機能も間もなく提供されます。たとえば、街で見かけた植物が気になったら、スマートフォンを向けて Gemini にそれについて尋ねることができます。また、レストランのメニューを別の言語で説明したり、ユーザーの好みに合いそうなメニューをおすすめしたりすることも可能です。これらは、今後 Gemini に搭載される予定の新機能のほんの一部です。

Google は、回答の信頼性を高め、ユーザーの期待に応えられるよう、Gemini のトレーニングとモニタリングを厳格に行っています。また、業界の専門家、教育者、政策立案者、ビジネスリーダー、公民権 / 人権運動の指導者、コンテンツクリエイターなどとの話し合いを通じて、進化の途中にあるこのテクノロジーの新しい用途、リスク、および制約について検討を進めています。

Gemini の仕組み

Gemini のような LLM ベースのインターフェースにおける既知の制約

Gemini は、責任ある LLM 開発に向けた Google の継続的な取り組みの一つにすぎません。Google はその過程で、LLM に関わるいくつかの制約を特定し、議論してきました。以下に、Google が継続的に研究している 6 つの重要分野を紹介します。

正確性: 複雑なトピックや事実に基づくトピックについて質問した場合に、Gemini が不正確な回答を生成する可能性がある。
バイアス: トレーニングデータにバイアスが内在する場合、それが Gemini の回答に反映されることがある。
複数の視点: Gemini の回答に多様な視点が反映されていない可能性がある。
ペルソナ: Gemini の回答が個人的な見解や感情を持つかのような誤った示唆を与える可能性がある。
偽陽性 / 偽陰性: Gemini が適切なプロンプトに回答しない可能性や、不適切な回答を提供する可能性がある。
敵対的なプロンプトに対する脆弱性: ユーザーが無意味なプロンプト、または現実世界ではほぼ尋ねられることのない質問を使用して、Gemini に対して過重な負荷をかける方法を見つける可能性がある。

Google は引き続き、これらの分野でパフォーマンスを改善するための新たなアプローチを探っています。

正確性

Gemini は、Google ならではの「情報を整理する技術」に基づいており、ユーザーのプロンプトのコンテキストとの関連性が高く、ユーザーの意図に沿った回答を生成するようトレーニングされています。しかしあらゆる LLM と同様に、Gemini は不正確な情報や誤解を招くような情報が含まれる回答を、確信と説得力を持って提示することがあります。

Since LLMs work by predicting the next word or sequences of words, they are not yet fully capable of distinguishing between accurate and inaccurate information on their own. We have seen Gemini present responses that contain or even invent inaccurate information (e.g., misrepresenting how it was trained or suggesting the name of a book that doesn’t exist).

バイアス

公開されているソースからのものを含め、トレーニングデータには多様な視点や意見が反映されています。Google はこうしたデータを、不正確な過剰一般化やバイアスを最小限に抑えながら、LLM の回答に幅広い視点を取り込む形で活用する方法の研究を進めています。

トレーニングデータにおけるギャップ、バイアス、過剰一般化は、モデルがプロンプトに対するもっともらしい回答を予測しようとする際、出力に反映されることがあります。こうした問題はさまざまな形で現れることがわかっています（回答で、特定の文化やユーザー層しか考慮されていない、問題のある過剰一般化に言及している、ジェンダー、宗教、民族に関するバイアスが含まれている、1 つの視点しか提示されていないなど）。トピックによってはデータが不足している場合があります。つまり、特定のテーマについて LLM が学習し、質の高い予測を行うために必要な、信頼性の高い情報が不十分ということです。これにより、低品質または不正確な回答が生成される可能性があります。Google はそうした分野の専門家や多様なコミュニティと協力して、Google 外部の高度な専門知識を活用しています。

複数の視点

主観的なトピックの場合、ユーザーが特定の視点をリクエストしない限り、Gemini はユーザーに複数の視点を提供するように設計されています。たとえば、一次資料からの事実や信頼性の高い情報源では検証できないこと（「最高」または「最低」を評価する主観的な意見など）に関するプロンプトが入力された場合、Gemini は幅広い視点を反映する回答を提示する必要があります。しかし Gemini のような LLM はインターネット上に公開されているコンテンツでトレーニングされるため、特定の政治家や著名人などの公人に対する肯定的または否定的な見解を反映したり、意見の分かれる社会問題や政治問題について、一方の見解だけを取り入れたりする可能性があります。Gemini は、こうしたトピックについて特定の意見を支持するような回答をするべきではありません。Google はこのような回答に対するフィードバックを使用して、より適切に対応できるように Gemini をトレーニングしていきます。

ペルソナ

Gemini は、人間の経験を反映するよう、人々が普段使う言葉でトレーニングされているため、まるで自身の意見や、愛や悲しみのような感情を持っているかのような回答を生成することがあります。Google は、Gemini が自身を表現する方法（ペルソナ）に関するガイドラインを策定しており、客観的回答を提供するようにモデルを継続的に微調整しています。

偽陽性 / 偽陰性

Google は一連のポリシーガイドラインを策定し、Gemini のトレーニングに役立てるとともに、Gemini が問題のある回答を生成しないようにしています。Gemini がこれらのガイドラインを誤解して「偽陽性」や「偽陰性」が生じることもあります。「偽陽性」の場合、Gemini はプロンプトが不適切であると誤解し、妥当なプロンプトに対して回答を行いません。「偽陰性」の場合、Gemini はガイドラインが存在するにもかかわらず不適切な回答を生成します。偽陽性や偽陰性の発生は、Gemini がバイアスを持っているという印象をユーザーに与えることがあります。たとえば、偽陽性により、Gemini が問題の一方の側面についての質問には回答しないのに、もう一方の側面についての同じ質問には回答する場合があります。Google はモデルを微調整しながら入力 / 出力について理解を深め、分類するという作業を、言語、事象、社会が急速に変化する中で継続していきます。

敵対的なプロンプトに対する脆弱性

トレーニングプロトコルやその他の情報を開示させようとしたり、安全メカニズムを回避しようとしたりするなど、Gemini にできることの限界を試したり、Gemini の防御の壁を破ろうとするユーザーも出てくるでしょう。Google は Gemini に対して厳格なテストを実施しており、これからもテストを続けますが、ユーザーが Gemini に対して過重な負荷をかける独特かつ複雑な方法を見つける可能性があることを認識しています。このことは、Gemini を改善するうえで重要な意味を持ちます。Google は、ユーザーが思いつく新しいプロンプトを学習することに尽力してまいります。実際、2023 年に Gemini がリリースされて以降、ユーザーは哲学的なものから無意味なものまで、さまざまなプロンプトで Gemini に挑戦しています。それに対して、Gemini は同じように無意味な回答や、前述のアプローチに沿わない回答をする場合があります。そうしたプロンプトに Gemini が回答できるようにする方法を見つけることは継続的な課題となっており、Google は内部評価とレッドチームテストを拡大しながら、正確性、客観性、ニュアンスを向上させています。

Gemini の開発に対する継続的な取り組み

Gemini に対するアプローチを明確にする

AI に関する原則に加えて、Google は最近、Gemini に取り組む際のアプローチを明文化しました。具体的には、「ユーザーの指示に従う、ユーザーのニーズに合わせる、安全に利用してもらう」というものです。このアプローチの根底にあるのは、責任と安全への注力です。Gemini のポリシーガイドラインは、特定の問題のある出力を回避することを掲げています。Google は社内の「レッドチーム」のメンバー（ポリシーガイドラインと Gemini に関する Google の指針に適合しているかどうかをチェックするために、モデルに対し意図的にストレステストを行うプロダクトエキスパートと社会科学者）とともに敵対的テストを重ねていくことで、学習した内容を Gemini に反映し、改善を続けます。

プライバシーも、Gemini を開発するうえで重要な考慮事項です。プライバシーバイデザインとユーザー自身による管理を考慮した Gemini の開発について詳しくは、Gemini アプリのプライバシーハブをご覧ください。

ユーザーとパブリッシャーがデータを管理できるようにする

Google は、ユーザーが簡単に Gemini のデータの確認、更新、管理、エクスポート、削除を行えるよう、さまざまな管理手段を用意しています。ユーザーは Gemini アプリアクティビティの管理画面で Gemini のプロンプトや回答にアクセスして確認し、フィードバックを提供できます。また、Gemini アプリアクティビティの設定をオフにすることで、今後 Gemini とのチャットを Google の機械学習テクノロジーの向上に使用されないようにすることもできます。他の Google サービスと同様に、Google のデータエクスポートツールを使って自分の情報をダウンロードおよびエクスポートすることも可能です。それ以外にも、Gemini のスレッドに対して作成した公開リンクを管理するための設定や、拡張機能（Google Workspace、Google マップ、YouTube など）へのアクセスを有効または無効にできる設定も用意しています。Google は引き続き、より幅広い回答の出力を可能にするフィルタの調整機能を含め、ユーザーが Gemini の回答を細かく管理するための新しい方法を模索しています。

Google はパブリッシャー向けに、Google-Extended をリリースしました。ウェブパブリッシャーはこの機能を使うことで、自社サイトを Gemini と Vertex AI 生成 API の改善に活用することを許可するかどうかを管理できます。Google-Extended がサイトのコンテンツにアクセスするのを許可することで、AI モデルが時間の経過とともに正確性と機能性を向上させるのを支援できます。Gemini はオプトアウトされている URL のコンテンツを使用することも、そうしたコンテンツをグラウンディングに使用することもありません。AI の用途が拡大するにつれて、ウェブパブリッシャーが多種多様な用途を管理する作業は、さらに複雑化していくと考えられます。Google はウェブや AI のコミュニティと協力して、より機械可読性の高い形で選択肢や制御機能を提供できる手法を模索しています。

Gemini のフィードバックにご協力ください

Google は、Gemini の迅速なイテレーションと、優れた機能を世界中に届けることを重視しています。Google はこれまでいただいたユーザーフィードバックに基づき、モデルの改善を加速してきました。たとえば、最先端の強化学習手法を使用して、直感的でイマジネーションに富んだ、より質の高い正確な回答を提供できるようにモデルをトレーニングしています。Google は、LLM がもたらす技術的、社会的、倫理的な課題と機会を探る研究に対して、継続的に投資しています。その目的は、Gemini のモデルのトレーニング方法やチューニング方法を改善しながら、得られた知見を研究者と共有することです。その一例として、高度な AI アシスタントの倫理に関する最近の論文が挙げられます。Google は、ユーザー、Trusted Tester、研究者と協力しながら、責任を持ってこの分野でのイノベーションに取り組み、新しいテクノロジーの恩恵をエコシステム全体にもたらす方法を模索しています。

透明性は重要であり、Google は Gemini の開発プロセスや制約に関する情報を積極的に公開しています。Gemini は謎めいた「魔法のブラックボックス」ではありません。日々進化を続けており、Google は今後も最新の情報をお伝えしていきます。その一環として、リリース最新情報ページで Gemini の最新の機能、改善内容、バグ修正についてお知らせしています。また、この概要も必要に応じて更新していく予定です。その過程で、Gemini の便利な用途だけでなく、継続的なイテレーションと改善が必要な分野についても明らかにしていきます。Google は精力的に新機能を導入するとともに、継続的な研究、テスト、ユーザーフィードバックを通じて、皆さまとともに Gemini をより良いものにしていきたいと考えています。

謝辞

Gemini アプリチーム、Google DeepMind チーム、Trust & Safety チーム、Google Research チームの同僚の素晴らしい仕事に感謝の意を表します。

著者

James Manyika
シニアバイスプレジデント（Research, Technology and Society）

Sissie Hsiao
バイスプレジデント兼ゼネラルマネージャー（Google アシスタント / Gemini アプリ）

編集者注

Gemini アプリの機能は常に向上しており、大規模言語モデル（LLM）に内在する制約への対応も進んでいるため、このドキュメントは定期的に更新されます。この概要の最終更新日は 2024 年 7 月 25 日です。Gemini アプリに関する最新情報については、リリースの最新情報または Google Keyword ブログをご覧ください。

3 ユーザーのプロンプトへの回答

回答の生成は、人間がある質問に答えるためにさまざまな方法を考えるというプロセスに似ています。ユーザーがプロンプトを入力すると、Gemini は事後トレーニングを経た LLM、プロンプトのコンテキスト、ユーザーとのやり取りを使用して、回答案をいくつか作成します。また、Google 検索や複数の拡張機能のいずれか、最近アップロードされたファイル（Gemini Advanced のみ）などの外部ソースも使用して、回答を生成します。このプロセスは検索拡張と呼ばれます。プロンプトが入力されると、Gemini はこれらの外部ソース（Google 検索など）から最も適切な情報を取得して、回答に正確に反映するよう試みます。外部ツールによる LLM の拡張は研究の盛んな分野ですが、さまざまな要因によりエラーが発生する可能性があります。たとえば、Gemini がこれらの外部ツールを起動するために使用するクエリ、ツールが返した結果を Gemini が解釈する方法、返された結果が最終回答の生成に使用される方法などがその要因として挙げられます。そのため、Gemini が生成した回答は、その回答の作成に使用された個々のツールの性能を反映しているとみなされるべきではありません。

最終的な回答が表示される前に、それぞれの回答に対して安全性のチェックが行われ、あらかじめ定められているポリシーガイドラインに準拠していることが確認されます。このプロセスは、有害または不快な情報を除外するためのダブルチェックの機能を果たします。除外されずに残った回答は、その後品質に基づいてランク付けされ、最もスコアの高いバージョンがユーザーに表示されます。

Google は、AI 生成コンテンツに透かしを入れる業界トップのデジタルツールキット SynthID を使用して、Gemini が出力したテキストと画像に透かしを入れる取り組みも行っています。SynthID は、生成された画像のピクセル内に、人間の目には見えないデジタル透かしを直接追加します。SynthID はより信頼性の高い AI 識別ツールを開発するための重要な構成要素であり、ユーザーが AI 生成コンテンツの利用方法について情報に基づいた意思決定を行うのに役立ちます。

Gemini アプリの概要

Gemini とは何か

生産性

創造力

好奇心

Gemini の仕組み

事前トレーニング

事後トレーニング

ユーザーのプロンプトへの回答

人間によるフィードバックと評価

Gemini のような LLM ベースのインターフェースにおける既知の制約

正確性

バイアス

複数の視点

ペルソナ

偽陽性 / 偽陰性

敵対的なプロンプトに対する脆弱性

Gemini の開発に対する継続的な取り組み

Gemini に対するアプローチを明確にする

ユーザーとパブリッシャーがデータを管理できるようにする

Gemini のフィードバックにご協力ください

謝辞

地域と言語の変更

アジア太平洋

南北アメリカ

ヨーロッパ & アフリカ

1 事前トレーニング

2 事後トレーニング

3 ユーザーのプロンプトへの回答

4 人間によるフィードバックと評価