Gemini 앱 개요

Google에서는 정보 및 컴퓨팅의 접근성과 유용성을 개선할 수 있는 AI의 잠재력을 오랫동안 지켜봐 왔습니다. Google은 대규모 언어 모델(LLM)의 발전을 선도했을 뿐만 아니라 Google 서비스는 물론, 이 분야 전반에서 상당한 진전을 이루었습니다. 수년간 Gmail의 문장 자동 완성, Google 번역 지원 확대, Google 검색에서 검색어에 대한 이해도 향상과 같이 다양한 Google 제품을 개선하기 위해 보이지 않는 곳에서 LLM을 적용해 왔습니다. Google은 LLM을 여러 Google 서비스에 계속 사용하고 있고, 사용자가 생성형 AI와 직접 공동작업할 수 있게 해주는 Gemini 앱을 구동하는 데에도 LLM을 사용하고 있습니다. Gemini 앱이 Google의 최신 AI 모델을 직접 이용할 수 있게 해주는 가장 유용한 개인 AI 어시스턴트가 되기를 바랍니다.

지금 이 시기는 중요한 변곡점이며 생성형 AI에 관한 대대적인 기대감이 형성되어 있지만, 이 기술은 아직 초기 단계입니다. 이 설명서에서는 Gemini 앱(이하 'Gemini')의 정의, 작동 방식, 현재 기능 및 한계 등 Google가 Gemini의 모바일 및 웹 환경 등을 개발할 때 사용한 접근 방식에 대해 설명합니다. Gemini의 기반 기술이 발전하고, Google이 지속적인 연구, 경험, 사용자 의견을 통해 배우면서 Google의 Gemini 개발 방식은 점점 발전해 나갈 것입니다.

Gemini 정의

Gemini는 (텍스트, 오디오, 이미지 등을 처리하는) 멀티모달 LLM에 대한 인터페이스입니다. Gemini는 Google의 최첨단 LLM 연구를 기반으로 합니다. 이 연구는 2013년에 단어를 수학적 개념으로 매핑하는 새로운 모델 아키텍처를 제안한 Word2Vec 논문에서 시작되었으며, 이후 2015년에는 신경망 대화 모델이 소개되었습니다. 이 프레임워크는 모델이 이전 문장을 토대로 대화에서 다음 문장을 어떻게 예측할 수 있는지를 입증했으며, 그 결과 대화 경험이 더욱 자연스러워졌습니다. 2017년의 혁신적인 Transformer 작업과 2020년의 멀티턴 채팅 기능이 뒤이어 소개되었으며, 더욱 강력한 생성형 언어 모델의 발전을 보여주었습니다.

Google은 2023년 3월에 AI 원칙에 따라 Gemini(당시 명칭 Bard)를 실험 버전으로 처음 출시했습니다. 그 후로 Gemini는 짜임새 있는 이메일 작성, 까다로운 코딩 문제 디버깅, 예정된 이벤트에 대한 아이디어 브레인스토밍, 어려운 개념에 대한 학습 지원 등 다양한 용도로 사용되어 왔습니다. 오늘날 Gemini는 다양한 도움을 줄 수 있는 다재다능한 AI 도구로 사용되고 있습니다. Gemini는 이미 사람들의 생산성, 창의성, 호기심 향상에 도움을 주고 있으며, Google은 새로운 기능과 혁신 기술을 정기적으로 추가하고 있습니다.

생산성

우선, Gemini는 시간을 절약해 줄 수 있습니다. 예를 들어 긴 조사 문서를 요약하려고 하는 경우 문서를 업로드하면 Gemini가 유용한 종합 문서를 제공합니다. Gemini는 코딩 작업에도 도움을 줄 수 있으며, 코딩은 단숨에 Gemini의 가장 인기 있는 애플리케이션 중 하나가 되었습니다.

창의력

또한 Gemini는 아이디어를 실현하고 창의력을 발휘하도록 도와줍니다. 예를 들어 블로그 게시물을 작성하는 경우 Gemini를 통해 개요를 만들고 게시물을 설명하는 데 도움이 되는 이미지를 생성할 수 있습니다. 그리고 곧 Gems가 출시되므로 구체적인 요청 사항에 따라 Gemini를 맞춤 설정하고, 개인적인 목표를 달성하도록 도와주는 주제 전문가 역할을 맡길 수 있습니다.

호기심

더 자세히 알고 싶은 아이디어와 사물을 탐구할 때 Gemini가 출발점이 될 수 있습니다. 예를 들어 복잡한 개념을 간단하게 설명하거나, 특정 주제 및 이미지와 관련 있는 유용한 정보를 표시할 수 있습니다. 이러한 유용한 정보가 추천 웹 콘텐츠와 연결되어 구체적인 주제에 대해 더 자세히 알아볼 수 있는 기능도 곧 사용할 수 있게 될 것입니다.

Gemini의 기능은 빠르게 확장되고 있습니다. 스마트폰 카메라로 금문교와 같은 물체를 가리키면서 Gemini에게 페인트 색상을 알려 달라고 요청할 수 있는 날이 곧 올 것입니다(궁금하신 분들을 위해 알려 드리자면 '인터내셔널 오렌지' 색상입니다). 또한 Gemini에게 외국어로 된 레스토랑 메뉴를 안내해 달라고 하거나, 마음에 드는 요리를 추천해 달라고 요청할 수도 있게 됩니다. Gemini에 곧 추가될 새로운 기능 중 두 가지만 예시로 알려 드린 것입니다.

물론 Google은 Gemini가 신뢰할 수 있고 사용자의 기대에 부응하는 대답을 제공할 수 있도록 Gemini를 엄격하게 학습시키고 모니터링합니다. 또한 업계 전문가, 교육자, 정책 입안자, 기업 경영자, 민권 및 인권 지도자, 콘텐츠 제작자와 소통하여 이 신기술의 새로운 적용 분야, 위험, 한계를 탐구합니다.

Gemini 작동 방식

Gemini와 같은 LLM 기반 인터페이스의 알려진 한계

Gemini는 LLM을 책임감 있게 개발하기 위한 Google의 지속적인 노력의 일부일 뿐입니다. 이 작업을 진행하는 동안 Google은 LLM과 관련된 여러 한계를 발견하고 논의했습니다. 여기서는 다음과 같은 6가지 지속적인 연구 영역을 중점적으로 살펴봅니다.

정확성: Gemini의 대답은 복잡하거나 사실적인 주제에 대해 질문할 때 특히 더 부정확할 수 있습니다.
편향성: Gemini의 대답은 학습 데이터에 존재하는 편향성을 반영할 수 있습니다.
여러 가지 관점: Gemini의 대답은 여러 가지 관점을 보여주지 못할 수 있습니다.
페르소나: Gemini의 대답은 개인적인 의견이나 감정이 있는 듯한 잘못된 암시를 내포할 수 있습니다.
거짓양성 및 거짓음성: Gemini는 적절한 프롬프트에 대답하지 않거나, 일부 프롬프트에 부적절한 대답을 할 수 있습니다.
적대적인 프롬프트에 대한 취약성: 사용자는 현실 세계에서는 거의 묻지 않을 무의미한 프롬프트나 질문을 통해 Gemini를 대상으로 스트레스 테스트를 할 방법을 모색할 것입니다.

Google은 이러한 각 영역에서 새로운 접근 방식과 성능 개선이 필요한 부분을 지속적으로 탐구하고 있습니다.

정확성

Gemini는 권위 있는 정보에 대한 Google의 이해력을 바탕으로 제작되었으며, 검색 결과의 맥락과 관련이 있고 사용자가 원하는 내용에 부합하는 대답을 생성하도록 학습되었습니다. 하지만 Gemini는 여타 LLM과 마찬가지로 때때로 부정확하거나 오해의 소지가 있는 정보가 포함된 대답을 자신감 있고 설득력 있게 전달할 수 있습니다.

LLM은 다음 단어 또는 단어의 시퀀스를 예측하는 방식으로 작동하기 때문에 정확한 정보와 부정확한 정보를 스스로 완벽하게 구분할 수 없습니다. Gemini는 부정확한 정보가 포함된 대답을 제시하거나, 나아가 학습 방식을 허위 진술하거나 존재하지 않는 책을 추천하는 등 부정확한 정보를 만들어 내기도 합니다. 이에 대한 대책으로 Google은 Google 검색을 사용하여 Gemini의 대답을 평가하는 데 도움이 되는 콘텐츠를 찾고, Gemini에서 얻은 정보를 확증하는 데 도움이 되는 출처의 링크를 제공하는 '재확인' 등의 기능을 개발했습니다.

편향성

공개적으로 사용 가능한 출처의 데이터를 비롯한 학습 데이터는 다양한 관점과 의견을 반영합니다. Google은 LLM의 대답이 다양한 관점을 포함하면서도 부정확한 과도한 일반화와 편향을 최소화하는 방식으로 이러한 데이터를 사용하는 방법에 관해 지속적으로 연구하고 있습니다.

모델이 프롬프트의 예상 대답을 예측할 때 학습 데이터의 차이, 편향성, 과도한 일반화가 출력에 반영될 수 있습니다. 이러한 문제는 대답에 오직 하나의 문화 또는 인구통계만을 반영하거나, 문제가 되는 과도한 일반화를 언급하거나, 성별, 종교 또는 인종에 대한 편향성을 드러내거나 단 하나의 관점만을 고취하는 등 다양한 방식으로 나타납니다. 데이터가 충분하지 않은 주제도 있습니다. 다시 말해 LLM이 주어진 주제에 관해 학습을 통해 양질의 예측을 할 수 있을 만큼 신뢰할 수 있는 정보가 충분하지 않은 것입니다. 그러면 대답의 품질이 낮아지거나 부정확해질 수 있습니다. Google은 분야별 전문가 및 다양한 커뮤니티와 지속적으로 협력하여 Google 외부의 심층적인 전문 지식을 활용하고 있습니다.

여러 가지 관점

주관적인 주제의 경우 Gemini는 사용자가 특정 관점을 요청하지 않으면 사용자에게 여러 가지 관점을 제공하도록 고안되었습니다. 예를 들어 기본 출처의 사실이나 권위 있는 출처를 통해 확인할 수 없는 정보(예: '최고' 또는 '최악'에 대한 주관적인 의견)를 요청받는 경우, Gemini는 다양한 관점을 반영하여 대답해야 합니다. 그러나 Gemini와 같은 LLM은 인터넷에서 공개적으로 사용할 수 있는 콘텐츠를 바탕으로 학습하기 때문에 특정 정치인, 유명인 또는 기타 공적 인물에 관한 긍정적이거나 부정적인 관점이 대답에 반영될 수 있으며, 나아가 논란이 되는 사회적 또는 정치적 문제에 관한 단 하나의 관점만 포함될 수도 있습니다. Gemini는 이러한 주제에 관해 특정한 관점을 지지하는 방식으로 대답해서는 안 되며, 더 나은 대답을 제공하기 위해 Google은 이와 같은 유형의 대답에 관한 의견을 활용해 Gemini를 학습시킬 예정입니다.

페르소나

Gemini는 사람들이 자신의 경험을 나타내는 데 사용하는 언어를 바탕으로 학습되다 보니 의견이 있거나 사랑 또는 슬픔과 같은 감정을 가진 것처럼 보이는 대답을 생성하기도 합니다. Google은 Gemini가 스스로를 표현하는 방식, 즉 인격에 관한 일련의 가이드라인을 마련해 적용하고 있으며, 앞으로도 객관적인 대답을 제공할 수 있도록 모델을 지속적으로 미세 조정해 나갈 예정입니다.

거짓양성/거짓음성

Google은 Gemini를 학습시키고 문제가 되는 대답을 방지하는 데 도움이 되는 일련의 정책 가이드라인을 마련했습니다. Gemini가 이러한 가이드라인을 잘못 해석하여 '거짓양성'과 '거짓음성'을 생성하는 경우가 가끔 있을 수 있습니다. '거짓양성'의 경우, Gemini가 타당한 프롬프트에 대답하지 않고 프롬프트가 부적절하다고 오해할 수 있으며, '거짓음성'의 경우, Gemini가 정립된 가이드라인을 무시하고 부적절한 대답을 생성할 수 있습니다. 거짓양성 또는 거짓음성이 발생하면 Gemini가 편향되어 있다는 인상을 줄 수 있습니다. 예를 들어 거짓양성의 경우 Gemini는 특정 사안의 한 측면에 대한 질문에는 대답하지 않고 다른 측면에 대한 동일한 질문에는 대답할 수 있습니다. Google은 언어, 사건, 사회가 빠르게 변화함에 따라 입력과 출력에 대한 이해도를 높이고 효과적으로 분류하기 위해 이러한 모델을 꾸준히 조정하고 있습니다.

적대적인 프롬프트에 대한 취약성

사용자들은 Gemini가 가진 능력의 한계를 시험해 볼 뿐만 아니라 학습 프로토콜 또는 다른 정보를 누설하게 하거나 안전 메커니즘을 피하게 하는 등 Gemini의 보호 장치를 깨보려고 시도할 것입니다. Google은 Gemini를 엄격하게 테스트해 왔고 앞으로도 계속 테스트하겠지만, 사용자들이 Gemini를 대상으로 스트레스 테스트를 하는 독특하고 복잡한 방법을 찾아내리라는 사실도 잘 알고 있습니다. 이러한 과정은 Gemini를 미세 조정해 나가는 데 있어 중요한 부분을 차지하며, Google은 사용자가 제공하는 새로운 프롬프트를 통해 학습할 수 있기를 기대합니다. 실제로 2023년 Gemini 출시 이후, 사용자들은 철학적인 내용부터 터무니없는 내용까지 다양한 프롬프트로 Gemini를 시험했습니다. Gemini도 터무니없거나 Google의 접근 방식과 일치하지 않는 대답으로 맞대응을 하는 경우도 간혹 있었습니다. Gemini가 이러한 프롬프트에 효과적으로 대답할 수 있도록 돕는 방법을 강구하는 것이 현재의 당면 과제이며, 정확성, 객관성, 뉘앙스를 개선하기 위해 Google은 내부 평가 및 레드팀 구성을 지속적으로 확대해 왔습니다.

Gemini 개발 현황

Gemini 접근 방식의 적용

Google이 최근 AI 원칙과 함께 명확히 밝힌 Gemini 개발 작업에 대한 Google의 접근 방식은 Gemini는 사용자의 지시를 따르고, 사용자의 요구에 맞춰 조정되며, 사용자의 경험을 보호해야 한다는 것입니다. Google 접근 방식의 핵심은 책임감과 안전에 중점을 두는 것입니다. Gemini의 정책 가이드라인은 문제가 되는 특정 유형의 출력을 방지하는 데 중점을 둡니다. Google은 제품 전문가, 사회과학자 등으로 이루어진 내부 '레드팀' 구성원과 함께 Gemini의 학습과 지속적인 개선에 적용할 수 있도록 의도적으로 모델을 스트레스 테스트하여 이러한 정책 가이드라인 및 Gemini에 대한 Northstar 접근 방식과의 일치 여부를 조사하는 방식으로 적대적 테스트를 꾸준히 진행하고 있습니다.

개인 정보 보호 또한 Gemini 개발 과정에서 Google의 중요한 고려 사항입니다. Google이 개인 정보 보호를 중심으로 설계되고 사용자가 관리할 수 있는 Gemini를 개발하는 방법에 대한 자세한 정보는 Gemini 앱 개인 정보 보호 허브에서 확인할 수 있습니다.

사용자 및 게시자에게 관리 권한 부여

Google은 사용자가 Gemini 데이터를 검토하고, 업데이트하고, 관리하고, 내보내고, 삭제할 수 있도록 간편하게 이용할 수 있는 다양한 Gemini 사용자 관리 기능을 구축했습니다. 사용자는 Gemini 앱 활동 관리 기능을 통해 Gemini 프롬프트, 대답, 의견에 액세스하고 검토할 수 있습니다. 또한 Gemini 앱 활동 설정을 사용 중지하여 향후 Gemini 채팅 내용이 Google 머신러닝 기술 개선에 사용되지 않도록 할 수 있습니다. Google의 Takeout 도구에서도 다른 Google 서비스와 마찬가지로 정보를 다운로드하고 내보낼 수 있습니다. 또한 Gemini 대화목록에 생성한 공개 링크를 관리할 수 있는 관리 기능과 확장 프로그램(예: Workspace, 지도, YouTube)에 대한 액세스를 사용 설정/중지할 수 있는 관리 기능도 제공됩니다. Google은 더 다양한 대답을 제공할 수 있도록 필터를 조정하는 등 사용자가 Gemini의 대답을 더 세부적으로 관리할 수 있는 새로운 방법을 모색하고 있습니다.

게시자를 위한 Google-Extended도 출시했습니다. 이는 Gemini 및 Vertex AI 생성형 API 개선에 사이트가 참여하도록 허용할지 여부를 웹 게시자가 관리하는 데 사용할 수 있는 관리 기능입니다. Google-Extended가 사이트 콘텐츠에 액세스하도록 허용하면 AI 모델의 정확도와 성능이 점차 향상될 수 있습니다. Gemini는 액세스를 거부한 URL의 콘텐츠를 모델 학습은 물론, 그라운딩에도 사용하지 않습니다. AI 애플리케이션이 확장됨에 따라 웹 게시자가 다양한 용도를 대규모로 관리하기가 훨씬 더 복잡해질 것으로 예상됩니다. Google은 선택권과 제어권에 대해 기계 판독이 가능한 더 많은 접근 방식을 모색하기 위해 웹 및 AI 커뮤니티와 최선을 다해 협력하고 있습니다.

Gemini 개선에 동참해 주세요

Google은 빠른 반복의 힘을 믿으며, 이를 통해 보다 개선된 Gemini의 새 버전을 전 세계에 공개할 수 있었습니다. 사용자 의견 덕분에 모델 개선에 박차를 가할 수 있었습니다. 예를 들어 Google은 더욱 직관적이고 창의적인 모델을 만들고, 대답의 품질과 정확성을 더욱 높이기 위해 최첨단 강화 학습 기법을 사용하여 모델을 학습시킵니다. Google은 LLM의 기술적, 사회적, 윤리적 과제와 기회에 대해 더 깊이 이해하기 위한 연구에 지속적으로 투자하고 있습니다. 이를 통해 Gemini의 모델 학습 및 튜닝 기법을 개선하고, 최근 첨단 AI 어시스턴트의 윤리학에 대한 논문과 같은 학습 내용을 연구자들과 공유하고 있습니다. Google은 이 분야에서 책임감 있게 혁신을 추구하고, 사용자, 신뢰할 수 있는 테스터, 연구자들과 협력하여 이 새로운 기술이 전체 생태계에 도움이 될 수 있는 방법을 모색하기 위해 최선을 다하고 있습니다.

투명성은 중요하며, Google은 Gemini의 개발 과정과 한계에 대해 투명하게 공개할 것을 약속합니다. Gemini는 신비한 마법 상자가 아닙니다. 끊임없이 발전하고 있으며, Google은 앞으로도 진행 상황에 대한 소식을 공유할 것입니다. Gemini의 최신 기능, 개선 사항, 버그 수정 사항을 확인하실 수 있도록 출시 업데이트 페이지를 개설했습니다. 이 개요는 상황에 따라 업데이트될 예정입니다. Google은 Gemini의 유용하고 유익한 부분과 지속적으로 반복해서 개선해야 하는 부분을 파악할 것입니다. 새로운 기능을 적극적으로 추가하고 있으며 앞으로도 지속적인 연구, 테스트, 사용자 의견을 통해 함께 Gemini를 개선해 나갈 수 있기를 기대합니다.

감사의 말

Gemini 앱팀, Google DeepMind, Trust & Safety, Google 연구팀에 계신 동료 분들의 엄청난 노고에 감사드립니다.

작성자

제임스 마니카
연구, 기술 및 사회 부문 부사장

시시 샤오
Google 어시스턴트 및 Gemini 앱 부문 부사장 겸 총괄 관리자

편집자 주

이 문서는 Google이 Gemini 앱의 기능을 빠르게 개선하고 LLM의 한계를 해결하기 위해 지속적으로 노력해 나감에 따라 계속 업데이트될 예정입니다. 이 개요는 2024년 7월 25일에 마지막으로 업데이트되었습니다. Gemini 앱의 최신 업데이트는 출시 업데이트 로그에서 확인하거나 Google Keyword 블로그에서 자세히 알아보세요.

3 사용자 프롬프트에 대한 대답

대답 생성 방식은 인간이 질문에 답하기 위해 다양한 접근 방식을 브레인스토밍하는 방식과 유사합니다. 사용자가 프롬프트를 제공하면 Gemini는 프롬프트의 맥락은 물론 사용자와의 상호작용을 활용해 대답을 여러 버전으로 작성합니다. 또한 Google 검색, 다양한 확장 프로그램, 최근 업로드된 파일(Gemini Advanced만 해당) 등의 외부 소스를 사용하여 대답을 생성합니다. 이 과정을 검색 증강이라고 합니다. Gemini는 프롬프트를 토대로 이러한 외부 소스(예: Google 검색)의 관련 정보를 검색하고 대답에 정확하게 반영합니다. 외부 도구를 사용하여 LLM을 증강하는 것은 활발한 연구가 진행되고 있는 분야입니다. Gemini가 외부 도구를 호출하는 데 사용하는 쿼리, Gemini가 도구에서 반환된 결과를 해석하는 방식, 반환된 결과를 사용하여 최종 대답을 생성하는 방식 등 다양한 경로에서 오류가 발생할 수 있습니다. 따라서 Gemini에서 생성한 대답이 생성하는 데 사용된 개별 도구의 성능을 판단하는 기준이 되어서는 안 됩니다.

마지막으로, 최종 대답을 표시하기 전에 안전 확인을 통해 각 잠재적 대답이 정해진 정책 가이드라인을 준수하는지 확인합니다. 이 과정은 유해하거나 불쾌감을 주는 정보를 걸러내는 재확인 기능을 제공합니다. 그런 다음 품질에 따라 나머지 대답에 순위를 매겨서 가장 높은 점수를 받은 버전을 사용자에게 표시합니다.

또한 Google은 AI 생성 콘텐츠에 워터마크를 지정하는 데 사용되는 디지털 툴킷 중 업계 최고로 손꼽히는 SynthID를 사용하여 Gemini 텍스트 및 이미지 출력에 워터마크를 지정합니다. SynthID는 육안으로는 보이지 않는 디지털 워터마크를 AI 생성 이미지의 픽셀에 직접 추가합니다. SynthID는 더욱 신뢰할 수 있는 AI 식별 도구를 개발하는 데 중요한 구성 요소이며, 사람들이 AI 생성 콘텐츠와 상호작용하는 데 있어 정보에 입각한 결정을 내리는 데 도움을 줄 수 있습니다.

Gemini 앱 개요

Gemini 정의

생산성

창의력

호기심

Gemini 작동 방식

사전 학습

사후 학습

사용자 프롬프트에 대한 대답

사람의 의견과 평가

Gemini와 같은 LLM 기반 인터페이스의 알려진 한계

정확성

편향성

여러 가지 관점

페르소나

거짓양성/거짓음성

적대적인 프롬프트에 대한 취약성

Gemini 개발 현황

Gemini 접근 방식의 적용

사용자 및 게시자에게 관리 권한 부여

Gemini 개선에 동참해 주세요

감사의 말

지역 및 언어 변경

아시아 태평양

미주

유럽 및 아프리카

1 사전 학습

2 사후 학습

3 사용자 프롬프트에 대한 대답

4 사람의 의견 및 평가