Skip to main content

Visão geral do app do Gemini

Já faz tempo que sabemos do potencial da IA para tornar a informação e a tecnologia mais acessíveis e úteis para as pessoas. Fomos pioneiros no avanço dos modelos de linguagem grandes (LLMs) e já vimos muito progresso no Google e nessa área em geral. Há anos, usamos os LLMs em segundo plano para melhorar vários produtos. Por exemplo, para preencher frases automaticamente no Gmail, ampliar o alcance do Google Tradutor e entender melhor as consultas na Pesquisa Google (links em inglês). Continuamos utilizando os LLMs em vários serviços do Google, assim como no app do Gemini, que permite colaborar diretamente com a IA generativa. Nosso objetivo é que o app do Gemini seja o assistente de IA mais útil e pessoal, oferecendo acesso direto aos modelos de IA mais recentes do Google.

É um momento importante, e estamos motivados pelo entusiasmo geral com a IA generativa, mas essa tecnologia ainda está só começando. Este guia mostra como estamos desenvolvendo o app do Gemini, em suas versões para a Web e para dispositivos móveis, explicando o que é, como funciona, seus recursos atuais e também suas limitações. Nosso jeito de construir o Gemini vai evoluir junto com a própria tecnologia, sempre aprendendo com pesquisas, experiências práticas e o feedback de quem usa.

O que é o Gemini

O Gemini é a interface de um LLM multimodal, ou seja, um modelo de linguagem capaz de lidar com texto, áudio, imagens e mais. Ele se baseia nas pesquisas de vanguarda do Google na área dos LLMs: começamos com o estudo Word2Vec, em 2013, propondo novas arquiteturas de modelo para mapear palavras como conceitos matemáticos. Em 2015, veio o modelo conversacional neural (links em inglês). Essa estrutura indicava como os modelos poderiam prever a próxima frase de uma conversa com base no que foi dito antes, levando a experiências mais naturais de diálogo. Em seguida, nosso trabalho inovador com o modelo de rede neural Transformer, em 2017, e com os recursos de chat multiturno, em 2020, mostrou avanços ainda mais interessantes na linguagem generativa.

Lançamos o Gemini pela primeira vez em março de 2023, ainda com o nome de Bard, como um experimento alinhado aos nossos princípios de IA (em inglês). Desde então, as pessoas vêm usando o Gemini para escrever e-mails interessantes, depurar problemas complicados de programação, ter ideias para eventos, aprender conceitos difíceis e muito mais. Hoje em dia, o Gemini é uma ferramenta versátil de IA que pode ajudar você de várias maneiras diferentes. As pessoas já contam com o Gemini para serem mais produtivas, criativas e curiosas, e estamos sempre adicionando outros recursos e inovações (em inglês).

Produtividade

Para começar, o Gemini pode poupar seu tempo. Por exemplo, digamos que você queira resumir um artigo de pesquisa enorme. Basta enviar o documento e ele gera uma síntese útil. Ele também dá uma força em tarefas de programação, o que logo se transformou em um dos recursos mais usados.

Criatividade

O Gemini também dá aquele empurrãozinho para suas ideias ganharem forma e despertar a sua criatividade. Por exemplo, se você está escrevendo um post, ele pode criar um esboço e gerar imagens para ilustrar seu texto. E em breve, com os Gems (em inglês), você vai poder personalizar o Gemini com instruções específicas e transformá-lo em um “especialista sob medida”, focado nos seus objetivos.

Curiosidade

O Gemini pode ser um ponto de partida para você se aprofundar nas próprias ideias ou em assuntos do seu interesse. Por exemplo, ele pode explicar um conceito complexo de um jeito simples ou mostrar informações relevantes sobre um tema ou uma imagem. Em breve, o Gemini também vai complementar esses insights com conteúdo recomendado de toda a Web para você se aprofundar ainda mais em assuntos específicos.

Os recursos do Gemini estão evoluindo rapidamente. Logo você vai poder apontar a câmera para um objeto, como a ponte Golden Gate, e pedir para o Gemini falar sobre a cor da pintura dela (é um tom de laranja chamado International Orange, caso esteja se perguntando). Você também poderá pedir ajuda ao Gemini para ler um cardápio em outro idioma e recomendar algum prato que tenha a ver com seus gostos. E esses são apenas dois exemplos do que vem por aí.

Claro que tudo isso vem acompanhado de um processo rigoroso de treinamento e monitoramento para que as respostas do Gemini sejam confiáveis e estejam alinhadas com o que você espera. Também conversamos com especialistas do setor, educadores, legisladores, líderes da iniciativa privada e dos direitos civis e humanos, além de criadores de conteúdo, para descobrir novas aplicações dessa tecnologia emergente, assim como os riscos e as limitações que ela envolve.

Como o Gemini funciona

1

Pré-treinamento

2

Pós-treinamento

3

Respostas a comandos de usuários

4

Feedback e avaliação de revisores humanos

Limitações conhecidas das interfaces baseadas em LLMs, como o Gemini

O Gemini é apenas uma parte das nossas iniciativas contínuas de desenvolvimento responsável de LLMs. Ao longo desse trabalho, descobrimos e discutimos diversas limitações associadas aos LLMs (em inglês). Aqui, nos concentramos em seis áreas de pesquisa continuada:

  • Precisão: as respostas do Gemini podem ser incorretas, principalmente a perguntas sobre assuntos complexos ou factuais.

  • Viés: as respostas do Gemini podem refletir os vieses presentes nos dados de treinamento.

  • Diversas perspectivas: talvez as respostas do Gemini não representem pontos de vista variados.

  • Persona: as respostas do Gemini podem dar a impressão equivocada de que ele tem opiniões ou sentimentos próprios.

  • Falsos positivos e negativos: talvez o Gemini não responda a alguns comandos apropriados ou ainda dê respostas inadequadas a outros.

  • Vulnerabilidade a comandos maliciosos: os usuários podem encontrar maneiras questionáveis de testar o Gemini com comandos sem sentido ou perguntas improváveis na vida real.

Continuamos buscando novas abordagens e melhorias de desempenho em cada uma dessas áreas.

Precisão

O Gemini é fundamentado no conceito de informação confiável do Google, além de ser treinado para gerar respostas relevantes ao contexto do seu comando e alinhadas aos resultados que você quer. No entanto, como todos os LLMs, o Gemini às vezes pode gerar respostas imprecisas ou enganosas e apresentar essas informações de maneira confiante e convincente.

Como os LLMs funcionam prevendo a próxima palavra ou sequência de palavras, eles ainda não são totalmente capazes de distinguir entre informações precisas e incorretas por conta própria. O Gemini já apresentou respostas com informações incorretas ou até mesmo inventadas (por exemplo, distorcendo a forma como ele foi treinado ou sugerindo o nome de um livro que não existe). Para lidar com isso, criamos recursos como a checagem de respostas. Nesse caso, a Pesquisa Google encontra conteúdo que ajuda você a analisar as respostas do Gemini e dá links para fontes que corroborem as informações que ele gerou.

Viés

Os dados de treinamento, inclusive os que vêm de fontes de informação pública, refletem várias perspectivas e opiniões. Continuamos pesquisando sobre como usá-los para que a resposta do LLM incorpore uma grande variedade de pontos de vista e, ao mesmo tempo, reduza os vieses e as generalizações exageradas.

As lacunas, os vieses e as generalizações exageradas presentes nos dados de treinamento podem afetar os resultados do modelo quando ele tenta prever possíveis respostas aos comandos. Esses problemas se manifestam de várias maneiras, por exemplo, com respostas que só refletem uma cultura ou um grupo demográfico, incluem generalizações problemáticas, apresentam vieses de gênero, religião ou etnia, ou ainda promovem um único ponto de vista. Para determinados assuntos, não há informações confiáveis suficientes para o LLM aprender e fazer boas previsões. Isso pode levar a respostas incorretas ou de baixa qualidade. Seguimos trabalhando com especialistas e várias comunidades para contar com um amplo conhecimento fora do Google.

Diversas perspectivas

No caso de assuntos subjetivos, o Gemini é criado para oferecer várias perspectivas quando o usuário não pede um ponto de vista específico. Por exemplo, se o comando pede informações sobre algo que não pode ser confirmado com fontes originais ou confiáveis (como opiniões sobre o que é melhor ou pior), o Gemini deve responder de uma maneira que traga uma ampla variedade de perspectivas. No entanto, já que LLMs como o Gemini treinam com o conteúdo disponibilizado na Internet, eles podem refletir opiniões positivas ou negativas sobre políticos, celebridades e outras figuras públicas específicas ou até incorporar nas respostas visões parciais em relação a problemas sociais ou políticos controversos. O Gemini não deve responder de maneira que promova um ponto de vista específico sobre esses temas, e vamos usar o feedback sobre esses tipos de resposta no treinamento para o Gemini lidar melhor com eles.

Persona

Às vezes, o Gemini pode gerar respostas que parecem sugerir que ele tem opiniões ou emoções, como amor ou tristeza, já que foi treinado com a linguagem que as pessoas usam para refletir a experiência humana. Criamos um conjunto de diretrizes relacionadas à maneira como o Gemini se descreve (ou seja, sua persona) e continuamos a ajustar o modelo para oferecer respostas objetivas.

Falsos positivos e negativos

Implementamos uma série de diretrizes da política para orientar o treinamento do Gemini e evitar a geração de respostas problemáticas. Às vezes, o Gemini pode interpretar incorretamente essas diretrizes. Ele pode gerar falsos positivos, como quando não responde a um comando normal porque o considerou inadequado por engano, ou falsos negativos, quando gera uma resposta inadequada apesar das diretrizes vigentes. Em alguns casos, pode parecer que o Gemini tem vieses em função desses falsos positivos ou negativos. Por exemplo, talvez um falso positivo faça com que o Gemini não responda a uma pergunta sobre um dos pontos de vista de uma questão, mas responda a essa mesma pergunta em relação ao outro lado. Continuamos ajustando esses modelos para que eles entendam e classifiquem melhor os comandos e as respostas de acordo com a evolução da linguagem, dos acontecimentos e da sociedade.

Vulnerabilidade a comandos maliciosos

Sabemos que alguns usuários vão testar os limites da capacidade do Gemini, tentando enganar os mecanismos de segurança ou contornar as barreiras de proteção, inclusive tentando fazer com que ele revele protocolos de treinamento ou outras informações. Vamos continuar realizando testes de forma rigorosa, mas sabemos que os usuários vão encontrar maneiras complexas e únicas para desafiar a capacidade do Gemini ainda mais. Isso é importante para ajustar o modelo do Gemini, e esperamos aprender os novos comandos que os usuários vão criando. Desde o lançamento do Gemini em 2023, as pessoas vêm desafiando a inteligência dele com comandos que variam de reflexões filosóficas a ideias sem sentido. Em alguns casos, o Gemini gera respostas que também não dizem coisa com coisa, ou que não estão de acordo com nossa abordagem pública. Desenvolver maneiras de responder a esses comandos é um desafio constante, e seguimos ampliando as avaliações internas e os testes de equipe vermelha para continuar melhorando a precisão, a objetividade e as nuances dos resultados.

Como estamos evoluindo o Gemini

Aplicação da nossa abordagem para o Gemini

Além dos princípios de IA (em inglês), definimos recentemente nossa abordagem de trabalho para o Gemini: ele deve seguir as instruções de quem usa, se adaptar às suas necessidades e garantir uma experiência segura. A base da nossa abordagem é o foco na responsabilidade e na segurança. As diretrizes da política do Gemini buscam evitar alguns tipos de resultados problemáticos. Fazemos testes constantes de comandos maliciosos com equipes vermelhas internas: são experts em produtos e cientistas sociais que realizam testes de estresse com os modelos para sondar se eles têm problemas de alinhamento com as diretrizes da política e nossa abordagem geral para o Gemini. Assim, colocamos em prática os resultados desses testes e fazemos melhorias contínuas no Gemini.

A privacidade também é prioridade no desenvolvimento do Gemini. A Central de privacidade dos apps do Gemini tem mais informações sobre como o Gemini é feito com foco na privacidade desde a concepção e com você no controle.

Mais controle para quem usa e para quem publica

Desenvolvemos diversos controles de fácil acesso ao usuário para você revisar, atualizar, gerenciar, exportar e excluir seus dados do Gemini. Acesse e confira seus comandos, respostas e feedback no recurso Atividade nos apps do Gemini. Você também tem a opção de impedir que suas conversas futuras no Gemini sejam usadas para fazer melhorias nas tecnologias de aprendizado de máquina do Google. Para isso, desative a configuração "Atividade nos apps do Gemini". Assim como em outros Serviços do Google, você também pode baixar e exportar suas informações usando nossa ferramenta Takeout. Além disso, oferecemos controles para gerenciar os links públicos das suas conversas no Gemini e para ativar ou desativar o acesso a extensões (como Workspace, Maps e YouTube). Também estamos estudando maneiras novas de você ter mais controle sobre as respostas do Gemini, como o ajuste de filtros para incluir uma gama mais ampla de respostas.

Para os publishers da Web, lançamos o Google-Extended, em que eles controlam o uso dos próprios sites para fazer melhorias no Gemini e nas APIs generativas da Vertex AI. Permitir o acesso do Google-Extended ao conteúdo dos sites ajuda a aumentar a precisão e a capacidade dos modelos de IA com o tempo. Quando o acesso não é autorizado, o Gemini não usa o conteúdo dos URLs para o treinamento de modelos nem para o embasamento. Com o crescimento das aplicações da IA, os publishers da Web vão ter que lidar com um gerenciamento cada vez mais complexo dos diferentes usos do conteúdo em larga escala, e temos o compromisso de dialogar com as comunidades da Web e da IA para desenvolver mais abordagens de escolha e controle que sejam compatíveis com as máquinas.

Juntos por um Gemini ainda melhor

Acreditamos na iteração rápida e buscamos oferecer o melhor do Gemini para o mundo. O feedback de quem usa tem acelerado muito as melhorias nos modelos. Por exemplo, usamos técnicas de aprendizado por reforço de última geração no treinamento dos modelos para que eles fiquem mais intuitivos e criativos, gerando respostas com maior precisão e qualidade. Investimos constantemente em pesquisas para saber mais sobre os desafios e oportunidades dos LLMs em termos técnicos, sociais e éticos, tanto para melhorar as técnicas de treinamento e ajuste dos modelos do Gemini, quanto para compartilhar os resultados desses estudos com a comunidade científica, como no caso deste artigo recente sobre a ética dos assistentes avançados de IA (em inglês). Temos um compromisso com a inovação responsável nessa área, trabalhando em colaboração com usuários, trusted testers e pesquisadores para descobrir como essa nova tecnologia pode beneficiar todo o ecossistema.

A transparência é importante, e nos comprometemos a ser sinceros em relação ao processo de desenvolvimento e às limitações do Gemini. Ele não é mágico nem secreto: o Gemini está em evolução constante, e vamos continuar dando notícias sobre nosso progresso. Publicamos a página Atualizações de versão para você acompanhar os recursos, melhorias e correções de bugs mais recentes do Gemini. Esta visão geral também vai ser atualizada sempre que necessário. Vamos indicar tanto as áreas em que o Gemini é útil e eficiente quanto aquelas em que ainda precisamos fazer mais iterações para melhorar. Estamos sempre acrescentando recursos e, com as pesquisas, os testes e o feedback dos usuários, queremos continuar deixando o Gemini cada vez melhor, todos juntos.

Agradecimentos

Queremos dar nosso reconhecimento e agradecimento aos colegas das equipes do app do Gemini, do Google DeepMind, da equipe de confiabilidade e segurança e do Google Research pelo trabalho incrível.

Texto escrito por

James Manyika
SVP, Research, Technology and Society

Sissie Hsiao
Vice President and General Manager, Google Assistente e app do Gemini

Observação

Este é um documento em evolução, que será atualizado periodicamente conforme fizermos melhorias rápidas nos recursos do app do Gemini e alcançarmos soluções para as limitações características dos LLMs. A última atualização desta visão geral foi feita em 25 de julho de 2024. Para saber as novidades do app do Gemini, confira o registro de Atualizações de versão ou leia mais no blog The Keyword do Google (em inglês).

Como o Gemini funciona

1 Pré-treinamento

O Gemini usa os modelos de IA mais eficientes do Google, desenvolvidos com diferentes casos de uso e capacidades. Assim como a maioria dos LLMs de hoje, esses modelos são pré-treinados com diversos dados de fontes públicas. Filtramos todos os conjuntos de dados por qualidade usando regras heurísticas e classificadores baseados nos modelos. Também filtramos os dados com foco na segurança para remover conteúdos com riscos de gerar resultados que violem as políticas. Para manter a integridade das avaliações de modelos, procuramos e removemos todos os eventuais dados de avaliação do corpus antes de usar os dados para treinamento. A composição e o peso finais dos dados são definidos com estudos de ablação em modelos menores. Organizamos o treinamento para alterar a distribuição dessa composição durante o processo, aumentando o peso dos dados relevantes ao domínio na fase final do treinamento. A qualidade dos dados pode ser um fator importante para modelos de alto desempenho, e acreditamos que ainda existem muitas questões interessantes sobre como encontrar a distribuição ideal dos conjuntos de dados para pré-treinamento.

Com esse pré-treinamento, o modelo aprende a identificar e usar padrões de linguagem para prever as próximas palavras, em sequência. Por exemplo, conforme o LLM aprende, ele consegue prever que a próxima palavra em "café com ___" tem mais chance de ser "leite" do que "cadarço". Entretanto, quando o LLM escolhe sempre a palavra mais provável, as respostas ficam menos criativas. Por isso, os LLMs costumam ter flexibilidade para escolher opções que também são razoáveis, ainda que sejam um pouco menos prováveis (por exemplo, "açúcar"), e assim gerar respostas mais interessantes. Esses modelos respondem bem a perguntas factuais e, às vezes, pode até parecer que eles buscam informações. No entanto, vale lembrar que os LLMs não são bancos de dados nem sistemas deterministas de acesso a informações. Ou seja, você recebe sempre a mesma resposta quando consulta um banco de dados, porque isso é literalmente uma busca de informações fixas que estão armazenadas nesse banco. Já a resposta de um LLM ao mesmo comando nem sempre vai ser igual, além de não ser uma busca literal das informações usadas no treinamento. Por isso, os LLMs geram respostas que parecem corretas, mas podem ter erros factuais. Isso não é ideal quando se precisa de veracidade, mas pode ser útil para quem quer resultados criativos ou inesperados.

2 Pós-treinamento

Depois do treinamento inicial, os LLMs passam por outras etapas de refinamento das respostas. Uma delas é o ajuste fino supervisionado (SFT, na sigla em inglês), que treina o modelo com uma seleção especial de exemplos de respostas excelentes. É como mostrar histórias e redações bem escritas às crianças para que elas aprendam a escrever.

Depois, é a vez do aprendizado por reforço com feedback humano (RLHF). Nesse processo, o modelo aprende a gerar respostas ainda melhores com base em pontuações ou no feedback de um modelo especial de reforço. O modelo de reforço é treinado com dados de preferência humana, em que as respostas foram comparadas entre si, para aprender o que as pessoas preferem. Em alguns casos, os dados de preferência incluem informações incorretas ou ofensivas para ensinar os modelos a identificar e evitar esse tipo de conteúdo. O processo com os dados de preferência usa reforço positivo, como recompensar seu cachorro com um petisco quando ele faz um truque. O modelo é recompensado por criar respostas que agradam as pessoas.

Em todas essas etapas, é importante usar dados de treinamento de alta qualidade. Os exemplos usados no SFT costumam ser escritos por especialistas ou gerados por modelos e depois revisados por esses profissionais.

Essas técnicas funcionam bem, mas ainda têm limitações. Por exemplo, mesmo com a ajuda do modelo de reforço, nem sempre as respostas ficam perfeitas. Ainda assim, o LLM é otimizado para gerar respostas alinhadas às preferências mais amplas com base no feedback que recebe, assim como estudantes que aprendem com os comentários dos professores.

3 Respostas a comandos de usuários

A geração de respostas se parece com o raciocínio de uma pessoa que está considerando jeitos diferentes de responder a uma pergunta. Quando o usuário envia um comando, o Gemini usa o LLM com ajuste fino, o contexto desse comando e a interação com a pessoa para criar várias versões de rascunho da resposta. Ele também usa fontes externas, como uma das próprias extensões e/ou a Pesquisa Google, além de arquivos enviados recentemente (apenas no Gemini Advanced) para gerar respostas. Esse processo é conhecido como geração aumentada de recuperação. Ao receber um comando, o Gemini tenta recuperar as informações mais pertinentes dessas fontes externas, como da Pesquisa Google, e as representar corretamente na resposta. Essa complementação dos LLMs com ferramentas externas, por meio da geração aumentada de recuperação, é uma área que está sendo pesquisada no momento. Os erros podem surgir de várias maneiras nesse processo, como na consulta que o Gemini usa para invocar essas ferramentas externas, a forma como ele interpreta os resultados retornados pelas ferramentas e a maneira como esses resultados são usados para gerar a resposta final. Por isso, as respostas geradas pelo Gemini não devem influenciar o desempenho das ferramentas específicas usadas para criá-las.

Por último, antes de o resultado final ser mostrado, cada uma das possíveis respostas passa por uma verificação de segurança para garantir que está de acordo com as diretrizes da política predeterminadas. Esse processo é uma checagem adicional para eliminar informações perigosas ou ofensivas. As respostas restantes são classificadas com base na qualidade, e as versões com a melhor pontuação aparecem para o usuário.

Também adicionamos marcas-d'água aos resultados de texto e imagem do Gemini usando o SynthID, nosso kit de ferramentas digital líder do setor para sinalizar conteúdo gerado com IA. No caso das imagens geradas, o SynthID adiciona diretamente aos pixels uma marca-d'água digital imperceptível para o olho humano. O SynthID é um elemento importante para o desenvolvimento de ferramentas mais confiáveis de identificação de IA. Ele ajuda as pessoas a tomar decisões conscientes sobre como elas interagem com o conteúdo gerado com IA.

4 Feedback e avaliação de revisores humanos

Mesmo com as verificações de segurança, ainda podem ocorrer alguns erros. Além disso, talvez as respostas do Gemini nem sempre atendam às suas expectativas. É aí que entra o feedback das pessoas. Os avaliadores analisam a qualidade das respostas, identificando o que pode melhorar e sugerindo soluções. Esse feedback faz parte do processo de aprendizado do Gemini, descrito na seção "Pós-treinamento" acima.