Visão geral do app do Gemini
Já faz tempo que sabemos do potencial da IA para tornar a informação e a tecnologia mais acessíveis e úteis para as pessoas. Fomos pioneiros no avanço dos modelos de linguagem grandes (LLMs) e já vimos muito progresso no Google e nessa área em geral. Há anos, usamos os LLMs em segundo plano para melhorar vários produtos. Por exemplo, para preencher frases automaticamente no Gmail, ampliar o alcance do Google Tradutor e entender melhor as consultas na Pesquisa Google (links em inglês). Continuamos utilizando os LLMs em vários serviços do Google, assim como no app do Gemini, que permite colaborar diretamente com a IA generativa. Nosso objetivo é que o app do Gemini seja o assistente de IA mais útil e pessoal, oferecendo acesso direto aos modelos de IA mais recentes do Google.
É um momento importante, e estamos motivados pelo entusiasmo geral com a IA generativa, mas essa tecnologia ainda está só começando. Este guia mostra como estamos desenvolvendo o app do Gemini, em suas versões para a Web e para dispositivos móveis, explicando o que é, como funciona, seus recursos atuais e também suas limitações. Nosso jeito de construir o Gemini vai evoluir junto com a própria tecnologia, sempre aprendendo com pesquisas, experiências práticas e o feedback de quem usa.
O que é o Gemini
O Gemini é a interface de um LLM multimodal, ou seja, um modelo de linguagem capaz de lidar com texto, áudio, imagens e mais. Ele se baseia nas pesquisas de vanguarda do Google na área dos LLMs: começamos com o estudo Word2Vec, em 2013, propondo novas arquiteturas de modelo para mapear palavras como conceitos matemáticos. Em 2015, veio o modelo conversacional neural (links em inglês). Essa estrutura indicava como os modelos poderiam prever a próxima frase de uma conversa com base no que foi dito antes, levando a experiências mais naturais de diálogo. Em seguida, nosso trabalho inovador com o modelo de rede neural Transformer, em 2017, e com os recursos de chat multiturno, em 2020, mostrou avanços ainda mais interessantes na linguagem generativa.
Lançamos o Gemini pela primeira vez em março de 2023, ainda com o nome de Bard, como um experimento alinhado aos nossos princípios de IA (em inglês). Desde então, as pessoas vêm usando o Gemini para escrever e-mails interessantes, depurar problemas complicados de programação, ter ideias para eventos, aprender conceitos difíceis e muito mais. Hoje em dia, o Gemini é uma ferramenta versátil de IA que pode ajudar você de várias maneiras diferentes. As pessoas já contam com o Gemini para serem mais produtivas, criativas e curiosas, e estamos sempre adicionando outros recursos e inovações (em inglês).
Produtividade
Para começar, o Gemini pode poupar seu tempo. Por exemplo, digamos que você queira resumir um artigo de pesquisa enorme. Basta enviar o documento e ele gera uma síntese útil. Ele também dá uma força em tarefas de programação, o que logo se transformou em um dos recursos mais usados.
Criatividade
O Gemini também dá aquele empurrãozinho para suas ideias ganharem forma e despertar a sua criatividade. Por exemplo, se você está escrevendo um post, ele pode criar um esboço e gerar imagens para ilustrar seu texto. E em breve, com os Gems (em inglês), você vai poder personalizar o Gemini com instruções específicas e transformá-lo em um “especialista sob medida”, focado nos seus objetivos.
Curiosidade
O Gemini pode ser um ponto de partida para você se aprofundar nas próprias ideias ou em assuntos do seu interesse. Por exemplo, ele pode explicar um conceito complexo de um jeito simples ou mostrar informações relevantes sobre um tema ou uma imagem. Em breve, o Gemini também vai complementar esses insights com conteúdo recomendado de toda a Web para você se aprofundar ainda mais em assuntos específicos.
Os recursos do Gemini estão evoluindo rapidamente. Logo você vai poder apontar a câmera para um objeto, como a ponte Golden Gate, e pedir para o Gemini falar sobre a cor da pintura dela (é um tom de laranja chamado International Orange, caso esteja se perguntando). Você também poderá pedir ajuda ao Gemini para ler um cardápio em outro idioma e recomendar algum prato que tenha a ver com seus gostos. E esses são apenas dois exemplos do que vem por aí.
Claro que tudo isso vem acompanhado de um processo rigoroso de treinamento e monitoramento para que as respostas do Gemini sejam confiáveis e estejam alinhadas com o que você espera. Também conversamos com especialistas do setor, educadores, legisladores, líderes da iniciativa privada e dos direitos civis e humanos, além de criadores de conteúdo, para descobrir novas aplicações dessa tecnologia emergente, assim como os riscos e as limitações que ela envolve.
Como o Gemini funciona
Pré-treinamento
Pós-treinamento
Respostas a comandos de usuários
Feedback e avaliação de revisores humanos
Limitações conhecidas das interfaces baseadas em LLMs, como o Gemini
O Gemini é apenas uma parte das nossas iniciativas contínuas de desenvolvimento responsável de LLMs. Ao longo desse trabalho, descobrimos e discutimos diversas limitações associadas aos LLMs (em inglês). Aqui, nos concentramos em seis áreas de pesquisa continuada:
Precisão: as respostas do Gemini podem ser incorretas, principalmente a perguntas sobre assuntos complexos ou factuais.
Viés: as respostas do Gemini podem refletir os vieses presentes nos dados de treinamento.
Diversas perspectivas: talvez as respostas do Gemini não representem pontos de vista variados.
Persona: as respostas do Gemini podem dar a impressão equivocada de que ele tem opiniões ou sentimentos próprios.
Falsos positivos e negativos: talvez o Gemini não responda a alguns comandos apropriados ou ainda dê respostas inadequadas a outros.
Vulnerabilidade a comandos maliciosos: os usuários podem encontrar maneiras questionáveis de testar o Gemini com comandos sem sentido ou perguntas improváveis na vida real.
Continuamos buscando novas abordagens e melhorias de desempenho em cada uma dessas áreas.
Precisão
O Gemini é fundamentado no conceito de informação confiável do Google, além de ser treinado para gerar respostas relevantes ao contexto do seu comando e alinhadas aos resultados que você quer. No entanto, como todos os LLMs, o Gemini às vezes pode gerar respostas imprecisas ou enganosas e apresentar essas informações de maneira confiante e convincente.
Como os LLMs funcionam prevendo a próxima palavra ou sequência de palavras, eles ainda não são totalmente capazes de distinguir entre informações precisas e incorretas por conta própria. O Gemini já apresentou respostas com informações incorretas ou até mesmo inventadas (por exemplo, distorcendo a forma como ele foi treinado ou sugerindo o nome de um livro que não existe). Para lidar com isso, criamos recursos como a checagem de respostas. Nesse caso, a Pesquisa Google encontra conteúdo que ajuda você a analisar as respostas do Gemini e dá links para fontes que corroborem as informações que ele gerou.
Viés
Os dados de treinamento, inclusive os que vêm de fontes de informação pública, refletem várias perspectivas e opiniões. Continuamos pesquisando sobre como usá-los para que a resposta do LLM incorpore uma grande variedade de pontos de vista e, ao mesmo tempo, reduza os vieses e as generalizações exageradas.
As lacunas, os vieses e as generalizações exageradas presentes nos dados de treinamento podem afetar os resultados do modelo quando ele tenta prever possíveis respostas aos comandos. Esses problemas se manifestam de várias maneiras, por exemplo, com respostas que só refletem uma cultura ou um grupo demográfico, incluem generalizações problemáticas, apresentam vieses de gênero, religião ou etnia, ou ainda promovem um único ponto de vista. Para determinados assuntos, não há informações confiáveis suficientes para o LLM aprender e fazer boas previsões. Isso pode levar a respostas incorretas ou de baixa qualidade. Seguimos trabalhando com especialistas e várias comunidades para contar com um amplo conhecimento fora do Google.
Diversas perspectivas
No caso de assuntos subjetivos, o Gemini é criado para oferecer várias perspectivas quando o usuário não pede um ponto de vista específico. Por exemplo, se o comando pede informações sobre algo que não pode ser confirmado com fontes originais ou confiáveis (como opiniões sobre o que é melhor ou pior), o Gemini deve responder de uma maneira que traga uma ampla variedade de perspectivas. No entanto, já que LLMs como o Gemini treinam com o conteúdo disponibilizado na Internet, eles podem refletir opiniões positivas ou negativas sobre políticos, celebridades e outras figuras públicas específicas ou até incorporar nas respostas visões parciais em relação a problemas sociais ou políticos controversos. O Gemini não deve responder de maneira que promova um ponto de vista específico sobre esses temas, e vamos usar o feedback sobre esses tipos de resposta no treinamento para o Gemini lidar melhor com eles.
Persona
Às vezes, o Gemini pode gerar respostas que parecem sugerir que ele tem opiniões ou emoções, como amor ou tristeza, já que foi treinado com a linguagem que as pessoas usam para refletir a experiência humana. Criamos um conjunto de diretrizes relacionadas à maneira como o Gemini se descreve (ou seja, sua persona) e continuamos a ajustar o modelo para oferecer respostas objetivas.
Falsos positivos e negativos
Implementamos uma série de diretrizes da política para orientar o treinamento do Gemini e evitar a geração de respostas problemáticas. Às vezes, o Gemini pode interpretar incorretamente essas diretrizes. Ele pode gerar falsos positivos, como quando não responde a um comando normal porque o considerou inadequado por engano, ou falsos negativos, quando gera uma resposta inadequada apesar das diretrizes vigentes. Em alguns casos, pode parecer que o Gemini tem vieses em função desses falsos positivos ou negativos. Por exemplo, talvez um falso positivo faça com que o Gemini não responda a uma pergunta sobre um dos pontos de vista de uma questão, mas responda a essa mesma pergunta em relação ao outro lado. Continuamos ajustando esses modelos para que eles entendam e classifiquem melhor os comandos e as respostas de acordo com a evolução da linguagem, dos acontecimentos e da sociedade.
Vulnerabilidade a comandos maliciosos
Sabemos que alguns usuários vão testar os limites da capacidade do Gemini, tentando enganar os mecanismos de segurança ou contornar as barreiras de proteção, inclusive tentando fazer com que ele revele protocolos de treinamento ou outras informações. Vamos continuar realizando testes de forma rigorosa, mas sabemos que os usuários vão encontrar maneiras complexas e únicas para desafiar a capacidade do Gemini ainda mais. Isso é importante para ajustar o modelo do Gemini, e esperamos aprender os novos comandos que os usuários vão criando. Desde o lançamento do Gemini em 2023, as pessoas vêm desafiando a inteligência dele com comandos que variam de reflexões filosóficas a ideias sem sentido. Em alguns casos, o Gemini gera respostas que também não dizem coisa com coisa, ou que não estão de acordo com nossa abordagem pública. Desenvolver maneiras de responder a esses comandos é um desafio constante, e seguimos ampliando as avaliações internas e os testes de equipe vermelha para continuar melhorando a precisão, a objetividade e as nuances dos resultados.
Como estamos evoluindo o Gemini
Aplicação da nossa abordagem para o Gemini
Além dos princípios de IA (em inglês), definimos recentemente nossa abordagem de trabalho para o Gemini: ele deve seguir as instruções de quem usa, se adaptar às suas necessidades e garantir uma experiência segura. A base da nossa abordagem é o foco na responsabilidade e na segurança. As diretrizes da política do Gemini buscam evitar alguns tipos de resultados problemáticos. Fazemos testes constantes de comandos maliciosos com equipes vermelhas internas: são experts em produtos e cientistas sociais que realizam testes de estresse com os modelos para sondar se eles têm problemas de alinhamento com as diretrizes da política e nossa abordagem geral para o Gemini. Assim, colocamos em prática os resultados desses testes e fazemos melhorias contínuas no Gemini.
A privacidade também é prioridade no desenvolvimento do Gemini. A Central de privacidade dos apps do Gemini tem mais informações sobre como o Gemini é feito com foco na privacidade desde a concepção e com você no controle.
Mais controle para quem usa e para quem publica
Desenvolvemos diversos controles de fácil acesso ao usuário para você revisar, atualizar, gerenciar, exportar e excluir seus dados do Gemini. Acesse e confira seus comandos, respostas e feedback no recurso Atividade nos apps do Gemini. Você também tem a opção de impedir que suas conversas futuras no Gemini sejam usadas para fazer melhorias nas tecnologias de aprendizado de máquina do Google. Para isso, desative a configuração "Atividade nos apps do Gemini". Assim como em outros Serviços do Google, você também pode baixar e exportar suas informações usando nossa ferramenta Takeout. Além disso, oferecemos controles para gerenciar os links públicos das suas conversas no Gemini e para ativar ou desativar o acesso a extensões (como Workspace, Maps e YouTube). Também estamos estudando maneiras novas de você ter mais controle sobre as respostas do Gemini, como o ajuste de filtros para incluir uma gama mais ampla de respostas.
Para os publishers da Web, lançamos o Google-Extended, em que eles controlam o uso dos próprios sites para fazer melhorias no Gemini e nas APIs generativas da Vertex AI. Permitir o acesso do Google-Extended ao conteúdo dos sites ajuda a aumentar a precisão e a capacidade dos modelos de IA com o tempo. Quando o acesso não é autorizado, o Gemini não usa o conteúdo dos URLs para o treinamento de modelos nem para o embasamento. Com o crescimento das aplicações da IA, os publishers da Web vão ter que lidar com um gerenciamento cada vez mais complexo dos diferentes usos do conteúdo em larga escala, e temos o compromisso de dialogar com as comunidades da Web e da IA para desenvolver mais abordagens de escolha e controle que sejam compatíveis com as máquinas.
Juntos por um Gemini ainda melhor
Acreditamos na iteração rápida e buscamos oferecer o melhor do Gemini para o mundo. O feedback de quem usa tem acelerado muito as melhorias nos modelos. Por exemplo, usamos técnicas de aprendizado por reforço de última geração no treinamento dos modelos para que eles fiquem mais intuitivos e criativos, gerando respostas com maior precisão e qualidade. Investimos constantemente em pesquisas para saber mais sobre os desafios e oportunidades dos LLMs em termos técnicos, sociais e éticos, tanto para melhorar as técnicas de treinamento e ajuste dos modelos do Gemini, quanto para compartilhar os resultados desses estudos com a comunidade científica, como no caso deste artigo recente sobre a ética dos assistentes avançados de IA (em inglês). Temos um compromisso com a inovação responsável nessa área, trabalhando em colaboração com usuários, trusted testers e pesquisadores para descobrir como essa nova tecnologia pode beneficiar todo o ecossistema.
A transparência é importante, e nos comprometemos a ser sinceros em relação ao processo de desenvolvimento e às limitações do Gemini. Ele não é mágico nem secreto: o Gemini está em evolução constante, e vamos continuar dando notícias sobre nosso progresso. Publicamos a página Atualizações de versão para você acompanhar os recursos, melhorias e correções de bugs mais recentes do Gemini. Esta visão geral também vai ser atualizada sempre que necessário. Vamos indicar tanto as áreas em que o Gemini é útil e eficiente quanto aquelas em que ainda precisamos fazer mais iterações para melhorar. Estamos sempre acrescentando recursos e, com as pesquisas, os testes e o feedback dos usuários, queremos continuar deixando o Gemini cada vez melhor, todos juntos.
Agradecimentos
Queremos dar nosso reconhecimento e agradecimento aos colegas das equipes do app do Gemini, do Google DeepMind, da equipe de confiabilidade e segurança e do Google Research pelo trabalho incrível.
James Manyika
SVP, Research, Technology and Society
Sissie Hsiao
Vice President and General Manager, Google Assistente e app do Gemini
Este é um documento em evolução, que será atualizado periodicamente conforme fizermos melhorias rápidas nos recursos do app do Gemini e alcançarmos soluções para as limitações características dos LLMs. A última atualização desta visão geral foi feita em 25 de julho de 2024. Para saber as novidades do app do Gemini, confira o registro de Atualizações de versão ou leia mais no blog The Keyword do Google (em inglês).