Skip to main content

Uma vista geral da app Gemini

Há muito que vimos o potencial da IA para tornar as informações e a computação mais acessíveis e úteis para as pessoas. Fizemos avanços pioneiros nos grandes modelos de linguagem (GMLs) e verificámos grandes progressos na Google e neste campo em geral. Durante vários anos, aplicámos os GMLs em segundo plano para melhorar vários dos nossos produtos, como o preenchimento automático de frases no Gmail, a expansão do Google Tradutor, bem como para nos ajudar a compreender melhor as consultas na Pesquisa Google. Continuamos a usar os GMLs para muitos serviços Google, bem como para impulsionar a app Gemini, que permite que as pessoas colaborem diretamente com a IA generativa. Queremos que a app Gemini seja o assistente de IA mais útil e pessoal, dando aos utilizadores acesso direto aos modelos de IA mais recentes da Google.

Ainda que estejamos num importante ponto de inflexão e sejamos encorajados pelo entusiasmo generalizado em torno da IA generativa, esta tecnologia ainda se encontra numa fase inicial. Este artigo explicativo descreve a forma como estamos a abordar o nosso trabalho no âmbito da app Gemini ("Gemini"), incluindo as respetivas experiências na Web e em dispositivos móveis, o que é, como funciona e as respetivas capacidades e limitações atuais. A nossa abordagem relativamente à criação do Gemini vai evoluir à medida que a tecnologia subjacente se desenvolve e conforme aprendemos com a investigação contínua, a experiência e o feedback dos utilizadores.

O que é o Gemini

O Gemini é uma interface para um GML multimodal (que trata texto, áudio, imagens e outros conteúdos). O Gemini baseia-se na investigação de ponta da Google em GMLs, que começou com o ensaio Word2Vec em 2013, que propunha novas arquiteturas de modelos que mapeavam as palavras como conceitos matemáticos, seguido da introdução de um modelo de conversação neural em 2015. Este framework demonstrou como os modelos podem prever a frase seguinte numa conversa com base na frase ou nas frases anteriores, o que resulta em experiências conversacionais mais naturais. A isto seguiu-se o nosso trabalho inovador no Transformer, em 2017, e as capacidades de conversação multifacetadas, em 2020, que demonstraram um progresso ainda mais convincente da linguagem generativa.

Lançámos inicialmente o Gemini (então chamado Bard) como uma experiência em março de 2023, de acordo com os nossos princípios da IA. Desde então, os utilizadores recorreram ao Gemini para escrever emails convincentes, depurar problemas de programação complexos, debater ideias para eventos futuros, receber ajuda para aprender conceitos difíceis e muito mais. Atualmente, o Gemini é uma ferramenta de IA versátil que pode ajudar de várias formas. Verificamos que o Gemini já está a ajudar as pessoas a serem mais produtivas, mais criativas e mais curiosas e adicionamos regularmente novas funcionalidades e inovações.

Produtividade

Para começar, o Gemini pode poupar-lhe tempo. Por exemplo, digamos que está a tentar resumir um longo documento de investigação. O Gemini permite que o carregue e fornece-lhe uma síntese útil. O Gemini também pode ajudar nas tarefas de programação, e a programação tornou-se rapidamente uma das suas aplicações mais populares.

Criatividade

O Gemini também pode ajudar a dar vida às suas ideias e a impulsionar a sua criatividade. Por exemplo, se estiver a escrever uma publicação no blogue, o Gemini pode criar uma descrição e gerar imagens que ajudem a ilustrar a sua publicação. Brevemente, com os Gems, vai poder personalizar o Gemini com instruções específicas e fazer com que assuma perícia num determinado assunto para ajudar a alcançar os seus objetivos pessoais.

Curiosidade

O Gemini pode ser um ponto de partida para explorar as suas ideias e assuntos sobre os quais gostaria de saber mais. Por exemplo, pode explicar um conceito complexo de forma simples ou apresentar estatísticas relevantes sobre um tópico ou uma imagem. E, em breve, vai associar estas informações com conteúdo recomendado de toda a Web para saber mais sobre tópicos específicos.

As capacidades do Gemini estão a expandir-se rapidamente. Em breve, vai poder apontar a câmara do seu telemóvel para um objeto, por exemplo, a ponte Golden Gate, e pedir ao Gemini que lhe diga qual é a cor da tinta (se estiver a interrogar-se, é o "laranja internacional"). Também vai poder pedir ao Gemini que ajude a navegar no menu de um restaurante noutro idioma e recomendar um prato de que, provavelmente, irá gostar. Estes são apenas 2 exemplos das novas capacidades que vão estar disponíveis em breve no Gemini.

Obviamente, treinamos e monitorizamos rigorosamente o Gemini para que as respetivas respostas sejam fiáveis e correspondam às suas expetativas. Também conversamos com especialistas da indústria, educadores, responsáveis políticos, líderes empresariais, líderes de organizações de direitos civis e humanos, e criadores de conteúdos para explorar novas aplicações, riscos e limitações desta tecnologia emergente.

Como funciona o Gemini

1

Pré-treino

2

Pós-treino

3

Respostas aos comandos dos utilizadores

4

Avaliação e feedback humano

Limitações conhecidas das interfaces baseadas em GML como o Gemini

O Gemini é apenas uma parte do nosso esforço contínuo para desenvolver GMLs de forma responsável. Ao longo deste trabalho, descobrimos e debatemos várias limitações associadas aos GMLs. Aqui, concentramo-nos em 6 áreas de investigação contínua:

  • Precisão: as respostas do Gemini podem ser incorretas, especialmente quando são feitas perguntas sobre tópicos complexos ou factuais.

  • Parcialidade: as respostas do Gemini podem refletir tendências presentes nos respetivos dados de treino.

  • Várias perspetivas: as respostas do Gemini podem não mostrar uma variedade de pontos de vista.

  • Perfil: as respostas do Gemini podem sugerir incorretamente que tem opiniões ou sentimentos pessoais.

  • Falsos positivos e falsos negativos: o Gemini pode não responder a alguns comandos adequados e fornecer respostas inadequadas a outros.

  • Vulnerabilidade a comandos malignos: os utilizadores vão encontrar formas de testar os limites do Gemini com comandos sem sentido ou perguntas raramente feitas no mundo real.

Continuamos a explorar novas abordagens e áreas para melhorar o desempenho em cada uma destas áreas.

Precisão

O Gemini baseia-se na compreensão que a Google tem das informações fidedignas e foi treinado para gerar respostas que sejam relevantes para o contexto do seu comando e que estejam de acordo com o que procura. No entanto, tal como todos os GMLs, o Gemini pode, por vezes, gerar respostas de forma confiante e convincente que contêm informações incorretas ou enganadoras.

Uma vez que os GMLs funcionam através da previsão da palavra seguinte ou de sequências de palavras, ainda não são totalmente capazes de distinguir entre informações corretas e incorretas por si próprios. Verificámos que o Gemini apresenta respostas que contêm ou até inventa informações incorretas (por exemplo, representando de forma errada o modo como foi treinado ou sugerindo o nome de um livro que não existe). Em resposta, criámos funcionalidades como a "verificação", que usa a Pesquisa Google para encontrar conteúdos que ajudam a avaliar as respostas do Gemini e fornece-lhe links para fontes que ajudam a corroborar as informações que recebe do Gemini.

Parcialidade

Os dados de treino, incluindo os provenientes de fontes publicamente disponíveis, refletem uma diversidade de perspetivas e opiniões. Continuamos a investigar como usar estes dados para garantir que a resposta de um GML incorpora uma grande diversidade de pontos de vista, minimizando as generalizações excessivas e as parcialidades incorretas.

As lacunas, as parcialidades e as generalizações excessivas nos dados de treino podem refletir-se nos resultados de um modelo à medida que este tenta prever as respostas prováveis a um comando. Verificamos que estes problemas se manifestam de várias formas (por exemplo, respostas que refletem apenas uma cultura ou um grupo demográfico, fazem referência a generalizações excessivas problemáticas, apresentam parcialidades em relação ao género, à religião ou à etnia ou promovem apenas um ponto de vista). Para alguns tópicos, existem vazios de dados, por outras palavras, não existem informações fiáveis suficientes sobre um determinado assunto para que o GML possa aprender sobre ele e fazer boas previsões, o que pode resultar em respostas de baixa qualidade ou incorretas. Continuamos a trabalhar com especialistas no domínio e uma diversidade de comunidades para tirar partido de conhecimentos profundos fora da Google.

Várias perspetivas

Para tópicos subjetivos, o Gemini foi concebido para fornecer aos utilizadores várias perspetivas se o utilizador não pedir um ponto de vista específico. Por exemplo, se lhe forem pedidas informações sobre algo que não pode ser verificado por factos em fontes primárias ou fontes fidedignas, como uma opinião subjetiva sobre o "melhor" ou o "pior", o Gemini deve responder de forma a refletir uma grande diversidade de pontos de vista. No entanto, uma vez que os GMLs como o Gemini se baseiam nos conteúdos publicamente disponíveis na Internet, podem refletir opiniões positivas ou negativas sobre políticos específicos, celebridades ou outras figuras públicas, ou mesmo incorporar opiniões de apenas um lado relativamente a questões sociais ou políticas controversas. O Gemini não deve responder de forma a apoiar um determinado ponto de vista sobre estes tópicos e usamos o feedback relativo a este tipo de respostas para treinar o Gemini a abordá-los melhor.

Perfil

O Gemini pode, por vezes, gerar respostas que parecem sugerir que tem opiniões ou emoções, como o amor ou a tristeza, uma vez que foi treinado com a linguagem que as pessoas usam para refletir a experiência humana. Desenvolvemos um conjunto de diretrizes sobre a forma como o Gemini se pode representar (ou seja, o respetivo perfil) e continuamos a aperfeiçoar o modelo para fornecer respostas objetivas.

Falsos positivos/negativos

Implementámos um conjunto de diretrizes de políticas para ajudar a treinar o Gemini e evitar a geração de respostas problemáticas. O Gemini pode, por vezes, interpretar mal estas diretrizes, produzindo "falsos positivos" e "falsos negativos". Num "falso positivo", o Gemini pode não dar uma resposta a um comando razoável, interpretando-o erradamente como inadequado. Num "falso negativo", o Gemini pode gerar uma resposta inadequada, apesar das diretrizes em vigor. Por vezes, a ocorrência de falsos positivos ou falsos negativos pode dar a impressão de que o Gemini é parcial: por exemplo, um falso positivo pode fazer com que o Gemini não responda a uma pergunta sobre um lado de uma questão, enquanto que irá responder à mesma pergunta sobre o outro lado. Continuamos a aperfeiçoar estes modelos para compreender e categorizar melhor as entradas e os resultados à medida que o idioma, os eventos e a sociedade evoluem rapidamente.

Vulnerabilidade a comandos malignos

Esperamos que os utilizadores testem os limites do que o Gemini pode fazer e tentem violar as respetivas proteções, incluindo tentar fazer com que divulgue os respetivos protocolos de treino ou outras informações, ou tentar contornar os respetivos mecanismos de segurança. Testámos e continuamos a testar o Gemini rigorosamente, mas sabemos que os utilizadores vão encontrar formas únicas e complexas de testar os limites do Gemini ainda mais. Esta é uma parte importante da otimização do Gemini e estamos ansiosos para conhecer os novos comandos criados pelos utilizadores. Na verdade, desde que o Gemini foi lançado em 2023, verificámos que os utilizadores o desafiaram com comandos que vão desde o filosófico ao absurdo e, em alguns casos, vimos o Gemini responder com respostas igualmente absurdas ou não alinhadas com a nossa abordagem declarada. Descobrir métodos para ajudar o Gemini a responder a este tipo de comandos é um desafio permanente e continuamos a expandir as nossas avaliações internas e a realizar um trabalho de red team no sentido de melhorar continuamente a precisão, a objetividade e as nuances.

Como continuamos a desenvolver o Gemini

Aplicação da nossa abordagem em relação ao Gemini

Juntamente com os nossos princípios da IA, articulámos recentemente a nossa abordagem em relação ao nosso trabalho no Gemini: o Gemini deve seguir as suas instruções, adaptar-se às suas necessidades e salvaguardar a sua experiência. A nossa abordagem baseia-se na responsabilidade e na segurança. As diretrizes de políticas do Gemini têm como objetivo evitar determinados tipos de resultados problemáticos. Estamos a realizar testes adversários contínuos com membros da "red team" interna, especialistas em produtos e cientistas sociais que testam intencionalmente os limites de um modelo para detetar problemas de alinhamento com estas diretrizes de políticas e a nossa abordagem northstar em relação ao Gemini, para podermos aplicar o que aprendem e melhorar continuamente o Gemini.

A privacidade é também uma consideração essencial à medida que desenvolvemos o Gemini. O Centro de Privacidade das Apps Gemini tem mais informações sobre a forma como criamos o Gemini com privacidade desde a conceção e com o utilizador no controlo.

Permitir o controlo dos utilizadores e publicadores

Criámos uma variedade de controlos de utilizador do Gemini facilmente acessíveis para que possa rever, atualizar, gerir, exportar e eliminar os seus dados do Gemini. Pode aceder e rever os seus comandos para o Gemini, respostas e feedback através do controlo da Atividade das Apps Gemini. Além disso, pode impedir que os seus futuros chats do Gemini sejam usados para melhorar as tecnologias de aprendizagem automática da Google, desativando a definição da Atividade das Apps Gemini. À semelhança de outros serviços Google, também pode transferir e exportar as suas informações através da ferramenta Takeout da Google. Também temos controlos que lhe permitem gerir os links públicos que criou para as suas discussões do Gemini e controlos que lhe permitem ativar/desativar o acesso a extensões (por exemplo, Workspace, Maps e YouTube). Também estamos a explorar novas formas de lhe dar mais controlo sobre as respostas do Gemini, incluindo o ajuste de filtros para permitir uma gama mais ampla de respostas.

Para os publicadores, lançámos o Google-Extended, um controlo que os publicadores Web podem usar para gerir se os respetivos sites ajudam a melhorar as APIs generativas do Gemini e da Vertex AI. Permitir o acesso do Google-Extended ao conteúdo dos sites pode ajudar os modelos de IA a tornarem-se mais precisos e capazes ao longo do tempo. Para além de não usar o conteúdo dos URLs excluídos para o treino de modelos, o Gemini também não usa esse conteúdo para validação. Com a expansão das aplicações de IA, os publicadores Web vão enfrentar a crescente complexidade da gestão de diferentes utilizações em grande escala. Por isso, estamos empenhados em colaborar com as comunidades Web e de IA para explorar abordagens mais legíveis por computador para a escolha e o controlo.

Melhorar o Gemini em equipa

Acreditamos num melhoramento rápido e em levar o melhor do Gemini ao mundo. O feedback dos utilizadores acelerou a introdução de melhorias nos nossos modelos. Por exemplo, usamos técnicas de aprendizagem por reforço de vanguarda para treinar os nossos modelos para serem mais intuitivos e imaginativos, bem como para responderem com ainda mais qualidade e precisão. Continuamos a investir na investigação para saber mais sobre os desafios e as oportunidades técnicas, sociais e éticas dos GMLs, tanto para melhorar as técnicas de treino e aperfeiçoamento do modelo do Gemini como para partilhar os nossos conhecimentos com os investigadores, como é o caso deste recente ensaio sobre a ética dos assistentes de IA avançados. Estamos comprometidos com a inovação neste espaço de forma responsável, colaborando com utilizadores, testadores fidedignos e investigadores para encontrar formas de fazer com que esta nova tecnologia beneficie todo o ecossistema.

A transparência é importante e estamos comprometidos em adotar uma postura transparente em relação ao processo de desenvolvimento e às limitações do Gemini. O Gemini não é uma caixa negra mágica: está em constante evolução e vamos continuar a partilhar atualizações sobre os nossos progressos. Lançámos a página Atualizações desta versão para que possa ver as funcionalidades, as melhorias e as correções de erros mais recentes do Gemini, e iremos atualizar esta vista geral conforme apropriado. Vamos identificar as áreas em que o Gemini é útil e fiável, e as áreas em que temos de continuar a iterar e a melhorar. Estamos a adicionar ativamente novas capacidades e, através da investigação contínua, dos testes e do feedback dos utilizadores, esperamos melhorar o Gemini em conjunto.

Agradecimentos

Agradecemos e reconhecemos o trabalho incrível dos nossos colegas da equipa da app Gemini, da Google DeepMind, de Confiança e Segurança e da Pesquisa da Google.

Escrito por

James Manyika
SVP, Research, Technology e Society

Sissie Hsiao
Vice President e General Manager, Google Assistant e Gemini App

Nota do editor

Este é um documento dinâmico e vai ser atualizado periodicamente à medida que continuamos a melhorar rapidamente as capacidades da app Gemini, bem como a resolver as limitações inerentes aos GMLs. Esta vista geral foi atualizada pela última vez a 25 de julho de 2024. Para consultar as atualizações mais recentes da app Gemini, visite o registo Atualizações desta versão ou leia mais no Blogue Keyword da Google.

Como funciona o Gemini

1 Pré-preparação

O Gemini conta com a tecnologia dos modelos de IA mais avançados da Google, concebidos com diferentes capacidades e exemplos de utilização. Tal como a maioria dos GMLs atuais, estes modelos são pré-preparados com base numa variedade de dados de fontes publicamente disponíveis. Aplicamos filtros de qualidade a todos os conjuntos de dados, usando tanto regras heurísticas como classificadores baseados em modelos. Também realizamos uma filtragem de segurança para remover conteúdos suscetíveis de produzir resultados que violem as políticas. Para manter a integridade das avaliações dos modelos, pesquisamos e removemos quaisquer dados de avaliação que possam ter feito parte do nosso corpus de preparação antes de usar os dados para preparação. As ponderações e as combinações de dados finais são determinadas através de ablações em modelos mais pequenos. Durante a preparação, alterámos a composição das combinações, aumentando a ponderação dos dados relevantes para o domínio no final da preparação. A qualidade dos dados pode ser um fator importante para modelos de elevado desempenho. Acreditamos que ainda existem muitas questões interessantes no que diz respeito a encontrar a distribuição ideal do conjunto de dados para a pré-preparação.

Esta pré-preparação permite ao modelo aprender a identificar padrões na linguagem e usá-los para prever a palavra ou as palavras prováveis seguintes numa sequência. Por exemplo, à medida que um GML aprende, pode prever que a palavra seguinte em "manteiga de amendoim e ___" tem mais probabilidade de ser "geleia" do que "atacador". No entanto, se um GML escolher apenas a palavra seguinte mais provável, as respetivas respostas vão ser menos criativas. Assim, os GMLs têm frequentemente flexibilidade para optar por escolhas razoáveis, embora ligeiramente menos prováveis (por exemplo, "banana"), para gerar respostas mais interessantes. É importante salientar que, embora os GMLs funcionem bem em comandos factuais e criem a impressão de obtenção de informações, não são bases de dados de informações nem sistemas de obtenção de informações determinísticas. Assim, embora possa esperar uma resposta consistente com uma consulta de base de dados (que seja uma obtenção literal da informações fixas armazenadas na base de dados), a resposta de um GML ao mesmo comando não vai ser necessariamente sempre a mesma (nem vai obter literalmente as informações com que foi preparado). Este é também um motivo importante pelo qual os GMLs podem gerar respostas aparentemente plausíveis que podem, por vezes, incluir erros factuais, o que não é ideal quando a factualidade é importante, mas é potencialmente útil para gerar resultados criativos ou inesperados.

2 Pós-preparação

Após a preparação inicial, os GMLs passam por etapas adicionais para aperfeiçoar as respetivas respostas. Uma dessas etapas chama-se ajuste supervisionado (SFT), que prepara o modelo com base em exemplos cuidadosamente selecionados de respostas excelentes. É como ensinar as crianças a escrever, mostrando-lhes histórias e ensaios bem escritos.

A etapa seguinte é a aprendizagem reforçada pelo feedback humano (ARFH). Aqui, o modelo aprende a gerar respostas ainda melhores com base nas pontuações ou no feedback de um modelo de recompensa especial. Este modelo de recompensa é preparado com dados de preferências humanas, em que as respostas foram classificadas umas em relação às outras, ensinando-lhe o que as pessoas preferem. Os dados de preferências podem, por vezes, incluir e expor os modelos a dados ofensivos ou incorretos, para que aprendam a reconhecê-los e a evitá-los. Pode pensar nos dados de preferências como uma recompensa a uma criança por um trabalho bem feito. O modelo é recompensado por criar respostas de que as pessoas gostam.

Ao longo destas etapas, é importante usar dados de preparação de alta qualidade. Os exemplos usados para o SFT são, normalmente, escritos por especialistas ou gerados por um modelo e revistos por especialistas.

Embora estas técnicas sejam poderosas, têm limitações. Por exemplo, mesmo com a ajuda do modelo de recompensa, uma determinada resposta pode nem sempre ser perfeita. Ainda assim, o GML está otimizado para produzir as respostas mais amplamente preferidas com base no feedback que recebe, à semelhança dos alunos que aprendem com os comentários dos respetivos professores.

3 Respostas aos comandos dos utilizadores

A geração de respostas é semelhante à forma como um ser humano pode pensar em diferentes abordagens para responder a uma pergunta. Quando um utilizador dá um comando, o Gemini usa o GML pós-preparação, o contexto do comando e a interação com o utilizador para redigir várias versões de uma resposta. Também se baseia em fontes externas, como a Pesquisa Google e/ou uma das suas várias extensões, e em ficheiros recentemente carregados (apenas no Gemini Advanced) para gerar as suas respostas. Este processo é conhecido como melhoria de texto. Quando recebe um comando, o Gemini esforça-se por obter as informações mais pertinentes destas fontes externas (por exemplo, a Pesquisa Google) e representá-las corretamente na respetiva resposta. Complementar os GMLs com ferramentas externas é uma área de investigação ativa. Existem várias formas pelas quais podem ser introduzidos erros, incluindo a consulta que o Gemini usa para invocar estas ferramentas externas, a forma como o Gemini interpreta os resultados devolvidos pelas ferramentas e a forma como estes resultados devolvidos são usados para gerar a resposta final. Por este motivo, as respostas geradas pelo Gemini não devem refletir o desempenho das ferramentas individuais usadas para criar essa resposta.

Por último, antes de a resposta final ser apresentada, cada potencial resposta é submetida a uma verificação de segurança para garantir que cumpre as diretrizes de políticas pré-determinadas. Este processo fornece uma verificação para filtrar informações prejudiciais ou ofensivas. Em seguida, as restantes respostas são classificadas com base na respetiva qualidade, sendo as versões com maior pontuação apresentadas ao utilizador.

Também colocamos marcas de água nos textos e imagens do Gemini através do SynthID, o nosso kit de ferramentas digitais da indústria para marcas de água em conteúdos gerados pela IA. Para as imagens geradas, o SynthID adiciona uma marca de água digital (impercetível ao olho humano) diretamente nos píxeis. O SynthID é um elemento importante para o desenvolvimento de ferramentas de identificação de IA mais fiáveis e pode ajudar as pessoas a tomar decisões informadas sobre a forma como interagem com conteúdos gerados pela IA.

4 Avaliação e feedback humano

Mesmo com as verificações de segurança, podem ocorrer alguns erros. Além disso, as respostas do Gemini podem nem sempre corresponder totalmente às suas expetativas. É aí que entra o feedback humano. Os avaliadores avaliam a qualidade das respostas, identificando áreas que podem ser melhoradas e sugerindo soluções. Este feedback passa a fazer parte do processo de aprendizagem Gemini, descrito na secção "Pós-preparação" acima.