Uma vista geral da app Gemini

Há muito que vimos o potencial da IA para tornar as informações e a computação mais acessíveis e úteis para as pessoas. Fizemos avanços pioneiros nos grandes modelos de linguagem (GMLs) e verificámos grandes progressos na Google e neste campo em geral. Durante vários anos, aplicámos os GMLs em segundo plano para melhorar vários dos nossos produtos, como o preenchimento automático de frases no Gmail, a expansão do Google Tradutor, bem como para nos ajudar a compreender melhor as consultas na Pesquisa Google. Continuamos a usar os GMLs para muitos serviços Google, bem como para impulsionar a app Gemini, que permite que as pessoas colaborem diretamente com a IA generativa. Queremos que a app Gemini seja o assistente de IA mais útil e pessoal, dando aos utilizadores acesso direto aos modelos de IA mais recentes da Google.

Ainda que estejamos num importante ponto de inflexão e sejamos encorajados pelo entusiasmo generalizado em torno da IA generativa, esta tecnologia ainda se encontra numa fase inicial. Este artigo explicativo descreve a forma como estamos a abordar o nosso trabalho no âmbito da app Gemini ("Gemini"), incluindo as respetivas experiências na Web e em dispositivos móveis, o que é, como funciona e as respetivas capacidades e limitações atuais. A nossa abordagem relativamente à criação do Gemini vai evoluir à medida que a tecnologia subjacente se desenvolve e conforme aprendemos com a investigação contínua, a experiência e o feedback dos utilizadores.

O que é o Gemini

O Gemini é uma interface para um GML multimodal (que trata texto, áudio, imagens e outros conteúdos). O Gemini baseia-se na investigação de ponta da Google em GMLs, que começou com o ensaio Word2Vec em 2013, que propunha novas arquiteturas de modelos que mapeavam as palavras como conceitos matemáticos, seguido da introdução de um modelo de conversação neural em 2015. Este framework demonstrou como os modelos podem prever a frase seguinte numa conversa com base na frase ou nas frases anteriores, o que resulta em experiências conversacionais mais naturais. A isto seguiu-se o nosso trabalho inovador no Transformer, em 2017, e as capacidades de conversação multifacetadas, em 2020, que demonstraram um progresso ainda mais convincente da linguagem generativa.

Lançámos inicialmente o Gemini (então chamado Bard) como uma experiência em março de 2023, de acordo com os nossos princípios da IA. Desde então, os utilizadores recorreram ao Gemini para escrever emails convincentes, depurar problemas de programação complexos, debater ideias para eventos futuros, receber ajuda para aprender conceitos difíceis e muito mais. Atualmente, o Gemini é uma ferramenta de IA versátil que pode ajudar de várias formas. Verificamos que o Gemini já está a ajudar as pessoas a serem mais produtivas, mais criativas e mais curiosas e adicionamos regularmente novas funcionalidades e inovações.

Produtividade

Para começar, o Gemini pode poupar-lhe tempo. Por exemplo, digamos que está a tentar resumir um longo documento de investigação. O Gemini permite que o carregue e fornece-lhe uma síntese útil. O Gemini também pode ajudar nas tarefas de programação, e a programação tornou-se rapidamente uma das suas aplicações mais populares.

Criatividade

O Gemini também pode ajudar a dar vida às suas ideias e a impulsionar a sua criatividade. Por exemplo, se estiver a escrever uma publicação no blogue, o Gemini pode criar uma descrição e gerar imagens que ajudem a ilustrar a sua publicação. Brevemente, com os Gems, vai poder personalizar o Gemini com instruções específicas e fazer com que assuma perícia num determinado assunto para ajudar a alcançar os seus objetivos pessoais.

Curiosidade

O Gemini pode ser um ponto de partida para explorar as suas ideias e assuntos sobre os quais gostaria de saber mais. Por exemplo, pode explicar um conceito complexo de forma simples ou apresentar estatísticas relevantes sobre um tópico ou uma imagem. E, em breve, vai associar estas informações com conteúdo recomendado de toda a Web para saber mais sobre tópicos específicos.

As capacidades do Gemini estão a expandir-se rapidamente. Em breve, vai poder apontar a câmara do seu telemóvel para um objeto, por exemplo, a ponte Golden Gate, e pedir ao Gemini que lhe diga qual é a cor da tinta (se estiver a interrogar-se, é o "laranja internacional"). Também vai poder pedir ao Gemini que ajude a navegar no menu de um restaurante noutro idioma e recomendar um prato de que, provavelmente, irá gostar. Estes são apenas 2 exemplos das novas capacidades que vão estar disponíveis em breve no Gemini.

Obviamente, treinamos e monitorizamos rigorosamente o Gemini para que as respetivas respostas sejam fiáveis e correspondam às suas expetativas. Também conversamos com especialistas da indústria, educadores, responsáveis políticos, líderes empresariais, líderes de organizações de direitos civis e humanos, e criadores de conteúdos para explorar novas aplicações, riscos e limitações desta tecnologia emergente.

Como funciona o Gemini

Limitações conhecidas das interfaces baseadas em GML como o Gemini

O Gemini é apenas uma parte do nosso esforço contínuo para desenvolver GMLs de forma responsável. Ao longo deste trabalho, descobrimos e debatemos várias limitações associadas aos GMLs. Aqui, concentramo-nos em 6 áreas de investigação contínua:

Precisão: as respostas do Gemini podem ser incorretas, especialmente quando são feitas perguntas sobre tópicos complexos ou factuais.
Parcialidade: as respostas do Gemini podem refletir tendências presentes nos respetivos dados de treino.
Várias perspetivas: as respostas do Gemini podem não mostrar uma variedade de pontos de vista.
Perfil: as respostas do Gemini podem sugerir incorretamente que tem opiniões ou sentimentos pessoais.
Falsos positivos e falsos negativos: o Gemini pode não responder a alguns comandos adequados e fornecer respostas inadequadas a outros.
Vulnerabilidade a comandos malignos: os utilizadores vão encontrar formas de testar os limites do Gemini com comandos sem sentido ou perguntas raramente feitas no mundo real.

Continuamos a explorar novas abordagens e áreas para melhorar o desempenho em cada uma destas áreas.

Precisão

O Gemini baseia-se na compreensão que a Google tem das informações fidedignas e foi treinado para gerar respostas que sejam relevantes para o contexto do seu comando e que estejam de acordo com o que procura. No entanto, tal como todos os GMLs, o Gemini pode, por vezes, gerar respostas de forma confiante e convincente que contêm informações incorretas ou enganadoras.

Uma vez que os GMLs funcionam através da previsão da palavra seguinte ou de sequências de palavras, ainda não são totalmente capazes de distinguir entre informações corretas e incorretas por si próprios. Verificámos que o Gemini apresenta respostas que contêm ou até inventa informações incorretas (por exemplo, representando de forma errada o modo como foi treinado ou sugerindo o nome de um livro que não existe). Em resposta, criámos funcionalidades como a "verificação", que usa a Pesquisa Google para encontrar conteúdos que ajudam a avaliar as respostas do Gemini e fornece-lhe links para fontes que ajudam a corroborar as informações que recebe do Gemini.

Parcialidade

Os dados de treino, incluindo os provenientes de fontes publicamente disponíveis, refletem uma diversidade de perspetivas e opiniões. Continuamos a investigar como usar estes dados para garantir que a resposta de um GML incorpora uma grande diversidade de pontos de vista, minimizando as generalizações excessivas e as parcialidades incorretas.

As lacunas, as parcialidades e as generalizações excessivas nos dados de treino podem refletir-se nos resultados de um modelo à medida que este tenta prever as respostas prováveis a um comando. Verificamos que estes problemas se manifestam de várias formas (por exemplo, respostas que refletem apenas uma cultura ou um grupo demográfico, fazem referência a generalizações excessivas problemáticas, apresentam parcialidades em relação ao género, à religião ou à etnia ou promovem apenas um ponto de vista). Para alguns tópicos, existem vazios de dados, por outras palavras, não existem informações fiáveis suficientes sobre um determinado assunto para que o GML possa aprender sobre ele e fazer boas previsões, o que pode resultar em respostas de baixa qualidade ou incorretas. Continuamos a trabalhar com especialistas no domínio e uma diversidade de comunidades para tirar partido de conhecimentos profundos fora da Google.

Várias perspetivas

Para tópicos subjetivos, o Gemini foi concebido para fornecer aos utilizadores várias perspetivas se o utilizador não pedir um ponto de vista específico. Por exemplo, se lhe forem pedidas informações sobre algo que não pode ser verificado por factos em fontes primárias ou fontes fidedignas, como uma opinião subjetiva sobre o "melhor" ou o "pior", o Gemini deve responder de forma a refletir uma grande diversidade de pontos de vista. No entanto, uma vez que os GMLs como o Gemini se baseiam nos conteúdos publicamente disponíveis na Internet, podem refletir opiniões positivas ou negativas sobre políticos específicos, celebridades ou outras figuras públicas, ou mesmo incorporar opiniões de apenas um lado relativamente a questões sociais ou políticas controversas. O Gemini não deve responder de forma a apoiar um determinado ponto de vista sobre estes tópicos e usamos o feedback relativo a este tipo de respostas para treinar o Gemini a abordá-los melhor.

Perfil

O Gemini pode, por vezes, gerar respostas que parecem sugerir que tem opiniões ou emoções, como o amor ou a tristeza, uma vez que foi treinado com a linguagem que as pessoas usam para refletir a experiência humana. Desenvolvemos um conjunto de diretrizes sobre a forma como o Gemini se pode representar (ou seja, o respetivo perfil) e continuamos a aperfeiçoar o modelo para fornecer respostas objetivas.

Falsos positivos/negativos

Implementámos um conjunto de diretrizes de políticas para ajudar a treinar o Gemini e evitar a geração de respostas problemáticas. O Gemini pode, por vezes, interpretar mal estas diretrizes, produzindo "falsos positivos" e "falsos negativos". Num "falso positivo", o Gemini pode não dar uma resposta a um comando razoável, interpretando-o erradamente como inadequado. Num "falso negativo", o Gemini pode gerar uma resposta inadequada, apesar das diretrizes em vigor. Por vezes, a ocorrência de falsos positivos ou falsos negativos pode dar a impressão de que o Gemini é parcial: por exemplo, um falso positivo pode fazer com que o Gemini não responda a uma pergunta sobre um lado de uma questão, enquanto que irá responder à mesma pergunta sobre o outro lado. Continuamos a aperfeiçoar estes modelos para compreender e categorizar melhor as entradas e os resultados à medida que o idioma, os eventos e a sociedade evoluem rapidamente.

Vulnerabilidade a comandos malignos

Esperamos que os utilizadores testem os limites do que o Gemini pode fazer e tentem violar as respetivas proteções, incluindo tentar fazer com que divulgue os respetivos protocolos de treino ou outras informações, ou tentar contornar os respetivos mecanismos de segurança. Testámos e continuamos a testar o Gemini rigorosamente, mas sabemos que os utilizadores vão encontrar formas únicas e complexas de testar os limites do Gemini ainda mais. Esta é uma parte importante da otimização do Gemini e estamos ansiosos para conhecer os novos comandos criados pelos utilizadores. Na verdade, desde que o Gemini foi lançado em 2023, verificámos que os utilizadores o desafiaram com comandos que vão desde o filosófico ao absurdo e, em alguns casos, vimos o Gemini responder com respostas igualmente absurdas ou não alinhadas com a nossa abordagem declarada. Descobrir métodos para ajudar o Gemini a responder a este tipo de comandos é um desafio permanente e continuamos a expandir as nossas avaliações internas e a realizar um trabalho de red team no sentido de melhorar continuamente a precisão, a objetividade e as nuances.

Como continuamos a desenvolver o Gemini

Aplicação da nossa abordagem em relação ao Gemini

Juntamente com os nossos princípios da IA, articulámos recentemente a nossa abordagem em relação ao nosso trabalho no Gemini: o Gemini deve seguir as suas instruções, adaptar-se às suas necessidades e salvaguardar a sua experiência. A nossa abordagem baseia-se na responsabilidade e na segurança. As diretrizes de políticas do Gemini têm como objetivo evitar determinados tipos de resultados problemáticos. Estamos a realizar testes adversários contínuos com membros da "red team" interna, especialistas em produtos e cientistas sociais que testam intencionalmente os limites de um modelo para detetar problemas de alinhamento com estas diretrizes de políticas e a nossa abordagem northstar em relação ao Gemini, para podermos aplicar o que aprendem e melhorar continuamente o Gemini.

A privacidade é também uma consideração essencial à medida que desenvolvemos o Gemini. O Centro de Privacidade das Apps Gemini tem mais informações sobre a forma como criamos o Gemini com privacidade desde a conceção e com o utilizador no controlo.

Permitir o controlo dos utilizadores e publicadores

Criámos uma variedade de controlos de utilizador do Gemini facilmente acessíveis para que possa rever, atualizar, gerir, exportar e eliminar os seus dados do Gemini. Pode aceder e rever os seus comandos para o Gemini, respostas e feedback através do controlo da Atividade das Apps Gemini. Além disso, pode impedir que os seus futuros chats do Gemini sejam usados para melhorar as tecnologias de aprendizagem automática da Google, desativando a definição da Atividade das Apps Gemini. À semelhança de outros serviços Google, também pode transferir e exportar as suas informações através da ferramenta Takeout da Google. Também temos controlos que lhe permitem gerir os links públicos que criou para as suas discussões do Gemini e controlos que lhe permitem ativar/desativar o acesso a extensões (por exemplo, Workspace, Maps e YouTube). Também estamos a explorar novas formas de lhe dar mais controlo sobre as respostas do Gemini, incluindo o ajuste de filtros para permitir uma gama mais ampla de respostas.

Para os publicadores, lançámos o Google-Extended, um controlo que os publicadores Web podem usar para gerir se os respetivos sites ajudam a melhorar as APIs generativas do Gemini e da Vertex AI. Permitir o acesso do Google-Extended ao conteúdo dos sites pode ajudar os modelos de IA a tornarem-se mais precisos e capazes ao longo do tempo. Para além de não usar o conteúdo dos URLs excluídos para o treino de modelos, o Gemini também não usa esse conteúdo para validação. Com a expansão das aplicações de IA, os publicadores Web vão enfrentar a crescente complexidade da gestão de diferentes utilizações em grande escala. Por isso, estamos empenhados em colaborar com as comunidades Web e de IA para explorar abordagens mais legíveis por computador para a escolha e o controlo.

Melhorar o Gemini em equipa

Acreditamos num melhoramento rápido e em levar o melhor do Gemini ao mundo. O feedback dos utilizadores acelerou a introdução de melhorias nos nossos modelos. Por exemplo, usamos técnicas de aprendizagem por reforço de vanguarda para treinar os nossos modelos para serem mais intuitivos e imaginativos, bem como para responderem com ainda mais qualidade e precisão. Continuamos a investir na investigação para saber mais sobre os desafios e as oportunidades técnicas, sociais e éticas dos GMLs, tanto para melhorar as técnicas de treino e aperfeiçoamento do modelo do Gemini como para partilhar os nossos conhecimentos com os investigadores, como é o caso deste recente ensaio sobre a ética dos assistentes de IA avançados. Estamos comprometidos com a inovação neste espaço de forma responsável, colaborando com utilizadores, testadores fidedignos e investigadores para encontrar formas de fazer com que esta nova tecnologia beneficie todo o ecossistema.

A transparência é importante e estamos comprometidos em adotar uma postura transparente em relação ao processo de desenvolvimento e às limitações do Gemini. O Gemini não é uma caixa negra mágica: está em constante evolução e vamos continuar a partilhar atualizações sobre os nossos progressos. Lançámos a página Atualizações desta versão para que possa ver as funcionalidades, as melhorias e as correções de erros mais recentes do Gemini, e iremos atualizar esta vista geral conforme apropriado. Vamos identificar as áreas em que o Gemini é útil e fiável, e as áreas em que temos de continuar a iterar e a melhorar. Estamos a adicionar ativamente novas capacidades e, através da investigação contínua, dos testes e do feedback dos utilizadores, esperamos melhorar o Gemini em conjunto.

Agradecimentos

Agradecemos e reconhecemos o trabalho incrível dos nossos colegas da equipa da app Gemini, da Google DeepMind, de Confiança e Segurança e da Pesquisa da Google.

Escrito por

James Manyika
SVP, Research, Technology e Society

Sissie Hsiao
Vice President e General Manager, Google Assistant e Gemini App

Nota do editor

Este é um documento dinâmico e vai ser atualizado periodicamente à medida que continuamos a melhorar rapidamente as capacidades da app Gemini, bem como a resolver as limitações inerentes aos GMLs. Esta vista geral foi atualizada pela última vez a 25 de julho de 2024. Para consultar as atualizações mais recentes da app Gemini, visite o registo Atualizações desta versão ou leia mais no Blogue Keyword da Google.

3 Respostas aos comandos dos utilizadores

A geração de respostas é semelhante à forma como um ser humano pode pensar em diferentes abordagens para responder a uma pergunta. Quando um utilizador dá um comando, o Gemini usa o GML pós-preparação, o contexto do comando e a interação com o utilizador para redigir várias versões de uma resposta. Também se baseia em fontes externas, como a Pesquisa Google e/ou uma das suas várias extensões, e em ficheiros recentemente carregados (apenas no Gemini Advanced) para gerar as suas respostas. Este processo é conhecido como melhoria de texto. Quando recebe um comando, o Gemini esforça-se por obter as informações mais pertinentes destas fontes externas (por exemplo, a Pesquisa Google) e representá-las corretamente na respetiva resposta. Complementar os GMLs com ferramentas externas é uma área de investigação ativa. Existem várias formas pelas quais podem ser introduzidos erros, incluindo a consulta que o Gemini usa para invocar estas ferramentas externas, a forma como o Gemini interpreta os resultados devolvidos pelas ferramentas e a forma como estes resultados devolvidos são usados para gerar a resposta final. Por este motivo, as respostas geradas pelo Gemini não devem refletir o desempenho das ferramentas individuais usadas para criar essa resposta.

Por último, antes de a resposta final ser apresentada, cada potencial resposta é submetida a uma verificação de segurança para garantir que cumpre as diretrizes de políticas pré-determinadas. Este processo fornece uma verificação para filtrar informações prejudiciais ou ofensivas. Em seguida, as restantes respostas são classificadas com base na respetiva qualidade, sendo as versões com maior pontuação apresentadas ao utilizador.

Também colocamos marcas de água nos textos e imagens do Gemini através do SynthID, o nosso kit de ferramentas digitais da indústria para marcas de água em conteúdos gerados pela IA. Para as imagens geradas, o SynthID adiciona uma marca de água digital (impercetível ao olho humano) diretamente nos píxeis. O SynthID é um elemento importante para o desenvolvimento de ferramentas de identificação de IA mais fiáveis e pode ajudar as pessoas a tomar decisões informadas sobre a forma como interagem com conteúdos gerados pela IA.

Uma vista geral da app Gemini

O que é o Gemini

Produtividade

Criatividade

Curiosidade

Como funciona o Gemini

Pré-treino

Pós-treino

Respostas aos comandos dos utilizadores

Avaliação e feedback humano

Limitações conhecidas das interfaces baseadas em GML como o Gemini

Precisão

Parcialidade

Várias perspetivas

Perfil

Falsos positivos/negativos

Vulnerabilidade a comandos malignos

Como continuamos a desenvolver o Gemini

Aplicação da nossa abordagem em relação ao Gemini

Permitir o controlo dos utilizadores e publicadores

Melhorar o Gemini em equipa

Agradecimentos

Altere a sua região e idioma

Europa e África

Américas

Ásia/Pacífico

1 Pré-preparação

2 Pós-preparação

3 Respostas aos comandos dos utilizadores

4 Avaliação e feedback humano