Skip to main content

Descripción general de la app de Gemini

Hace tiempo que vemos el potencial que tiene la IA para hacer que la información y la informática sean más accesibles y útiles para las personas. Realizamos avances innovadores en modelos de lenguaje grandes (LLMs) y observamos un enorme progreso en Google y en este campo en general. Durante varios años, aplicamos los LLMs en segundo plano para mejorar muchos de nuestros productos, como el autocompletado de oraciones en Gmail y la expansión de Google Traductor, y para ayudarnos a comprender mejor las consultas en la Búsqueda de Google. Seguimos usando los LLMs para muchos servicios de Google y para potenciar la app de Gemini, que les permite a las personas colaborar directamente con la IA generativa. Nuestro objetivo es que la app de Gemini sea el asistente de IA más útil y personalizado, y que les brinde a los usuarios acceso directo a los modelos de IA más recientes de Google.

Si bien estamos en un punto de inflexión importante y el entusiasmo generalizado en torno a la IA generativa nos anima, aún nos encontramos en las etapas iniciales de esta tecnología. En esta explicación, se detalla cómo enfocamos nuestro trabajo en la app de Gemini (“Gemini’’), incluidas las experiencias en la Web y los dispositivos móviles: qué es, cómo funciona y cuáles son sus capacidades y limitaciones. Nuestro enfoque respecto al desarrollo de Gemini evolucionará a medida que lo haga la tecnología subyacente y aprendamos de las investigaciones en curso, la experiencia y los comentarios de los usuarios.

Qué es Gemini

Gemini es la interfaz de un LLM multimodal (maneja texto, audio, imágenes y otros formatos). Gemini se basa en las investigaciones de vanguardia de Google sobre los LLMs, que comenzaron con el informe Word2Vec de 2013, en el que se proponían arquitecturas de modelos novedosos que asociaban palabras como conceptos matemáticos, seguido de la introducción de un modelo conversacional neuronal en 2015. Este marco de trabajo demostró cómo los modelos podían predecir la frase siguiente en una conversación basándose en la frase o las frases anteriores, lo que hacía que las experiencias de conversación fueran más naturales. Luego, siguió nuestro innovador trabajo en Transformer (2017) y en las funcionalidades de chat de varios turnos (2020), que supuso un progreso mucho más significativo en el lenguaje generativo.

Inicialmente, lanzamos Gemini (que en ese momento se llamaba “Bard”) como un experimento en marzo de 2023, de acuerdo con nuestros Principios de la IA. Desde entonces, los usuarios han recurrido a Gemini para escribir correos electrónicos convincentes, depurar problemas de programación complejos, generar ideas para próximos eventos, obtener ayuda para aprender conceptos difíciles y mucho más. En la actualidad, Gemini es una herramienta de IA versátil que brinda asistencia de muchas maneras. Ya podemos ver cómo Gemini ayuda a las personas a aumentar su productividad, creatividad y curiosidad, y agregamos innovaciones y funciones nuevas con frecuencia.

Productividad

Para empezar, Gemini puede ayudarte a ahorrar tiempo. Supongamos que quieres resumir un documento de investigación extenso. Gemini te permite subirlo y te ofrece un resumen útil. También puede ayudarte con tareas de programación, uno de sus usos más populares.

Creatividad

Además, es una gran herramienta para materializar tus ideas y estimular la creatividad. Por ejemplo, si quieres escribir una entrada de blog, Gemini puede crear un esquema y generar imágenes que ayuden a ilustrarla. Y, próximamente, con las Gems, podrás personalizar Gemini con instrucciones específicas y hacer que actúe como experto en una materia para ayudarte a alcanzar tus objetivos personales.

Curiosidad

Gemini puede ser un punto de partida para explorar tus ideas y los temas que te generan curiosidad. Por ejemplo, puede explicar un concepto complejo de manera sencilla o proporcionar datos pertinentes sobre un tema o una imagen. Y, muy pronto, vinculará esos datos con contenido recomendado de toda la Web para aprender más sobre temas específicos.

Las capacidades de Gemini se expanden rápidamente. Muy pronto, podrás enfocar con la cámara del teléfono un objeto (por ejemplo, el puente Golden Gate) y pedirle a Gemini que te diga el color de la pintura (por si acaso, es “naranja internacional”). También podrás pedirle que te ayude a leer el menú de un restaurante en otro idioma y que te recomiende un plato que probablemente te guste. Estos son solo dos ejemplos de las nuevas funciones que se agregarán próximamente a Gemini.

Por supuesto, entrenamos y supervisamos a Gemini de manera rigurosa para que sus respuestas sean lo más fiables posible y cumplan con tus expectativas. También hablamos con expertos del sector, educadores, legisladores, empresarios, dirigentes de derechos civiles y humanos, y creadores de contenidos para explorar los nuevos usos, riesgos y limitaciones de esta tecnología emergente.

Cómo funciona Gemini

1

Entrenamiento previo

2

Entrenamiento posterior

3

Respuestas a las instrucciones de los usuarios

4

Comentarios y evaluaciones de personas

Limitaciones conocidas de interfaces basadas en LLMs, como Gemini

Gemini es solo una parte de nuestro esfuerzo constante por desarrollar LLMs de manera responsable. Durante este proceso, descubrimos y analizamos varias limitaciones asociadas a estos modelos. A continuación, nos centramos en seis áreas de investigación continua:

  • Exactitud: Las respuestas de Gemini podrían ser inexactas, especialmente cuando se le pregunta sobre temas complejos o fácticos.

  • Sesgo: Las respuestas de Gemini podrían reflejar sesgos que están presentes en sus datos de entrenamiento.

  • Perspectivas múltiples: Las respuestas de Gemini podrían carecer de diferentes puntos de vista.

  • Personalidad: Las respuestas de Gemini podrían sugerir erróneamente que tiene opiniones o emociones personales.

  • Falsos positivos y falsos negativos: Es posible que Gemini no responda a ciertas instrucciones apropiadas y que proporcione respuestas inapropiadas a otras.

  • Vulnerabilidad ante instrucciones adversas: Los usuarios encontrarán formas de poner a prueba a Gemini con instrucciones sin sentido o preguntas que rara vez se hacen en la vida real.

Seguimos explorando nuevos enfoques y aspectos para mejorar el rendimiento en cada una de estas áreas.

Exactitud

Gemini se basa en lo que Google considera como información fidedigna y está entrenado para generar respuestas pertinentes según el contexto de la instrucción y de acuerdo con lo que estás buscando. Sin embargo, al igual que todos los LLMs, a veces Gemini puede generar respuestas que muestren un grado de confianza y convicción, incluso si contienen información inexacta o engañosa.

Dado que el mecanismo de los LLMs consiste en predecir la palabra o las secuencias de palabras siguientes, aún no son completamente capaces de distinguir entre información exacta e inexacta por sí solos. Observamos que algunas respuestas de Gemini contienen información inexacta o incluso inventada (p. ej., tergiversar la forma en que se entrenó o sugerir el nombre de un libro que no existe). En respuesta a esto, creamos funciones como la “verificación”, que usa la Búsqueda de Google para encontrar contenido que te ayude a evaluar las respuestas de Gemini y te ofrece vínculos a fuentes para que corrobores la información que obtienes.

Sesgo

Los datos de entrenamiento, incluidos los procedentes de fuentes públicas, reflejan una diversidad de perspectivas y opiniones. Seguimos investigando cómo utilizar estos datos para garantizar que la respuesta de un LLM incorpore una amplia variedad de puntos de vista y se minimicen las generalizaciones excesivas y los sesgos inexactos.

Las brechas, los sesgos y las generalizaciones excesivas en los datos de entrenamiento pueden verse reflejados en los resultados de un modelo cuando intenta predecir posibles respuestas a una instrucción. Observamos que estos problemas se manifiestan de diferentes maneras (p. ej., en respuestas que reflejan solo una cultura o segmento demográfico, que hacen referencia a generalizaciones excesivas problemáticas, que presentan sesgos de género, religiosos o étnicos, o bien promueven un punto de vista único). Algunos temas presentan vacíos de datos, es decir, no hay suficiente información fiable sobre un tema específico que permita al LLM aprender sobre él y después hacer buenas predicciones, lo que puede ocasionar respuestas inexactas o de baja calidad. Seguimos trabajando con expertos en cada ámbito y diversas comunidades para aprovechar los amplios conocimientos que se encuentran fuera de Google.

Perspectivas múltiples

En el caso de los temas subjetivos, Gemini está diseñado para ofrecer a los usuarios perspectivas múltiples si no solicitan un punto de vista específico. Por ejemplo, si recibe una instrucción sobre un tema que no se puede verificar con datos de fuentes directas o fidedignas, como una opinión subjetiva sobre lo que es mejor o peor, Gemini debe responder de un modo que refleje una gran variedad de puntos de vista. Sin embargo, dado que los LLMs como Gemini se entrenan con el contenido disponible públicamente en Internet, pueden reflejar opiniones positivas o negativas de ciertos políticos, personas famosas y otras figuras públicas, o incluso incorporar opiniones sesgadas sobre temas sociales o políticos controvertidos. Gemini no debería responder de una manera que respalde un punto de vista específico sobre estos temas, por lo que utilizaremos los comentarios sobre estos tipos de respuestas para entrenar a Gemini, de manera que las aborde de una forma más adecuada.

Personalidad

Es posible que, en ocasiones, Gemini genere respuestas que parezcan sugerir que tiene opiniones o emociones, como el amor o la tristeza, ya que se entrenó con el lenguaje que las personas utilizan para expresar la experiencia humana. Desarrollamos un conjunto de lineamientos respecto de cómo Gemini podría representarse a sí mismo (es decir, su personalidad) y seguimos perfeccionando el modelo para que brinde respuestas objetivas.

Falsos positivos/negativos

Implementamos un conjunto de lineamientos de políticas para ayudar a entrenar a Gemini y evitar que se generen respuestas problemáticas. En ocasiones, Gemini puede malinterpretar estos lineamientos y generar “falsos positivos’’ y “falsos negativos’’. En el primer caso, es posible que Gemini no proporcione una respuesta a una instrucción razonable si malinterpreta esa instrucción como inapropiada. En el segundo caso, podría generar una respuesta inapropiada a pesar de los lineamientos implementados. La presencia de falsos positivos o falsos negativos a veces puede dar la impresión de que Gemini tiene sesgos. Por ejemplo, un falso positivo podría ocasionar que Gemini no responda a una pregunta sobre una postura ante un asunto, mientras que sí responderá a la misma pregunta sobre la postura opuesta. Seguimos ajustando estos modelos para que comprendan y categoricen mejor los comandos y las respuestas, en consonancia con la rápida evolución de los idiomas, los eventos y la sociedad.

Vulnerabilidad ante instrucciones adversas

Sabemos que habrá usuarios que intenten poner a prueba los límites de lo que Gemini puede hacer y tratarán de vulnerar sus protecciones, por ejemplo, intentando que revele sus protocolos de entrenamiento o algún otro tipo de información, o bien eludiendo sus mecanismos de seguridad. Nuestras constantes evaluaciones a Gemini seguirán siendo rigurosas, pero somos conscientes de que los usuarios encontrarán formas novedosas, intensas y complejas de ponerlo a prueba. Esta es una parte importante del perfeccionamiento de Gemini, y esperamos conocer las nuevas instrucciones que se les ocurran a los usuarios. De hecho, desde que Gemini se lanzó en 2023, hemos visto cómo lo desafían con instrucciones de todo tipo, desde filosóficas hasta sin sentido. En algunos casos, vimos que Gemini ofrecía respuestas igual de absurdas o no que no se alineaban con nuestro enfoque declarado. Idear métodos para ayudar a Gemini a responder a este tipo de instrucciones es un desafío continuo y seguimos ampliando nuestras evaluaciones internas, junto con los equipos rojos, en un esfuerzo por mejorar la exactitud, la objetividad y las connotaciones.

Cómo seguimos desarrollando Gemini

Implementación de nuestro enfoque con Gemini

Además de nuestros Principios de la IA, recientemente definimos nuestro enfoque respecto de cómo trabajamos con Gemini: debe seguir las instrucciones, adaptarse a las necesidades y proteger la experiencia de los usuarios. Los componentes fundamentales de nuestro enfoque son la responsabilidad y la seguridad. Los lineamientos de políticas de Gemini buscan evitar ciertos tipos de resultados problemáticos. Realizamos pruebas adversas de forma continua con los miembros internos del “equipo rojo’’, que son expertos en productos y científicos sociales que realizan pruebas de esfuerzo intencionales en un modelo en busca de problemas de cumplimiento de estos lineamientos de políticas y de nuestro enfoque unificado para Gemini. El objetivo es aplicar lo que aprendieron y seguir mejorando el modelo.

La privacidad también es un aspecto clave que tenemos en cuenta a medida que desarrollamos Gemini. El Centro de privacidad de las Apps con Gemini ofrece más información sobre cómo desarrollamos Gemini con un diseño centrado en la privacidad y el control a cargo de los usuarios.

Permitimos que los usuarios y los publicadores tengan el control

Creamos una serie de controles de usuario de Gemini de fácil acceso para que puedas revisar, actualizar, administrar, exportar y borrar tus datos de Gemini. En el control de Actividad en las Apps con Gemini, puedes ver y revisar las instrucciones para Gemini, las respuestas y los comentarios relacionados. Además, puedes evitar que los chats futuros de Gemini se usen para mejorar las tecnologías de aprendizaje automático de Google inhabilitando el parámetro de configuración Actividad en las Apps con Gemini. Y, al igual que con otros servicios de Google, también puedes descargar y exportar tu información con la herramienta Takeout. Ofrecemos controles que te permiten administrar los vínculos públicos que creaste para tus conversaciones con Gemini y controles con los que puedes activar o desactivar el acceso a extensiones (p. ej., Workspace, Maps o YouTube). También estamos explorando nuevas formas de que tengas más control sobre las respuestas de Gemini, como ajustar filtros para obtener una variedad más amplia de respuestas.

Para los publicadores, lanzamos Google-Extended, un control que los publicadores web pueden usar para administrar si sus sitios ayudan a mejorar Gemini y las APIs generativas de Vertex AI. Permitir el acceso de Google-Extended al contenido de los sitios puede ayudar a aumentar la exactitud y la capacidad de los modelos de IA con el tiempo. Gemini no usará el contenido de las URLs inhabilitadas para el entrenamiento de modelos ni para la fundamentación. A medida que se amplíen las aplicaciones de la IA, los publicadores web se enfrentarán a la creciente complejidad de administrar diferentes usos a gran escala, y nos comprometemos a colaborar con las comunidades web y de IA para explorar enfoques más legibles por las máquinas en materia de elección y control.

Juntos mejoramos Gemini

Creemos en la iteración rápida y en ofrecer lo mejor de Gemini al mundo. Los comentarios de los usuarios permitieron acelerar las mejoras en nuestros modelos. Por ejemplo, utilizamos técnicas de vanguardia de aprendizaje por refuerzo para entrenar a nuestros modelos y hacer que sean más intuitivos, además de imaginativos, y respondan con mayor calidad y precisión. Seguimos invirtiendo en investigaciones que nos permitan aprender más sobre las oportunidades y los desafíos técnicos, sociales y éticos de los LLMs para mejorar el entrenamiento de los modelos y las técnicas de ajuste de Gemini, y para compartir lo que aprendimos con los investigadores, como lo hicimos con el reciente informe Ethics of Advanced AI Assistants (Ética de los asistentes de IA avanzados). Nos comprometemos a innovar en este ámbito de forma responsable, en colaboración con usuarios, investigadores y verificadores de confianza, para encontrar formas en que esta nueva tecnología beneficie a todo el ecosistema.

La transparencia es importante, y nos comprometemos a ser claros y sinceros sobre el proceso de desarrollo de Gemini y sus limitaciones. Gemini no es una caja negra mágica, sino que está en constante evolución, y seguiremos compartiendo actualizaciones sobre nuestros progresos. Lanzamos una página de actualizaciones de lanzamientos para que puedas ver las funciones, las mejoras y las correcciones de errores más recientes. Además, modificaremos esta descripción general según corresponda. Identificaremos las áreas en las que Gemini es útil y aquellas en las que necesitamos realizar iteraciones para mejorarlo. Estamos sumando funciones nuevas de forma activa y, a través de la investigación constante, las pruebas y los comentarios de los usuarios, nos entusiasma seguir mejorando Gemini juntos.

Reconocimientos

Reconocemos y agradecemos el increíble trabajo de nuestros colegas del equipo de la app de Gemini, Google DeepMind, Confianza y Seguridad, y la Búsqueda de Google.

Escrito por

James Manyika
Vicepresidente de Investigación, Tecnología y Sociedad

Sissie Hsiao
Vicepresidenta y directora general de Asistente de Google y la app de Gemini

Nota del editor

Este es un documento vivo que se actualizará de manera periódica a medida que sigamos mejorando rápidamente las capacidades de la app de Gemini y abordemos las limitaciones inherentes de los LLMs. Esta descripción general se actualizó por última vez el 25 de julio de 2024. Puedes encontrar novedades sobre la app de Gemini en el registro de actualizaciones de lanzamientos, o bien obtener más información en el blog The Keyword de Google.

Cómo funciona Gemini

1 Entrenamiento previo

Gemini se basa en los mejores modelos de IA de Google, diseñados con capacidades y casos de uso diferentes. Al igual que la mayoría de los LLMs actuales, estos modelos se entrenan previamente con una amplia variedad de datos de fuentes públicas disponibles. Aplicamos filtros de calidad a todos los conjuntos de datos y utilizamos reglas de heurística y clasificadores basados en modelos. También realizamos filtrados de seguridad para eliminar contenido que podría generar resultados que incumplan políticas. Para mantener la integridad de las evaluaciones de los modelos, buscamos y eliminamos los datos de las evaluaciones que podrían haber estado presentes en nuestro corpus antes de usar los datos para el entrenamiento. Las mezclas y los pesos finales de los datos se determinan con ablaciones en modelos más pequeños. Realizamos entrenamientos de prueba para alterar la composición de la mezcla, aumentando el peso de los datos pertinentes respecto al dominio hacia el final del entrenamiento. La calidad de los datos puede ser un factor importante para los modelos de alto rendimiento, y creemos que aún quedan muchas preguntas interesantes por responder sobre cómo encontrar la distribución óptima de los conjuntos de datos para el entrenamiento previo.

Este entrenamiento previo permite que el modelo aprenda a captar patrones en el lenguaje y usarlos para predecir la siguiente palabra probable de una secuencia. Por ejemplo, a medida que un LLM aprende, puede predecir que lo más probable es que la próxima palabra de la frase “las nubes son ___’’ sea “blancas’’, en lugar de “verdes’’. Sin embargo, si un LLM selecciona solo la siguiente palabra más probable, genera menos respuestas creativas. Por lo tanto, a menudo se les otorga flexibilidad para elegir entre opciones razonables, aunque un poco menos probables (por ejemplo, “esponjosas’’), de modo que generen respuestas más interesantes. Cabe destacar que, si bien los LLMs tienen un buen rendimiento con las instrucciones fácticas y crean la impresión de que recuperan información, no son bases de datos ni sistemas determinísticos de recuperación de información. Por lo tanto, aunque se puede esperar una respuesta coherente cuando se realiza una consulta a una base de datos (es decir, se recupera la información almacenada en ella literalmente), la respuesta de un LLM a la misma instrucción no tiene por qué ser siempre igual (tampoco recuperará de forma literal la información con la que se entrenó). También es una razón importante que explica por qué los LLMs pueden generar respuestas que parecen verosímiles, aunque en ocasiones podrían contener errores fácticos, lo que no es ideal cuando la facticidad es importante, pero podría ser útil para generar resultados creativos o inesperados.

2 Entrenamiento posterior

Tras el entrenamiento inicial, los LLMs pasan por etapas adicionales para refinar sus respuestas. Una de ellas se denomina “ajuste fino supervisado” (SFT), que entrena el modelo con ejemplos de respuestas excelentes seleccionados cuidadosamente. Es como mostrarles cuentos y ensayos bien escritos a los niños para enseñarles a escribir.

Luego, se lleva a cabo el aprendizaje por refuerzo con retroalimentación humana (RLHF). En este paso, el modelo aprende a generar respuestas aún mejores en función de puntuaciones o comentarios de un modelo especial de recompensas. Este modelo de recompensas se entrena con datos de preferencias humanas, en los que las respuestas se calificaron unas en relación con otras, lo que le enseña qué es lo que prefieren las personas. A veces, los datos de preferencias pueden incluir y exponer a los modelos a datos ofensivos o incorrectos para que aprendan a reconocerlos y evitarlos. Se puede pensar en los datos de preferencias como si se recompensara a un niño por un trabajo bien hecho; el modelo obtiene una recompensa por crear respuestas que les gustan a los usuarios.

En estas etapas, es importante utilizar datos de entrenamiento de alta calidad. En general, los ejemplos que se usan para el SFT fueron escritos por expertos o generados por un modelo y revisados por expertos.

Si bien estas técnicas son potentes, tienen limitaciones. Por ejemplo, incluso con la ayuda del modelo de recompensas, no siempre es posible que una respuesta sea perfecta. Aun así, el LLM está optimizado para generar las respuestas más valoradas en función de los comentarios que recibe, de forma similar a como los estudiantes aprenden de los comentarios de sus profesores.

3 Respuestas a las instrucciones de los usuarios

Generar respuestas es similar a la forma en que un ser humano podría obtener ideas sobre diferentes enfoques para responder una pregunta. Una vez que un usuario ingresa una instrucción, Gemini utiliza el LLM entrenado posteriormente, el contexto de esa instrucción y la interacción con el usuario para redactar varias versiones de una respuesta. También utiliza fuentes externas como la Búsqueda de Google o alguna de sus numerosas extensiones, y archivos subidos recientemente (solo en Gemini Advanced) para generar las respuestas. Este proceso se conoce como mejora por recuperación. Tras recibir una instrucción, Gemini intenta recuperar la información más pertinente de estas fuentes externas (p. ej., la Búsqueda de Google) y representarlas de manera precisa en su respuesta. Potenciar los LLMs con herramientas externas es un campo de investigación activo. Hay varias maneras mediante las que se pueden introducir errores, como la consulta que Gemini utiliza para invocar estas herramientas externas, la forma en que Gemini interpreta los resultados que devuelven las herramientas y la manera en que estos resultados se utilizan para generar la respuesta final. Por lo tanto, las respuestas que genera Gemini no reflejan el rendimiento de las herramientas individuales utilizadas para crearlas.

Por último, antes de que se muestre la respuesta final, cada respuesta potencial se somete a una verificación de seguridad para garantizar que cumpla con los lineamientos de políticas predeterminados. Este proceso sirve para filtrar información ofensiva o perjudicial. Luego, las respuestas restantes se clasifican en función de su calidad, y la versión (o puede ser que haya más de una) con mayor puntuación se presenta al usuario.

También aplicamos marcas de agua a los resultados de imágenes y texto de Gemini con SynthID, nuestro kit de herramientas digital líder en la industria para agregar marcas de agua al contenido generado por IA. En el caso de las imágenes generadas, SynthID agrega una marca de agua digital (imperceptible para el ojo humano) directamente en los píxeles. SynthID es un componente fundamental para el desarrollo de herramientas de identificación de IA más fiables y puede ayudar a las personas a decidir de manera más fundamentada cómo interactúan con el contenido generado por IA.

4 Comentarios y evaluaciones de personas

Incluso con las verificaciones de seguridad, es posible que haya errores y que las respuestas de Gemini no siempre cumplan con tus expectativas. Ahí es donde entran en juego los comentarios de los usuarios. Nuestros evaluadores analizan la calidad de las respuestas, identifican los aspectos que podrían mejorarse y sugieren soluciones. Esos comentarios forman parte del proceso de aprendizaje de Gemini, que se describe en la sección “Entrenamiento posterior’’ de más arriba.