DeepMind prueba las fronteras de los grandes sistemas de lenguaje de IA con 280 mil millones de modelos de parámetros

Es la generacion del lenguaje lo más caliente en IA ahora mismo, con una clase de sistemas conocidos como «modelos de lenguaje grande» (o LLM) que se utilizan para todo, desde Mejorar el motor de búsqueda de Google para: creando fantásticos juegos de texto. Pero estos programas también tienen serios problemas, como la duplicación del lenguaje sexista y racista y la falla de las pruebas de razonamiento lógico. Una gran pregunta. ¿Se pueden mejorar estas debilidades simplemente agregando más datos և potencia de cómputo, o llegamos a los límites de este paradigma tecnológico?

Este es uno de los temas cubiertos por el laboratorio de inteligencia artificial DeepMind de Alphabet en sus tres principales artículos de investigación. publicado hoy. La empresa concluye que una mayor expansión de estos sistemas requerirá muchas mejoras. «Uno de los principales descubrimientos del artículo es que el progreso y las capacidades de los grandes modelos de lenguaje siguen creciendo. «Esta no es un área que haya aumentado», dijo a los reporteros Jack Ray, un investigador de DeepMind, durante una sesión informativa.

DeepMind, que regularmente alimenta su trabajo en los productos de Google, ha explorado las capacidades de estos LLM mediante la creación de modelo de lenguaje con 280 mil millones de parámetros Gopher llamado. Los parámetros son una medida rápida del tamaño y la complejidad de los modelos de lenguaje, lo que significa que Gopher es más grande que OpenAI GPT-3: (175 mil millones de configuraciones), pero no tan grande como otros sistemas experimentales como Microsoft և Nvidia Modelo Megatron: (530 mil millones de configuraciones).

READ  Apple amplía el programa de reparación de faros delanteros del MacBook Pro de 13 pulgadas

En general, en el mundo de la inteligencia artificial, es cierto que cuanto más grande mejor, y los modelos más grandes suelen ofrecer una mayor eficiencia. La investigación de DeepMind confirma esta tendencia է sugiere que el aumento de LLM realmente ofrece un rendimiento mejorado en los puntos de referencia más comunes que prueban cosas como el análisis de emociones և resumen. Sin embargo, los investigadores también advirtieron que algunos de los problemas inherentes a los modelos de lenguaje requerirían más que solo datos para corregir los cálculos.

«Creo que ahora realmente parece que el modelo puede fallar de diferentes maneras», dijo Ray. «Algunos subgrupos de estas rutas se deben al hecho de que el modelo no comprende lo suficientemente bien lo que lee; creo que solo veremos un rendimiento mejorado para los problemas en esta clase con más datos y escala».

Pero, agregó, «hay otras categorías de problemas, como el modelo que perpetúa los estereotipos o el modelo que fomenta las falsificaciones. […] Nadie en DeepMind cree que la báscula será la solución [to]»: En estos casos, los modelos de lenguaje necesitarán «modos de aprendizaje adicionales», como la retroalimentación de los usuarios humanos, dijo.

Para llegar a estas conclusiones, los investigadores de DeepMind evaluaron modelos de lenguaje de diferentes tamaños en 152 tareas de lenguaje o puntos de referencia. Descubrieron que los modelos más grandes generalmente arrojaban mejores resultados, y el propio Gopher ofrecía un rendimiento moderno en aproximadamente el 80 por ciento de las pruebas seleccionadas por los científicos.

READ  Los usuarios de PS5 han sido advertidos sobre una posible falla de diseño que podría arruinar la consola

El periódico en otro periódico también ha estudiado una amplia gama de posibles daños participa en el despliegue de LLM. Estos incluyen el uso de lenguaje tóxico por parte de los sistemas, su capacidad para difundir información errónea y su capacidad para utilizarse con fines maliciosos, como difundir spam o propaganda. Todos estos problemas se volverán cada vez más importantes a medida que los modelos de lenguaje de IA se generalicen, como los chatbots y los agentes de ventas.

Sin embargo, hay que tener en cuenta que el rendimiento de los benchmarks en la evaluación de sistemas de aprendizaje automático no es lo más importante և final. En: ultimo papelVarios investigadores de inteligencia artificial (incluidos dos de Google) han estudiado las limitaciones de los puntos de referencia, señalando que estas bases de datos siempre serán limitadas y pueden no coincidir con la complejidad del mundo real. Como suele ocurrir con las nuevas tecnologías, la única forma confiable de probar estos sistemas es ver cómo funcionan. Veremos más de estas aplicaciones muy pronto con los grandes modelos de lenguaje.

Check Also

Samsung anuncia el primer evento Galaxy Unpacked en Corea del Sur

Samsung anuncia el primer evento Galaxy Unpacked en Corea del Sur

Última actualización: 25 de julio de 2023 06:17 UTC+02:00 Estamos a solo unos días del …

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *