Sun, 28 Apr 2024 07:35:52 -0500
andina.pe –
07:35 | Lima, abr. 28.
La empresa de tecnología Meta lanzó LLaMA 3, la nueva generación de su modelo de lenguaje grande (LLM), que presenta modelos pre-entrenados y ajustados a una amplia gama de parámetros de referencia con el fin de optimizar capacidades como el razonamiento, la codificación y el seguimiento de instrucciones con inteligencia artificial.
LLaMA 3 presenta modelos de lenguaje pre-entrenados y ajustados a las instrucciones con 8 mil millones de parámetros (8B) y 70 mil millones de parámetros (70B), que consisten en variables internas propias del algoritmo de aprendizaje que se pueden adaptar a una amplia diversidad de casos de uso.
Rendimiento de vanguardia
Los nuevos modelos LLaMa 3 de parámetros 8B y 70B suponen un gran salto con respecto a LLaMA 2, lanzada en julio de 2023, y establecen un nuevo objeto de estudio para los modelos LLM a esas escalas. Gracias a las mejoras en el pre-entrenamiento y el post-entrenamiento, el modelo de lenguaje redujo sustancialmente las tasas de falsos rechazos, mejoró la alineación y aumentó la diversidad en las respuestas de los modelos.
En el desarrollo de LLaMA 3, la empresa priorizó el rendimiento del modelo en puntos de referencia estándar y buscó optimizar el rendimiento para escenarios del mundo real. Para ello, desarrolló un nuevo conjunto de evaluación humana de alta calidad.
Lee también: Descubre cómo usar la inteligencia artificial de ChatGPT para aprender chino gratis
Para entrenar el modelo lingüístico, Meta dispuso de un conjunto de datos de entrenamiento amplio y de alta calidad. De acuerdo con sus principios, invirtió en datos de pre-entrenamiento con más de 15T de tokens recogidos de fuentes públicas.
Para garantizar datos de la máxima calidad en el entrenamiento de LLaMA 3, Meta desarrolló una serie de procesos de filtración de datos ,que incluyen filtros heurísticos (método de detección de virus), filtros NSFW (que bloquean el contenido que es apto sólo para adultos), enfoques de deduplicación semántica (proceso que elimina copias excesivas de datos) y clasificadores de texto para predecir la calidad de los datos.
Lee también: Descubre cómo usar la inteligencia artificial de ChatGPT para aprender inglés gratis
En caso de usos de chat y su ajuste de instrucciones Meta también innovó en su enfoque para desbloquear completamente el potencial de sus modelos pre-entrenados. Su enfoque para el post-entrenamiento es una combinación de ajuste fino supervisado (SFT), muestreo de rechazo, optimización de políticas proximales (PPO) y optimización de políticas directas (DPO).
El perfeccionamiento de las instrucciones es un aspecto fundamental para garantizar la seguridad de los modelos. Meta afirma que la seguridad de sus modelos ajustados a las instrucciones se ha sometido a pruebas internas y externas. En tanto, su enfoque de red teaming aprovecha los expertos humanos y los métodos de automatización para generar mensajes adversos que intentan provocar respuestas problemáticas.
Los modelos más grandes de Meta superan los parámetros de 400B, aunque todavía están en fase de formación. Sin embargo, en los próximos meses, la empresa publicará varios modelos con nuevas funciones, como la multimodalidad, la capacidad de conversar en varios idiomas, una ventana de contexto mucho más larga y funciones generales más potentes. También publicará un artículo de investigación detallado una vez hayamos terminado de entrenar a LLaMA 3.
Gracias a sus últimos avances con Meta LLaMA 3, la empresa también anunció la expansión internacional de Meta AI, permitiendo que más personas accedan a esta tecnología de forma gratuita a través de Facebook, Instagram, WhatsApp y Messenger en Australia, Canadá, Ghana, Jamaica, Malawi, Nueva Zelanda, Nigeria, Pakistán, Singapur, Sudáfrica, Uganda, Zambia y Zimbabue.
En el Día Internacional de las Niñas en las TIC, que se conmemora cada cuarto jueves de abril, te presentamos un recuento de las peruanas que destacan en la NASA, una de las instituciones espaciales más importantes del mundo.
??https://t.co/pBASO6ix7W pic.twitter.com/YnIouk6Mz7
— Agencia Andina (@Agencia_Andina) April 25, 2024
Leer artículo completo: Click aquí.