Meta, presenta Llama 3
Se anuncian los dos primeros modelos de la próxima generación de Llama, Meta Llama 3, disponibles para un uso amplio. Esta versión incluye modelos de lenguaje preentrenados y ajustados con instrucciones de 8B y 70B de parámetros que pueden soportar una amplia gama de casos de uso. Esta nueva generación de Llama demuestra un rendimiento de vanguardia en una amplia gama de referencias de la industria y ofrece nuevas capacidades, incluyendo un razonamiento mejorado. Se considera que estos son los mejores modelos de código abierto de su clase. En apoyo a un enfoque abierto de largo plazo, Llama 3 se pone en manos de la comunidad. Se busca impulsar la próxima ola de innovación en IA en todo el espectro, desde aplicaciones hasta herramientas de desarrollo, evaluaciones y optimizaciones de inferencia. Hay un gran interés en ver lo que se construirá y se esperan comentarios.
Objetivos para Llama 3: El objetivo con Llama 3 fue construir los mejores modelos abiertos que estén a la par con los mejores modelos propietarios disponibles hoy. Se quiso abordar los comentarios de los desarrolladores para aumentar la utilidad general de Llama 3 y se está haciendo esto mientras se continúa desempeñando un papel líder en el uso y despliegue responsable de LLMs. Se adopta el ethos de código abierto de lanzar temprano y frecuentemente para que la comunidad pueda acceder a estos modelos mientras aún están en desarrollo.
Rendimiento de vanguardia: Los nuevos modelos Llama 3 de 8B y 70B de parámetros son un gran avance sobre Llama 2 y establecen un nuevo estándar para los modelos LLM en esas escalas. Gracias a las mejoras en el preentrenamiento y el ajuste posterior, los modelos preentrenados y ajustados con instrucciones son los mejores modelos existentes hoy en la escala de 8B y 70B de parámetros. Las mejoras en los procedimientos posteriores al entrenamiento redujeron sustancialmente las tasas de rechazo falso, mejoraron la alineación e incrementaron la diversidad en las respuestas del modelo.
Desarrollo de Llama 3: En el desarrollo de Llama 3, se examinó el rendimiento del modelo en referencias estándar y también se buscó optimizar el rendimiento para escenarios del mundo real. Para ello, se desarrolló un nuevo conjunto de evaluación humana de alta calidad. Este conjunto de evaluación contiene 1800 indicaciones que cubren 12 casos de uso clave. Para evitar el sobreajuste accidental de los modelos en este conjunto de evaluación, incluso los propios equipos de modelado no tienen acceso a él.
Arquitectura del modelo: En línea con la filosofía de diseño adoptada, se optó por una arquitectura de transformador solo decodificador relativamente estándar en Llama 3. En comparación con Llama 2, se hicieron varias mejoras clave. Llama 3 utiliza un tokenizador con un vocabulario de 128K tokens que codifica el lenguaje de manera mucho más eficiente, lo que lleva a una mejora sustancial en el rendimiento del modelo.
Datos de entrenamiento: Para entrenar el mejor modelo de lenguaje, la curación de un gran conjunto de datos de entrenamiento de alta calidad es primordial. Llama 3 se preentrena en más de 15T tokens recopilados de fuentes públicamente disponibles. El conjunto de datos de entrenamiento es siete veces más grande que el utilizado para Llama 2, e incluye cuatro veces más código.
Afinación fina de instrucciones: Para aprovechar completamente el potencial de los modelos preentrenados en casos de uso de chat, se innovó en el enfoque para la afinación fina de instrucciones. El enfoque para el entrenamiento posterior es una combinación de afinación supervisada (SFT), muestreo de rechazo, optimización de políticas proximales (PPO) y optimización de políticas directas (DPO).
Con Llama 3, se están proporcionando nuevas herramientas de confianza y seguridad, incluyendo componentes actualizados con Llama Guard 2 y Cybersec Eval 2, y la introducción de Code Shield, un guardia de tiempo de inferencia para filtrar código inseguro producido.