Qwen 2 – Actualización del modelo chino
Qwen2 presenta importantes mejoras y expansiones en esta nueva versión. La serie Qwen2 ofrece modelos preentrenados y ajustados por instrucciones en cinco tamaños diferentes: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B y Qwen2-72B. Estos modelos han sido entrenados en datos que abarcan 27 idiomas adicionales además del inglés y el chino, lo que refuerza sus capacidades multilingües.
Modelos | Qwen2-0.5B | Qwen2-1.5B | Qwen2-7B | Qwen2-57B-A14B | Qwen2-72B |
---|---|---|---|---|---|
Parámetros | 0.49B | 1.54B | 7.07B | 57.41B | 72.71B |
Parámetros no emb. | 0.35B | 1.31B | 5.98B | 56.32B | 70.21B |
GQA | Sí | Sí | Sí | Sí | Sí |
Tie Embedding | Sí | Sí | No | No | No |
Longitud Contexto | 32K | 32K | 128K | 64K | 128K |
Uno de los avances destacados es el rendimiento mejorado en una amplia gama de evaluaciones de referencia, especialmente en codificación y matemáticas. Además, se ha extendido el soporte de longitud de contexto hasta 128K tokens en los modelos Qwen2-7B-Instruct y Qwen2-72B-Instruct. Estos modelos están disponibles en plataformas como Hugging Face y ModelScope.
Todos los modelos Qwen2 ahora incluyen Group Query Attention (GQA), lo que mejora la velocidad y reduce el uso de memoria durante la inferencia. En cuanto a la longitud del contexto, los modelos base han sido preentrenados con una longitud de contexto de 32K tokens, demostrando capacidades de extrapolación hasta 128K en evaluaciones específicas.
El rendimiento multilingüe ha sido una prioridad, con esfuerzos significativos para mejorar tanto el volumen como la calidad de los datos de preentrenamiento y ajuste por instrucciones en múltiples idiomas, incluyendo alemán, francés, español, portugués, italiano, holandés, ruso, árabe, japonés, coreano, hindi, y más. Se ha trabajado también en abordar el cambio de código, mejorando la competencia de los modelos en este aspecto.
Las evaluaciones comparativas muestran mejoras sustanciales en el rendimiento de los modelos Qwen2, especialmente el Qwen2-72B, que supera a modelos de vanguardia como Llama-3-70B y a su predecesor Qwen1.5-110B, a pesar de tener menos parámetros. Estas evaluaciones incluyen capacidades en comprensión del lenguaje natural, adquisición de conocimientos, codificación, habilidades matemáticas y competencias multilingües.
El post-entrenamiento de Qwen2 se ha centrado en acercar la inteligencia del modelo a la humana, mejorando sus capacidades en varias áreas y alineando sus salidas con los valores humanos. Se han utilizado estrategias de alineación automatizadas y métodos de entrenamiento innovadores para obtener datos de alta calidad y diversas demostraciones. Estos esfuerzos han mejorado significativamente la inteligencia y capacidades del modelo.
Qwen2-72B-Instruct ha sido evaluado exhaustivamente en 16 benchmarks, demostrando un equilibrio entre capacidades mejoradas y alineación con valores humanos. Este modelo supera significativamente a su predecesor y mantiene un rendimiento competitivo frente a otros modelos líderes. Incluso los modelos más pequeños de Qwen2 demuestran ventajas en benchmarks específicos, destacando en áreas como codificación y métricas relacionadas con el chino.