Qwen 2 – Actualización del modelo chino

7 de junio de 20241142 Views

Qwen2 presenta importantes mejoras y expansiones en esta nueva versión. La serie Qwen2 ofrece modelos preentrenados y ajustados por instrucciones en cinco tamaños diferentes: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B y Qwen2-72B. Estos modelos han sido entrenados en datos que abarcan 27 idiomas adicionales además del inglés y el chino, lo que refuerza sus capacidades multilingües.

Modelos	Qwen2-0.5B	Qwen2-1.5B	Qwen2-7B	Qwen2-57B-A14B	Qwen2-72B
Parámetros	0.49B	1.54B	7.07B	57.41B	72.71B
Parámetros no emb.	0.35B	1.31B	5.98B	56.32B	70.21B
GQA	Sí	Sí	Sí	Sí	Sí
Tie Embedding	Sí	Sí	No	No	No
Longitud Contexto	32K	32K	128K	64K	128K

Uno de los avances destacados es el rendimiento mejorado en una amplia gama de evaluaciones de referencia, especialmente en codificación y matemáticas. Además, se ha extendido el soporte de longitud de contexto hasta 128K tokens en los modelos Qwen2-7B-Instruct y Qwen2-72B-Instruct. Estos modelos están disponibles en plataformas como Hugging Face y ModelScope.

Todos los modelos Qwen2 ahora incluyen Group Query Attention (GQA), lo que mejora la velocidad y reduce el uso de memoria durante la inferencia. En cuanto a la longitud del contexto, los modelos base han sido preentrenados con una longitud de contexto de 32K tokens, demostrando capacidades de extrapolación hasta 128K en evaluaciones específicas.

El rendimiento multilingüe ha sido una prioridad, con esfuerzos significativos para mejorar tanto el volumen como la calidad de los datos de preentrenamiento y ajuste por instrucciones en múltiples idiomas, incluyendo alemán, francés, español, portugués, italiano, holandés, ruso, árabe, japonés, coreano, hindi, y más. Se ha trabajado también en abordar el cambio de código, mejorando la competencia de los modelos en este aspecto.

Las evaluaciones comparativas muestran mejoras sustanciales en el rendimiento de los modelos Qwen2, especialmente el Qwen2-72B, que supera a modelos de vanguardia como Llama-3-70B y a su predecesor Qwen1.5-110B, a pesar de tener menos parámetros. Estas evaluaciones incluyen capacidades en comprensión del lenguaje natural, adquisición de conocimientos, codificación, habilidades matemáticas y competencias multilingües.

El post-entrenamiento de Qwen2 se ha centrado en acercar la inteligencia del modelo a la humana, mejorando sus capacidades en varias áreas y alineando sus salidas con los valores humanos. Se han utilizado estrategias de alineación automatizadas y métodos de entrenamiento innovadores para obtener datos de alta calidad y diversas demostraciones. Estos esfuerzos han mejorado significativamente la inteligencia y capacidades del modelo.

Qwen2-72B-Instruct ha sido evaluado exhaustivamente en 16 benchmarks, demostrando un equilibrio entre capacidades mejoradas y alineación con valores humanos. Este modelo supera significativamente a su predecesor y mantiene un rendimiento competitivo frente a otros modelos líderes. Incluso los modelos más pequeños de Qwen2 demuestran ventajas en benchmarks específicos, destacando en áreas como codificación y métricas relacionadas con el chino.

Más información

También te puede interesar

Read Next