DeepSeek-R1: raonador open source
DeepSeek, la startup xinesa d’intel·ligència artificial, ha llançat DeepSeek-R1, un model de raonament avançat que competeix amb gegants com OpenAI o1. Basat en el innovador DeepSeek V3, no només iguala en rendiment en matemàtiques, programació i raonament lògic, sinó que ho fa a un cost dràsticament inferior, amb estalvis del 90-95% enfront dels seus rivals comercials.
Característiques destacades de DeepSeek-R1
DeepSeek-R1 utilitza una combinació d’aprenentatge per reforç (RL) i entrenament supervisat per resoldre problemes complexos mitjançant cadenes de raonament avançades. En proves de referència va obtenir:
- 79,8% a l’AIME 2024 (raonament matemàtic avançat).
- 97,3% al MATH-500 (resolució de problemes matemàtics).
- Una puntuació de 2.029 a Codeforces, superant el 96,3% dels programadors humans.
Aquests assoliments el posicionen com un model competitiu, fins i tot enfront de models més grans com GPT-4o i Claude 3.5.
Models destil·lats de DeepSeek-R1
La destil·lació permet crear versions més petites i eficients de models grans, mantenint capacitats clau de raonament mentre es redueixen els requisits computacionals. DeepSeek va aplicar aquesta tècnica a les seves arquitectures Qwen i Llama, generant models compactes ideals per a la seva instal·lació en maquinari domèstic.
Models destil·lats basats en Qwen
- DeepSeek-R1-Qwen-1.5B: Compacte, amb un 83,9% al MATH-500, ideal per a matemàtiques bàsiques. No obstant això, el seu rendiment és limitat en programació (16,9% a LiveCodeBench).
- DeepSeek-R1-Qwen-7B: Aconsegueix un 92,8% al MATH-500 i un 49,1% al GPQA Diamond, però segueix sent moderat en tasques de codificació (37,6% a LiveCodeBench).
- DeepSeek-R1-Qwen-14B: Destaca al MATH-500 (93,9%) i al GPQA Diamond (59,1%), amb un millor rendiment en programació (53,1% a LiveCodeBench i 1.481 a Codeforces).
- DeepSeek-R1-Qwen-32B: El model més avançat basat en Qwen, amb un 94,3% al MATH-500 i 62,1% al GPQA Diamond, juntament amb un rendiment versàtil en programació (57,2% a LiveCodeBench i 1.691 a Codeforces).
Models destil·lats basats en Llama
- DeepSeek-R1-Llama-8B: Compacte i accessible, obté un 89,1% al MATH-500 i un rendiment raonable al GPQA Diamond (49,0%). En codificació, les seves capacitats són limitades (39,6% a LiveCodeBench).
- DeepSeek-R1-Llama-70B: El més gran i potent, amb un 94,5% al MATH-500 i un 86,7% a l’AIME 2024. El seu rendiment a LiveCodeBench (57,5%) i Codeforces (1.633) el posiciona com una alternativa eficient fins i tot enfront de l’o1-mini d’OpenAI.
Accessibilitat i cost
DeepSeek-R1 i els seus models destil·lats estan disponibles a Hugging Face amb una llicència MIT, preparats per a instal·lació local. Això democratitza l’accés a tecnologia avançada, permetent que desenvolupadors amb maquinari domèstic utilitzin models com Llama-8B i Qwen-7B. A més, els costos són significativament menors:
- 0,55 $ per milió de tokens d’entrada.
- 2,19 $ per milió de tokens de sortida, enfront dels 15 $ i 60 $ d’OpenAI o1.
Preguntes freqüents
Què és DeepSeek-R1?
És un model de raonament de codi obert que iguala el rendiment d’OpenAI o1, però amb un cost significativament menor.
Què són els models destil·lats de DeepSeek?
Són versions compactes i eficients de DeepSeek-R1, dissenyades per executar-se en maquinari domèstic sense comprometre capacitats essencials.
On estan disponibles els models de DeepSeek?
Es troben a Hugging Face amb llicència MIT per a descàrrega i ús en projectes personals o comercials.
Quins són els avantatges dels models basats en Qwen i Llama?
Els models Qwen prioritzen l’escalabilitat, mentre que els basats en Llama destaquen en tasques avançades de raonament matemàtic i factual.