X presenta Grok-2

El llançament de Grok-2 marca un avenç significatiu en el desenvolupament de models de llenguatge, establint un nou estàndard en capacitats de raonament, xat i codificació. Aquesta nova versió, que es presenta en dues variants—Grok-2 i Grok-2 mini—es llança en beta per als usuaris de la plataforma 𝕏 i estarà disponible per a integracions empresarials a través d’una API a finals d’aquest mes.

Capacitats del model de llenguatge Grok-2

Grok-2 ha estat desenvolupat per millorar la interacció en diversos contextos, mostrant un avenç considerable en comparació amb el seu predecessor, Grok-1.5. Un aspecte clau d’aquesta millora és la seva capacitat per seguir instruccions i proporcionar informació precisa i basada en fets, àrees en les quals ha demostrat una notable millora en proves internes i comparatives. En particular, Grok-2 s’ha destacat en tasques de raonament, especialment en la identificació d’informació mancant, en l’anàlisi seqüencial d’esdeveniments, i en la capacitat de descartar dades irrellevants.

El model va ser sotmès a proves sota el pseudònim “sus-column-r” en l’entorn LMSYS, un important benchmark competitiu per a models de llenguatge. Els resultats van mostrar que Grok-2 va superar altres models de referència com Claude i GPT-4 en la classificació Elo, un sistema de puntuació que mesura el rendiment relatiu dels competidors en un entorn controlat.

Avaluació i resultats en benchmarks

Per validar el rendiment de Grok-2 i Grok-2 mini, es van realitzar avaluacions en una sèrie de benchmarks acadèmics que van incloure raonament, comprensió lectora, matemàtiques, ciències i codificació. Els resultats van mostrar que ambdós models superen significativament Grok-1.5 i són competitius en comparació amb altres models d’avantguarda en diverses àrees:

  • Coneixement de nivell científic avançat (GPQA)
  • Coneixement general (MMLU, MMLU-Pro)
  • Problemes matemàtics de competició (MATH)
  • Tasques basades en visió: Grok-2 destaca especialment en raonament matemàtic visual (MathVista) i en preguntes basades en documents (DocVQA).

El rendiment en aquests benchmarks col·loca Grok-2 a la par o fins i tot per sobre d’altres models de la competència, com GPT-4 Turbo i Claude 3.5 Sonnet. Per exemple, en la tasca DocVQA, Grok-2 va assolir un impressionant 93.6% de precisió, superant molts dels seus competidors directes.

Grok-2

Experiència en 𝕏 amb Grok-2

Amb l’evolució de la plataforma 𝕏, s’han introduït noves característiques en Grok-2, incloent-hi una interfície redissenyada i capacitats millorades per a la integració d’informació en temps real. Els usuaris de 𝕏 Premium i Premium+ poden accedir a Grok-2 i Grok-2 mini a través de l’aplicació de 𝕏, la qual cosa els permet interactuar amb un assistent d’IA d’avantguarda que no només entén text, sinó que també integra capacitats avançades de comprensió visual.

Grok-2 ha estat optimitzat per ser més intuïtiu, controlable i versàtil en una àmplia gamma de tasques, des de la resolució de problemes de codificació fins a la col·laboració en redacció de textos. A més, en col·laboració amb Black Forest Labs, s’està experimentant amb el model FLUX.1 per expandir encara més les capacitats de Grok a la plataforma 𝕏.

API empresarial per a desenvolupadors

A més del llançament beta a 𝕏, Grok-2 i Grok-2 mini estaran disponibles per als desenvolupadors a través d’una nova API empresarial que es llançarà a finals d’aquest mes. Aquesta API es construeix sobre una infraestructura tecnològica personalitzada que permet desplegaments d’inferència en múltiples regions per garantir baixa latència a nivell mundial.

Entre les característiques avançades d’aquesta API s’inclouen:

  • Seguretat millorada, amb autenticació multifactor obligatòria (com Yubikey, Apple TouchID o TOTP).
  • Estadístiques detallades de trànsit i anàlisi de facturació avançat, incloent exportacions detallades de dades.
  • Una API de gestió que facilita la integració de l’administració d’equips, usuaris i facturació en eines i serveis interns existents.

Aquesta API representa un avenç important per a les empreses que busquen integrar capacitats avançades d’IA en les seves operacions, permetent un accés ràpid i segur a les capacitats de Grok-2.

Futur de Grok-2

Amb el desplegament en curs de Grok-2 i Grok-2 mini a 𝕏, les aplicacions potencials d’aquestes eines abasten un ampli espectre de funcions impulsades per IA, des de capacitats millorades de cerca fins a funcions de resposta optimitzades, totes elles potenciades per Grok.

L’equip darrere de xAI ha aconseguit un avenç impressionant en un curt període, des de l’anunci de Grok-1 el novembre de 2023. Ara, amb Grok-2, xAI es posiciona a l’avantguarda del desenvolupament d’IA, amb un enfocament clar en la millora de les capacitats de raonament central del model.

En els propers mesos, s’esperen més desenvolupaments i avenços que es compartiran amb la comunitat. A més, xAI està buscant incorporar nous talents al seu equip, amb l’objectiu de continuar innovant i construint les tecnologies més impactants per al futur de la humanitat. Aquells interessats a unir-se a aquesta missió poden postular-se a les posicions disponibles a xAI.

Aquest llançament no només reforça el compromís de xAI amb l’avenç de la tecnologia d’IA, sinó que també subratlla la seva visió d’empenyer els límits del que és possible amb models de llenguatge d’última generació.