Phi-3, modelo de lenguaje pequeño, SLM
Pequeños pero poderosos: los modelos de lenguaje pequeños de Phi-3 con gran potencial revelan cómo Microsoft ha estado innovando en el desarrollo de modelos de lenguaje pequeños (SLM) que son más accesibles y requieren menos recursos para operar, manteniendo capacidades comparables a los grandes modelos de lenguaje (LLM). Sebastien Bubeck, vicepresidente de investigación de IA generativa de Microsoft, lidera este proyecto, buscando cómo simplificar y hacer más accesible la IA para todos.
La inspiración para estos modelos provino de una experiencia personal de Ronen Eldan, de Microsoft, quien reflexionando sobre cómo los niños aprenden palabras, impulsó un enfoque de entrenamiento menos convencional utilizando libros para niños. Esta metodología resultó en los modelos Phi-3, que han demostrado ser más eficientes y económicos que otros de tamaño similar en pruebas de lenguaje, codificación y matemáticas.
Estos modelos, como el Phi-3-mini con 3.800 millones de parámetros, están diseñados para funcionar eficazmente en dispositivos locales, reduciendo la latencia y maximizando la privacidad. Microsoft ha lanzado este modelo y planea expandir esta familia con versiones más grandes y pequeñas, como el Phi-3-small y el Phi-3-medium, disponibles próximamente en el catálogo de modelos de Microsoft Azure y otras plataformas.
Los SLM se adaptan particularmente bien a tareas menos complejas y son ideales para organizaciones con recursos limitados o que necesitan mantener los datos localmente para cumplir con regulaciones. Además, estos modelos son beneficiosos para dispositivos que operan desconectados de la red, como en áreas rurales o en dispositivos móviles, proporcionando soluciones inmediatas sin necesidad de conectarse a la nube.
Los modelos de lenguaje pequeños son particularmente valiosos para industrias reguladas o situaciones donde la privacidad y la reducción de la latencia son cruciales, mientras que los modelos de lenguaje grandes siguen siendo superiores para tareas que requieren un análisis complejo o un razonamiento avanzado. La elección entre un SLM o un LLM dependerá de las necesidades específicas de la tarea y los recursos disponibles de la organización.
Microsoft, con esta innovación, no busca reemplazar los LLM, sino proporcionar una gama de modelos que permitan a los clientes elegir el más adecuado según su caso específico. Esta estrategia destaca la importancia de tener un enfoque diversificado en el desarrollo de soluciones de IA, aprovechando tanto modelos pequeños como grandes según las necesidades del usuario.
- Phi-3 Microsoft blog
- Phi-3 Technical Report (pdf)
- Phi-3 on Azure AI Playground
- Phi-3 on Azure AI Studio
- Phi-3 ONNX: 4K and 128K