GPT-4o ya genera buenas imágenes en ChatGPT
OpenAI ha activado oficialmente la función nativa de generación de imágenes en GPT-4o, su modelo multimodal lanzado en mayo de 2024. Esta actualización ya está disponible para los usuarios de ChatGPT en sus planes Free, Plus, Pro y Team, y se integrará pronto a las versiones Enterprise, Edu y la API. A diferencia de su predecesor, DALL·E 3, que utilizaba un sistema de difusión clásico para reconstruir imágenes a partir de texto, GPT-4o genera imágenes como parte de su propio modelo multimodal, lo que ofrece mayor precisión, detalle y realismo.
Gracias a esta integración total, los usuarios pueden mantener conversaciones naturales con el modelo, solicitar ediciones específicas y obtener resultados visuales mejorados en pocos segundos. Esta nueva versión también es capaz de interpretar con exactitud las solicitudes más complejas, adaptarse a múltiples estilos artísticos y mantener la coherencia visual a lo largo de una interacción.
Los resultados han dejado una gran impresión en la comunidad. Usuarios afirman que la calidad es “insana”, y expertos como Allie K. Miller lo catalogan como “el mejor modelo de generación de imágenes” hasta la fecha. Esta mejora también amplía las capacidades del modelo en Sora, la plataforma de creación de videos de OpenAI, reforzando así su enfoque multimodal.
GPT-4o puede generar imágenes que incluyen texto preciso, seguir instrucciones complejas con fidelidad y trabajar sobre creaciones anteriores para conservar estilo y coherencia. Además, admite indicaciones sobre proporciones, colores específicos y transparencia, generando imágenes en menos de un minuto.
Entre sus aplicaciones clave están el diseño de logotipos, material educativo como infografías, desarrollo de videojuegos con consistencia visual, y creación de contenido para marketing. También destaca por superar limitaciones de modelos anteriores: ahora es capaz de incorporar texto claro dentro de las imágenes, entender el contexto de la conversación, manejar múltiples objetos (hasta 20 en una misma escena), y adaptarse a diversos estilos visuales.
Sin embargo, aún existen desafíos. Algunas imágenes grandes pueden aparecer recortadas, los caracteres no latinos pueden presentar errores, y el texto pequeño podría perder detalle. La edición de áreas específicas puede también afectar otras zonas no deseadas. OpenAI está trabajando activamente en resolver estas cuestiones.
En cuanto a la seguridad, todas las imágenes generadas incluyen metadatos C2PA para verificar su origen y cuentan con filtros para evitar contenidos dañinos. También se han impuesto restricciones adicionales en imágenes que incluyan personas reales.
Según Sam Altman, CEO de OpenAI, esta evolución representa “un nuevo punto de referencia para la libertad creativa”, permitiendo a los usuarios generar contenido visual con mayor libertad y control.
Preguntas y Respuestas
¿Qué diferencia a GPT-4o de DALL·E 3?
GPT-4o integra la generación de imágenes en el mismo modelo que procesa texto y código, lo que permite obtener resultados mucho más coherentes, detallados y realistas que los de DALL·E 3, que utilizaba un modelo de difusión tradicional.
¿Qué estilos puede generar GPT-4o?
El modelo es capaz de adaptarse a una gran variedad de estilos, desde bocetos a mano hasta imágenes fotográficas de alta resolución, según las indicaciones que el usuario proporcione.
¿Qué limitaciones tiene actualmente GPT-4o?
Algunas imágenes grandes pueden aparecer recortadas, los caracteres no latinos pueden no mostrarse correctamente y los textos pequeños pueden perder claridad. También puede haber imprecisiones al editar áreas específicas de una imagen.
¿Está disponible para todos los usuarios?
Sí, la función de generación de imágenes de GPT-4o ya está habilitada para los usuarios de ChatGPT en sus versiones Free, Plus, Pro y Team. Pronto se integrará también en Enterprise, Edu y la API de OpenAI.