Blog

ChatGPT consigue superar una de las grandes barreras de la IA: crear imágenes con textos legibles

ChatGPT consigue superar una de las grandes barreras de la IA: crear imágenes con textos legibles

OpenAI ha mejorado la generación de imágenes con el modelo GPT-4o con nuevas funciones para crear textos más realistas y sobre todo, legibles, ya supera a DALL-E 3. La empresa de Sam Altman también añade una mayor precisión en 2D.

🔍  💸 OpenAI se ha propuesto reemplazar a DALL-E 3 con la nueva herramienta de generación de imágenes GPT-4o que ya está disponible en ChatGPT. Este modelo ha conseguido algo impensable hasta el momento: representar texto con una enorme precisión..🎉

consultores  2025

OpenAI se ha propuesto reemplazar a DALL-E 3 con la nueva herramienta de generación de imágenes GPT-4o que ya está disponible en ChatGPT. Este modelo ha conseguido algo impensable hasta el momento: representar texto con una enorme precisión.

El principal problema de la IA era la dificultad para añadir texto en las imágenes. La tipografía es poco legible, nada realista en comparación con las indicaciones de los usuarios, y las palabras a menudo ni siquiera tenían sentido.

OpenAI ha cambiado la metodología radicalmente con GPT-4o

El sistema que utilizaba la empresa de Sam Altman con DALL-E 3 era el conocido como generación de imágenes por difusión. El chatbot «pinta» las imágenes con texto aleatorio, pero termina convirtiéndose en ruido sin ningún sentido si observas en detalle.

El modelo GPT-4o utiliza un sistema autorregresivo que genera texto sobre las imágenes de arriba a abajo y de lado a lado. Esta técnica es más lenta, pero las ventajas son evidentes. OpenAI es capaz de crear imágenes perfectamente legibles y mucho más realistas.

La empresa de Sam Altman ha ido más allá y permite representar texto más preciso según el tipo de información que aportes. Si solicitas que genere una imagen fotorrealista de una mujer escribiendo en una pizarra con letras japonesas, GPT-4o será capaz de interpretarlo y generar el resultado más similar posible.

Si aportas indicaciones más precisas, incluso le puedes indicar a ChatGPT las palabras concretas que quieres que muestre en la imagen. OpenAI ha mejorado su modelo y ahora también consigue buenos resultados en texto estilizado en 2D, puedes utilizar la IA para escribir menús de restaurantes, anuncios o todo tipo de elementos publicitarios.

ChatGPT ya ha superado a DALL-E 3

Otro de los problemas habituales de la IA era asignar características a cada objeto o persona que representa en las imágenes. Si se le pide a DALL-E 3 que dibuje un círculo azul, un triángulo naranja, un rombo verde y una estrella amarilla, podría equivocarse y generar formas o colores incorrectos.

GPT-4o es capaz de procesar y generar con precisión hasta 20 objetos diferentes. Además, la calidad final será mucho mayor, la nueva inteligencia artificial de OpenAI crea imágenes más realistas, el arte digital se ve menos granulado y es capaz de obtener buenos resultados con instrucciones más cortas y simples.

¿Quién puede utilizar la generación de imágenes de GPT-4o? Las nuevas funciones de ChatGPT están disponibles para todos los usuarios, incluidos los que no pagan una suscripción. Estos últimos tienen algunas limitaciones de uso, al igual que ocurre con DALL-E 3.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.