Chat GPT Image 2 |Podcast| Carlos Malfatti

El nuevo modelo de imágenes de ChatGPT cambia el juego

ChatGPT actualizó su modelo de imágenes. En realidad, OpenAI, que es la empresa, actualizó su modelo de imágenes 2.0. Antes era 1.0, ahora es 2.0, y es tremendo.

Tan nivel tiene que incluso superó a Nano Banana. Vamos a ver qué presenta Google ahora en un par de semanas, cuando haga esas presentaciones que hacen las empresas todos los años, a ver si traen nuevos modelos de imágenes.

Pero lo que he visto, lo que he trabajado, lo que he puesto a prueba, no Nano Banana, digo Imagen 2.0 de OpenAI, es una locura.

¿Por qué? Te voy a explicar rápido y mal cómo se entrenaron en su momento estos modelos. Le mostrabas una imagen de un gato y les decías: esto es un gato, es un gato, un gato, un gato. Y de tantas imágenes de gato que le mostrabas, cuando le pedías un gato, mal que mal te dibujaba un gato.

Al principio lo dibujaba mal y después lo fue dibujando cada vez mejor. Después los modelos de imágenes nos dieron esos resultados que se notaba de acá a 10 kilómetros que eran inteligencia artificial: demasiado brillo, demasiado perfecto, demasiado marcados los bordes, etcétera.

El realismo ya llegó a un punto difícil de distinguir

En el nivel de realismo al que hemos llegado, incluso con la versión 1.5 de Imagen de OpenAI, Nano Banana y Flux, que son los tres grandes modelos de imágenes, estamos en un momento en el que no se puede diferenciar la realidad de la ficción en cuanto a imágenes.

También están Midjourney, Leonardo y otros, pero los más populares podemos decir que son esos. Y lo mismo está aconteciendo en cuanto a video.

Esto pasa porque han avanzado tanto los modelos de inteligencia artificial que no solamente ubican píxeles, o secuencias numéricas que luego se transforman en píxeles en una imagen y generan ese gato del que hablábamos.

Ahora es como que entienden lo que es un gato, pero también entienden físicas. Si vos decís un gato y un ventilador, y el ventilador te lo hace funcionando, la cara del gato va a estar así como que le da el viento y se le van los pelos para atrás.

Porque no es solamente un software tonto que lo que hace es ubicar píxeles en una cuadrícula, o secuencias numéricas que luego se transforman en píxeles. Es mucho más. Por eso puede interpretar instrucciones complejas y ejecutarlas. Y esto cambia absolutamente el juego.

Una prueba con un sitio web y un póster

Una de las pruebas que hice fue pasarle la URL del sitio web de Alien y decirle: haceme un póster con lo más relevante de esta página, haceme los colores vibrantes.

No solamente hizo una locura de póster, que después, en lo estético, puede no gustar. Me devolvió lo que yo le pedí: colores vibrantes.

Parecía esos típicos pósters que hacíamos cuando íbamos a la escuela secundaria, con colores flúo. Cuando había un afiche y poníamos de todo: dibujito, recortábamos foto, escribíamos en toda la superficie del póster, lo llenábamos de porquería.

Bueno, me hizo eso. Pero no solamente lo hizo: analizó la información del sitio web, extrajo de ahí lo más relevante, la propuesta de valor y algunas características del producto que ofrecía, en este caso, un cliente mío.

Y armó ese póster con una jerarquía de información clarísima, con un diseño en lo que se notaba. Yo recordaba que vengo del diseño gráfico. Mi primera computadora la tuve en 1990.

De cortar papeles a diseñar en segundos

En ese momento la batalla estaba entre los diseñadores que diseñaban cortando pedacitos de papel, sacando una foto, haciendo una película con eso y enviándolo a la imprenta, y quienes empezamos a incursionar a partir de tener una computadora con Photoshop y con CorelDRAW.

En ese momento era Photoshop 4 y Corel 2. Eran una tortuga los dos programas y no se podía hacer nada de lo que ves hoy. Se podía hacer prácticamente nada, pero estaba la batalla: «el que usa computadora no diseña».

La misma estupidez de siempre. Como decir que escritor es el que escribe a máquina de escribir y el que usa procesador de texto no es escritor. O el que dicta a una inteligencia artificial para que le acomode el texto tampoco lo es.

Temas en los que no me voy a meter, eso sabés cómo pienso. A lo que me refiero es que vengo del diseño y sé lo que costaba diseñar eso: cantidad de capas, cantidad de objetos, textos, jerarquía de los textos, distintas tipografías, alineación de las tipografías.

Este modelo de imagen de ChatGPT lo hizo en 45 segundos, un minuto. No le tomé el tiempo, pero rapidísimo.

Ahora el modelo piensa antes de generar

¿Por qué es tan bueno? Primero, porque ahora piensa antes de generar. En algunos casos, incluso, esta es una novedad, no siempre tarda lo mismo.

Si vos le decís: una pelota de fútbol en el césped de una cancha, capaz que tarda 10 segundos. Si le decís una escena mucho más compleja, tarda más porque la tiene que pensar.

Por ejemplo: la escena es la siguiente. Está por comenzar un partido de la Copa del Mundo. Está el árbitro a la izquierda con un jugador de Croacia. Del otro lado está un jugador vestido con la camiseta de Brasil. Están en primer plano, el foco está en estos jugadores, en el árbitro y en la pelota.

Detrás, en un segundo plano, se ve colmado el estadio, con la gente, las banderas. Además hay un cartel, hay un equipo de televisión y hay una ardilla con anteojos y un celular grabando en vivo para su canal de Instagram.

Esta es una instrucción sumamente compleja. Por ende, el modelo se va a pensar todo. No solo a pensar: si yo en la instrucción le digo que esto se va a jugar en el estadio de la ciudad de Los Ángeles, el modelo va a ir a internet a buscar información de cómo es el estadio de Los Ángeles.

Y si le digo que el teléfono que tiene la ardilla es un iPhone 17, va a ir a buscar qué onda el teléfono. Y si le digo que los botines que tienen los jugadores son de tal modelo, va a ir a buscar. Como que se inventa menos las cosas.

Escenas más lógicas y resultados más usables

Esto significa que uno puede crear escenas con lógica y obtener principalmente resultados mucho más usables. El texto dentro de las imágenes es una locura.

Yo siempre sostuve que la inteligencia artificial servía para generar la imagen base, dejar un espacio negativo, llevarlo a Canva y ponerle textos. Hoy digo que depende del uso que le vayas a dar.

Si vos querés crear una única imagen, no querés crear por lote como suelo hacer yo, y meter 50, 60, 30 u 80 postes apretando un botón en Canva, en ese caso Canva sigue teniendo sentido.

Pero si vos querés crear una única imagen para subir a Instagram, casi te diría que ChatGPT, este modelo de imagen. ¿Por qué? Porque el texto es fenomenal.

Se pueden hacer piezas publicitarias completas. Cosas que antes eran imposibles. La consistencia de personajes es fenomenal.

Consistencia, si no lo sabés, es que no le cambia la cara. Por ejemplo, que vos digas: quiero hacer una foto de un joven de 28 años, vestido con ropa urbana. Después: ahora hacelo caminando. Ahora hacelo arriba de una moto.

La consistencia la mantiene, aunque vos no le proveas una imagen de referencia. Obviamente se va degradando. Si vos le pedís 50 imágenes del tipo, a la imagen número 7 ya la cara empieza a cambiar. De todas maneras es fenomenal.

Ya podés pensar en campañas, no en piezas sueltas

Personajes, estilos y estéticas sostenidas. Esto obliga o permite pensar no en piezas sueltas, sino en campañas.

Y si tenés la versión de ChatGPT Plus, puede generar hasta seis ideas simultáneas. Es una verdadera locura.

Yo lo estuve probando. Incluso lo estuve probando porque estoy haciendo mi primer curso, el curso de contenidos con inteligencia artificial para negocios. Lo estoy grabando y cuando corresponda te voy a contar.

Una de las clases tiene que ver con prompting. Dentro de las clases de prompting voy enseñando de lo más básico a lo más potente, a crear prompts donde uno tenga mayor control del resultado.

¿Qué sería lo más básico? Dibujame o dame la imagen de una vaca en el campo. ¿Qué sería lo más avanzado? Crearlo en formato JSON o XML, con etiquetado bien claro que diga sujetos, entorno, estilo, colores, etcétera, dependiendo de lo que le vamos a pedir.

El ejemplo de las camionetas en un pueblo de Buenos Aires

Utilizando este modelo le pedí que me creara una imagen de un pueblo de la provincia de Buenos Aires, República Argentina. Un pueblo de campo con una especie de negocio de esos que están en las ochavas, una suerte de bar.

Delante le pedí que pusiera una camioneta 4×4, una Ford Ranger. Me hizo la camioneta perfecto y la foto increíble.

Yo le pedí que la foto fuese de un estilo como si hubiese sido sacada por un celular de gama media o media alta, un Android o un iPhone, no en sus versiones más económicas entre comillas.

Quería una calidad que no pareciera perfecta, porque cuanto menos perfecto, más real, más creíble.

Después, con este prompt en JSON, lo único que tuve que cambiar donde decía Ford Ranger fue pedirle que fuese una Toyota Hilux gris. Todo idéntico, salvo que me puso otra camioneta.

Luego le dije que fuese una Volkswagen Amarok color verde militar. Perfecto. Y por último dije: me voy a ir al pasto, le voy a pedir una Nissan Frontier como si fuera dorada, como si fuera bañada en oro. Perfecto.

Delegar gran parte del contenido en inteligencia artificial

Entonces no solamente tenemos un modelo que funciona de maravilla, sino que además ahora sí podemos pensar en delegar gran parte de nuestro trabajo de creación de contenidos en la inteligencia artificial.

No digo todo, porque también el modelo tiene fallas. Pero gran parte sí. Cada vez se equivoca menos, te permite generar textos, entiende contextos.

Si vos le pasás, como en el ejemplo, una página web y le decís haceme un póster, entiende de qué se trata y arma algo usable.

Tengo también un amigo que actuó en una obra y va a ser del Sargento García, el personaje del Zorro. Le pasé una foto de él y le dije: haceme un póster tipo película de Hollywood. Increíble lo que hizo, en nada, en un minuto y medio.

Por eso vale la pena probar el nuevo modelo de imágenes de ChatGPT, Imagen 2.0. Lo podés probar en su versión gratuita y en la versión paga tenés más opciones.

Incluso te permite pedirle la relación de aspecto: si lo querés vertical, si lo querés horizontal, si lo querés como para YouTube. Es una locura lo que se puede hacer con esto.

No lo uses solo para pedir una imagen

Eso sí, importante: sacate de la cabeza la idea de «lo voy a usar para pedirle una imagen». No. Encará esto desde otro lugar.

La pregunta es cómo podés aprovechar esta tremenda tecnología para crear buen contenido, cantidad de contenido, un sistema que te permita publicar contenido para tu negocio en menor tiempo, de mayor calidad y de manera mucho más suficiente a cómo lo estás haciendo ahora.

Por eso, atenti. La inteligencia artificial ya te puede producir calidad profesional de agencia de publicidad.

Pero si vos no cambiás el chip en tu cabeza, los contenidos de tu negocio van a seguir dependiendo no de la limitación de los modelos, sino de la propia limitación que tenés vos en su uso.

Si querés que te ayude contame sobre tu negocio en el formulario.
Te voy a responder para decirte de qué manera puedo ayudarte a mejorar tu vida mejorando tu negocio con marketing.