Inicio - Ciencia y Tecnología - DALL-E 2: ¿cómo funciona y qué supone? La IA que crea imágenes de la nada y es, simplemente, perfecta y aterradora

DALL-E 2: ¿cómo funciona y qué supone? La IA que crea imágenes de la nada y es, simplemente, perfecta y aterradora

DALLE-2, la inteligencia artificial que puede revolucionar el mundo del arte

 

Es curioso cómo el advenimiento de la inteligencia artificial parece estar llegando por el lado que no esperábamos. Los intentos para que una IA nos ayude a conducir vehículos autónomos o sea el cerebro de robots que nos sustituyan en las tareas más repetitivas —con las implicaciones laborales que eso tiene—, parecen estar todavía lejos de llegar. Al menos, de forma masiva. Sin embargo, las imágenes que estas últimas semanas han recorrido internet con creaciones realizadas por DALL-E 2 e IMAGEN, las dos IA generativas más potentes jamás creadas, nos indican que, si en algo sí que parece que se está acercando la IA a los humanos no es en tareas mecánicas para darnos tiempo libre, sino en las más creativas.

DALL-E 2 es la segunda versión de la IA generativa creada por OpenAI, empresa fundada en sus orígenes por Elon Musk, quien luego saldría de su dirección, y que ha recibido una importante financiación por parte de Microsoft. DALL-E 2 funciona trabajando con bases de datos ingentes de las que es capaz de extraer y reconocer referencias tanto en texto como en imagen, formulando resultados que dejan con la boca abierta; en una mezcla de estupefacción y temor.

Esta es una de las varias opciones que da a la respuesta que DALL-E 2 da a la frase “osos de peluche trabajando en un laboratorio con estética steampunk”.

«Lo que parece evidente es que propuestas como DALL-E 2 van a convulsionar industrias enteras. La primera que viene a la mente es la de las imágenes de stock. Si con solo una frase podemos tener decenas de resultados, algunos realistas, otros en forma de ilustración, de fantasía, los bancos de imágenes pierden mucha relevancia, explica a Hipertextual Javier Ideami, ingeniero informático que ha desarrollado toda su carrera con un pie en lo técnico y otro en lo artístico, y que ahora mismo anda inmerso en las posibilidades de las IA generativas con su propia propuesta, Geniverse.co, una especie de lienzo digital que también devuelve imágenes partiendo de nuestras indicaciones.

A ello se ha sumado IMAGEN, un proyecto similar por parte de Google que se ha dado a conocer también estos días, en su caso mucho más enfocado a la generación de imágenes con enfoque realista.

“Creo que en muy pocos años, cuando estas tecnologías sean de dominio público y estén integradas en todos los dispositivos que usamos (inclusive los móviles), van a ser un agente del cambio con consecuencias que a día de hoy es muy difícil de predecir”, apunta por su parte Javier López, fundador de Erasmusu y que en los últimos tiempos se ha interesado e investigado en las posibilidades que ofrece estas nuevas formas de generación de imágenes.

Con ellos dos vamos a hacer un recorrido por cómo funciona DALL-E 2 y los retos y oportunidades que plantea.

“Funciona de forma similar al cerebro humano cuando evocamos recuerdos”

Imagen generada por DALL-E 2

Ideami cuenta con acceso a la beta de DALL-E, lo que le ha permitido ver todo su potencial. No la consiguió directamente a raíz de su actividad con Geniverse, sino por algo mucho más mundano. “En Miami, nos cruzamos con Sam Altman, el CEO de OpenAI, le comentamos nuestras iniciativas y nos dio acceso a la beta”.

Una IA generativa como DALL-E, funciona tomando como referencia un texto que le da un humano, una imagen de partida, o a veces ambas cosas, y se pone a identificar entre sus referencias imágenes que encajan con esas peticiones, para después transformarlas.

Ideami nos explica que el principal factor diferencial de DALL-E es el enorme dataset con el que trabaja (la cantidad de registros de los que toma información) y su forma de conectar peticiones tanto de texto y de imagen y entrelazarlas.

Lo diferencial de DALL-E es el enorme dataset con el que trabaja y cómo combina imágenes y texto al procesar

Metiéndonos en harina, la secuencia de DALL-E 2 funciona así:

  • Se capta la información: En primer lugar, se introduce un texto en un codificador que se entrena para asignar el texto a un espacio de representación concreto. Saber lo mejor posible qué estamos pidiendo.
  • Se busca en su enorme banco de ‘recuerdos’: A continuación, un modelo llamado prior asigna la codificación de texto a una codificación de imagen correspondiente que capta la información semántica del mensaje. La IA empieza a hacer match entre texto e imagen.
  • Se evoca la imagen: Por último, un modelo de decodificación de imágenes genera estocásticamente una imagen que es una manifestación visual de esta información semántica que entiende que le hemos dado.

Según nos sigue explicando Ideami, otro factor determinante de DALL-E es cómo consigue unir semánticamente texto e imágenes para generar mejores imágenes. Ahí entra en escena otro modelo de OpenAI llamado CLIP (Contrastive Language-Image Pre-training).

CLIP se entrena con cientos de millones de imágenes y sus subtítulos asociados, aprendiendo la relación que tiene un determinado fragmento de texto con una imagen. Es decir, en lugar de intentar predecir un pie de foto a partir de una imagen, CLIP se limita a aprender qué relación tiene un pie de foto determinado con una imagen. Este objetivo contrastivo, más que predictivo, permite a CLIP aprender el vínculo entre las representaciones textuales y visuales de un mismo objeto abstracto.

Imagen generada por DALL-E 2
Imagen generada por DALL-E 2

“CLIP es capaz de coger un montón de imágenes y de texto, trabajarlo en lo que en IA denominados un mismo espacio latente, y trabajar con ellos a nivel de alta abstracción desde el inicio”, explica el ingeniero.

Por último, entra en funcionamiento la descompresión de esa imagen para darnos el producto que vemos, que la máquina de OpenAI hace con su propio modelo de difusión, llamado GLIDE, de nuevo optimizado.

Si a estas alturas te sientes más perdido que los osos de peluche que habíamos dejado investigando una IA en la Luna durante los años 80, quizá esta infografía hecha también por Ideami te ayude:

La industria de las imágenes de stock puede ser la primera en caer por DALL-E 2

Ahora bien, ¿qué implicaciones puede tener una tecnología así? ¿Creativos, diseñadores o ilustradores deben sentirse amenazados?

Tanto Ideami como López creen que la industria de las fotos de stock es la que estaría más en la cuerda floja. Con respecto a actividades creativas, piensan que también podría obliga a una reformulación, aunque no necesariamente para mal.

Más noticias...

Google anuncia un cambio histórico para ganar la batalla de la IA: unifica sus equipos de hardware y software

Lejos quedaron los tiempos en los que el ritmo de innovación de Google daba vértigo. …

A %d blogueros les gusta esto: