DALL-E genera 2 millones de imágenes al día según Open AI: ¿Qué potencial tiene el arte generado por IA?

Si a esta altura del año no has oído hablar de los nuevos programas de inteligencia artificial que generan imágenes en cosas de segundos a partir de un comando escrito probablemente eres un náufrago en una isla en mitad de cualquier océano, por lo que tampoco podrías leer este artículo. Aunque no tengas acceso a internet es difícil que alguno de tus amigos o conocidos no te haya mostrado alguna de las imágenes generadas por estos programas que inundan sus feed de Instagram o cualquier red social.

Esto es precisamente por la facilidad con que se pueden producir estas imágenes, una facilidad nunca antes vista. La misma que permite que el volumen de creación sea inaudito. En comparación a la cantidad de imágenes generadas por humanos el ritmo de creación de estos programas es como si pusieras a competir una tortuga con Usain Bolt. Para poner un precedente, el sitio de imágenes de stock, Getty, cuenta con un catálogo de 80 millones de imágenes. Shutterstock, rival de Getty, ofrece 415 millones de imágenes. Se han necesitado varias décadas para crear estas prodigiosas bibliotecas.

Advierto que todas las imágenes que acompañarán este artículos son generadas por DALL-E 2, y los créditos corresponden a Open AI, aunque los comandos textuales los haya generado yo u otros usuarios.

‍

Estas cifras palidecen con el ritmo de creación de uno de los programas de arte generado por inteligencia artificial. La semana pasada, OpenAI publicó en su blog que su algoritmo de aprendizaje automático, DALL-E 2, genera más de dos millones de imágenes al día. A ese ritmo, su producción equivaldría a la de Getty y Shutterstock juntas en ocho meses. El algoritmo está produciendo casi tantas imágenes diarias como toda la colección del sitio de imágenes gratuitas Unsplash.

Y eso fue antes de que OpenAI abriera DALL-E 2 a todo el mundo. Hasta la semana pasada, el acceso estaba restringido, y había una lista de espera de personas ansiosas por poner sus manos en el algoritmo. El objetivo de la entrada del blog en la que aparecía el número era anunciar que DALL-E 2 está ahora abierto al público en general. Un gran anuncio considerando que otros algoritmos similares ya están disponibles de forma gratuita. Por tanto, es probable que el ritmo se acelere a partir de ahora y el caudal de nuevas imágenes se duplique o triplique en cosa de semanas.

No está demás señalar que la comparación con los otros sitios es algo injusta si incluimos en la operación la calidad de las imágenes en cuestión. La calidad de la imagen media de Shutterstock o Getty es en su mayoría más alta, y los sitios también ofrecen imágenes editoriales de eventos actuales. Mientras tanto, DALL-E 2 y otros algoritmos generan múltiples imágenes para cada pregunta, la calidad de la imagen varía mucho y el mejor trabajo requiere ser pulido por una mano experta. Con eso en mente, está claro que DALL-E y otros programas similares son máquinas de hacer imágenes sin precedentes.

Despliegue por fases

DALL-E 2, lanzada a principios de este año, ha sido uno de los protagonistas más glamurosos del mundo tecnológico durante este año. A diferencia de su predecesor, que OpenAI presentó por primera vez en 2021 y que producía creaciones notablemente imperfectas, DALL-E 2 crea imágenes fotorrealistas con una indicación de texto. Los usuarios pueden mezclar y combinar elementos inusuales, como pedir un astronauta montando sobre una tortuga robot con propulsores a chorro, y estilos de artistas específicos, como un castillo flotando en el aire con el estilo de Van Gogh.

Para limitar el uso indebido y filtrar mejor los resultados del algoritmo, OpenAI ha realizado un lanzamiento por fases. DALL-E 2 y otros algoritmos similares, que han sido entrenados con millones de imágenes y leyendas en línea, son susceptibles de sufrir sesgos en sus conjuntos de datos, así como un uso indebido por parte de los usuarios. OpenAI publicó un artículo sobre DALL-E 2 en abril y presentó el algoritmo a 200 artistas, investigadores y otros usuarios. Al mes siguiente, ampliaron la vista previa a 1.000 usuarios por semana y luego extendieron el acceso al algoritmo en versión beta, con precio, a un millón de personas.

"La ampliación responsable de un sistema tan potente y complejo como DALL-E -mientras se aprende sobre todas las formas creativas en que se puede utilizar y mal utilizar- ha requerido un enfoque de despliegue iterativo", escribió la empresa en la entrada del blog. Durante el despliegue, OpenAI ha tenido en cuenta los comentarios de los usuarios y los ha traducido en correcciones técnicas para reducir el sesgo y en filtros para evitar el contenido inapropiado. También están empleando un equipo de moderadores para vigilar las cosas. Queda por ver si este enfoque se amplía, ya que millones de imágenes se convierten en decenas de millones y más, pero el equipo confía lo suficiente en el producto como para seguir adelante con el lanzamiento completo.

El arte generado por inteligencia artificial apenas está comenzando

Este fenómeno se ha estado cocinando en los equipos de investigación y desarrollo de distintas compañías durante los últimos años, pero este año ha sido el punto de partida de lo que parece ser una revolución en cuanto al acceso a la creatividad artística. Los competidores siguieron rápidamente los pasos de DALL-E. Primero fue DALL-E Mini -ahora Craiyon-, un generador de imágenes de menor calidad, pero gratuito, aprovechado por siempre ávidos usuarios de Internet para fabricar memes. Los algoritmos de mayor calidad son Midjourney y Stable Diffusion. Google incluso ha entrado en el juego con su algoritmo Imagen (aunque la empresa lo ha mantenido en secreto hasta ahora). Si se suman a la producción de DALL-E 2, el volumen de arte de la IA crecerá rápidamente.

A principios de este verano, Stable Diffusion afirmó que su algoritmo ya producía dos millones de imágenes al día durante las pruebas. Cuando la plataforma alcanzó el millón de usuarios a mediados de septiembre, el fundador de Stable Diffusion, Emad Mostaque, tuiteó: "Imagino que llegaremos a los mil millones de imágenes al día más pronto que tarde, sobre todo cuando nos enfoquemos en la animación”.

Evidentemente este explosivo fenómeno ha levantado muchas controversias en el mundo de los diseñadores y artistas que dedican horas de su trabajo a generar imágenes y obras de arte que estos programas tardan minutos en realizar, aunque sea en una forma embrionaria en contraste al resultado final de los artistas humanos. Una pieza de arte de IA generada en Midjourney por Jason Allen ganó recientemente la cinta azul de arte digital en la Feria Estatal de Colorado. No es difícil ver por qué. La pieza es hermosa y evocadora. Sin embargo, muchos artistas han expresado su descontento en Twitter.

Uno de los síntomas principales de este descontento es la preocupación de los artistas ante la posibilidad de que los algoritmos reduzcan la cantidad de trabajo de los diseñadores gráficos. La combinación de calidad, velocidad y volumen con la limitada habilidad especializada requerida puede hacer que las empresas elijan una creación algorítmica rápida en lugar de contratar a un diseñador.

Recientemente, Ars Technica informó de que Shutterstock ya albergaba miles de imágenes realizadas por la IA. Poco después se supo que el sitio estaba retirando algunas. Mientras tanto, Getty prohibió el arte de la IA en su plataforma, alegando problemas de derechos de autor. El panorama legal sigue siendo incierto y puede cambiar.

"Por el momento, el contenido generado por IA se revisará de la misma manera que cualquier otro tipo de ilustración digital", dijo Shutterstock a Quartz la semana pasada. "Esto puede cambiar de un momento a otro a medida que aprendamos más sobre las imágenes sintéticas". A otros les preocupa que la capacidad de imitar de cerca el estilo de un artista en activo pueda afectar negativamente al valor y la visibilidad de su trabajo. Tampoco está claro lo que se debe a los artistas cuyas creaciones ayudaron a entrenar los algoritmos. Los desarrolladores expresaron una preocupación similar el año pasado cuando OpenAI publicó algoritmos de codificación entrenados en repositorios abiertos de código.

Pero no todo el mundo está de acuerdo en que el arte de la IA vaya a sustituir tan fácilmente a los diseñadores y artistas cualificados una vez que se acabe la novedad. Y la comunidad puede seguir limando asperezas, como la decisión de entrenar los algoritmos sólo con obras de dominio público o permitir que los artistas se excluyan. (Ya existe una herramienta para que los artistas vean si sus creaciones se incluyen en los datos de entrenamiento).

Hace unos años la comprensión popular sobre la inteligencia artificial era más bien vaga. Si bien la mayoría de nosotros tiene nociones de cómo funcionan algunos de los algoritmos para elegir que mostrar en tu feed de Twitter o Instagram, no solemos parar a pensar mucho en las implicaciones de estas tecnologías. Como usuarios solemos aceptar las novedades y leer los términos de uso, pero adaptarnos a los cambios sin pensar en todo lo que hay detrás. Pero a veces hay nuevas tecnologías que nos asombran y motivan más de lo común, entregando nuevas posibilidades que antes definitivamente no teníamos.

Este pareces ser el caso de los generadores de imágenes potenciados por la inteligencia artificial, y su impacto a solo meses de los lanzamientos es un indicador de lo que están provocando. "Hemos visto mucho más interés del que habíamos previsto, mucho más grande del que había para la GPT-3", dijo el vicepresidente de productos y asociaciones de OpenAI, Peter Welinder, a MIT Technology Review en julio.

Esta nueva tendencia apenas está en pañales, con las controversias de los derechos y los Deep fake ya disparadas en la red, pero la próxima fase nos puede dejar más boquiabiertos y acomplejados, pues lo próximo será la generación de videos. Los desarrolladores de IA ya tienen en cuenta el vídeo. La semana pasada, Meta presentó el que quizá sea el algoritmo más avanzado hasta la fecha. Aunque su resultado dista mucho de ser perfecto, el ritmo de mejora sugiere que no tendremos que esperar mucho. Si la transición de la cámara fotográfica a las primeras secuencias cinematográficas duró casi un siglo, esta parece ser que apenas tardara un año o un poco más. Asombroso.

Para quienes quieres usar esta fascinante tecnología y plasmar las infinitas posibilidades que incubamos en nuestra imaginación les recomendamos un libro que sirve como guía para mejorar las prompt –las entradas de texto que generan las imágenes-, al que pueden acceder en este link.

El futuro del arte generado por IA y el rol potencial de Neuralink en esta revolución

Considerando que esta tendencia está recién comenzando podemos extrapolar y proyectarnos un poco más en el futuro para tratar de imaginar en qué punto se hallará esta tecnología. Pensemos por un momento en lo que ocurrirá en la siguiente década. Si asumimos que pronto estará disponible la posibilidad de generar videos con simples comandos textuales, no es difícil llegar a la conclusión que más temprano que tarde comenzaremos a ver los primeros cortometrajes realizados solo mediante la generación de estas inteligencias artificiales. De allí a las películas hay un trecho corto.

Ahora, que pasará cuando podamos establecer un vínculo directo con nuestro cerebro para plasmar lo que imaginamos con mucha más fidelidad, sin necesidad de un comando de texto. Si esto en principio suena a ciencia ficción no es algo que está fuera del rango de lo posible. Todo lo contrario. Gracias a las interfaces cerebro-computador como la diseñada por Neuralink, la compañía de Elon Musk, es cosa de tiempo para que, gracias al progreso de la ingeniería en materiales y nuestra comprensión sobre el cerebro, sea posible plasmar con imágenes lo que vemos con nuestro ojo interior o lo que soñamos.

Ya hay precedentes, bastante rudimentarios, por cierto, en los que se proyecta en imágenes bastante pixeladas lo que sueña una persona. La gracia del estado actual de los generadores de imágenes es que basta un comando de texto para plasmar algo que imaginamos. Pero en la mayoría de los casos el resultado dista bastante de lo que tenemos en mente si no dominamos los códigos específicos que ayudan a conseguir un resultado más fidedigno a lo que imaginamos. Es por esto que si pudiéramos ahorrarnos de la operación el intermedio del texto los resultados podrían ser aún más peculiares y asombrosos.

Recordemos que estos modelos funcionan sobre la base un conjunto de millones de imágenes en los que fueron entrenados, pero ninguna de esas imágenes está producida directamente por la imaginación de un cerebro humano. Así que de ser posible hacerlo de esa manera la posibilidad de plasmar nuestros sueños, distintos a los de todos los demás en sus detalles, y las imágenes que se nos vienen a la cabeza cuando nos ponemos imaginativos, sería una realidad que aumentaría la creatividad humana a nivel global. Cada uno tendría la opción de compartir con sus amigos y seres queridos lo que imagina con una transparencia que ahora simplemente nos está negada. Esto tendría un profundo efecto en la forma en que nos comunicamos y alteraría el colectivo humano en una explosión de creatividad nunca antes vista.

Aún estamos lejos de ese escenario, pero el que podamos desde ahora generar imágenes con una simple frase es un avance que ni siquiera estaba en nuestros planes hace una o dos décadas. Así que es un paso firme y decisivo en esa dirección. Una demostración del potencial benéfico que tiene la inteligencia artificial si se programa y utiliza con el fin de ampliar nuestra capacidad creativa y permitir que cualquier persona pueda plasmar lo que antes habitaba recluido en la caverna de su cabeza.

Estamos comenzando a experimentar una revolución que tendrá alcances insospechados y el arte y la forma de comunicarnos unos a otros están cambiando a un ritmo vertiginoso. La cosecha depende de nuestras intenciones y de la pericia de los programadores detrás de estas fascinantes tecnologías. Si cooperamos quizá obtendremos el mejor resultado posible, respetando la autoría de los artistas actuales, pero también potenciando la creatividad de quienes antes no se creían capaces de hacer una obra de arte y ahora sí lo pueden hacer gracias a esta tecnología.

‍

Neura Pod

Ryan Tanaka

A channel about all things Neuralink

DALL-E genera 2 millones de imágenes al día según Open AI: ¿Qué potencial tiene el arte generado por IA?

Despliegue por fases

El arte generado por inteligencia artificial apenas está comenzando

El futuro del arte generado por IA y el rol potencial de Neuralink en esta revolución

Neura Pod

Latest articles

Can Neuralink Write to the Brain? Speed and Feasibility Explored

Neuralink User Data Rights: What Protections Do You Have?

How Fast Can Neuralink Read the Brain? Speed Breakdown