Google ha mostrado un sistema de inteligencia artificial que crear imágenes basadas en la entrada de texto

Únete a nuestra comunidad en Telegram

HsíHeno una nueva tendencia en la IA: los generadores de texto a imagen. Alimenta estos programas con cualquier texto que desees y generarán imágenes notablemente precisas que coincidan con esa descripción. Pueden coincidir con una variedad de estilos, desde pinturas al óleo hasta renders CGI e incluso fotografías, y, aunque suene cliché, en muchos sentidos el único límite es su imaginación.

Hasta la fecha, el líder en el campo ha sido DALL-E, un programa creado por el laboratorio comercial de IA OpenAI (y actualizado en abril). Ayer, sin embargo, Google anunció su propia versión del género, Imagen, y acaba de desbancar a DALL-E en la calidad de su producción.

La mejor manera de entender la increíble capacidad de estos modelos es simplemente mirar algunas de las imágenes que pueden generar. Hay algunos generados por Imagen arriba, e incluso más abajo (puedes ver más ejemplos en la página de destino dedicada de Google).

En cada caso, el texto en la parte inferior de la imagen era el mensaje alimentado en el programa, y la imagen de arriba, la salida. Solo para enfatizar: eso es todo lo que se necesita. Escribes lo que quieres ver y el programa lo genera. Bastante fantástico, ¿verdad?

Pero si bien estas imágenes son innegablemente impresionantes en su coherencia y precisión, también deben tomarse con una pizca de sal. Cuando los equipos de investigación como Google Brain lanzan un nuevo modelo de IA, tienden a elegir los mejores resultados. Por lo tanto, aunque todas estas imágenes se ven perfectamente pulidas, es posible que no representen la salida promedio del sistema de imágenes.

RECUERDA: GOOGLE SOLO MUESTRA LAS MEJORES IMÁGENES

A menudo, las imágenes generadas por modelos de texto a imagen se ven inacabadas, manchadas o borrosas, problemas que hemos visto con las imágenes generadas por

Pero si bien estas imágenes son innegablemente impresionantes en su coherencia y precisión, también deben tomarse con una pizca de sal. Cuando los equipos de investigación como Google Brain lanzan un nuevo modelo de IA, tienden a elegir los mejores resultados. Por lo tanto, aunque todas estas imágenes se ven perfectamente pulidas, es posible que no representen la salida promedio del sistema de imágenes.

RECUERDA: GOOGLE SOLO MUESTRA LAS MEJORES IMÁGENES

A menudo, las imágenes generadas por modelos de texto a imagen se ven inacabadas, manchadas o borrosas, problemas que hemos visto con las imágenes generadas por el programa DALL-E de OpenAI. (Para obtener más información sobre los puntos problemáticos para los sistemas de texto a imagen, consulte este interesante hilo de Twitter que se sumerge en los problemas con DALL-E. Destaca, entre otras cosas, la tendencia del sistema a malinterpretar las indicaciones y luchar tanto con el texto como con las caras).

Google, sin embargo, afirma que Imagen produce consistentemente mejores imágenes que DALL-E 2, basándose en un nuevo punto de referencia que creó para este proyecto llamado DrawBench.

DrawBench no es una métrica particularmente compleja: es esencialmente una lista de unas 200 indicaciones de texto que el equipo de Google introdujo en Imagen y otros generadores de texto a imagen, con la salida de cada programa luego juzgada por evaluadores humanos. Como se muestra en los gráficos a continuación, Google descubrió que los humanos generalmente preferían la salida de Imagen a la de sus rivales.

El benchmark DrawBench de Google compara la salida de Imagen con sistemas rivales de texto a imagen como DALL-E 2 de OpenAI. 

Sin embargo, será difícil juzgar esto por nosotros mismos, ya que Google no está poniendo el modelo Imagen a disposición del público. También hay una buena razón para esto. Aunque los modelos de texto a imagen ciertamente tienen un potencial creativo fantástico, también tienen una gama de aplicaciones preocupantes. Imagina un sistema que genera casi cualquier imagen que te guste siendo utilizada para noticias falsas, bulos o acoso, por ejemplo. Como señala Google, estos sistemas también codifican sesgos sociales, y su producción es a menudo racista, sexista o tóxica de alguna otra manera inventiva.

LA VIEJA SABIDURÍA TODAVÍA SE APLICA A LA IA: BASURA ADENTRO, BASURA AFUERA

Mucho de esto se debe a cómo se programan estos sistemas. Esencialmente, están entrenados en grandes cantidades de datos (en este caso: muchos pares de imágenes y subtítulos) que estudian para patrones y aprenden a replicar. Pero estos modelos necesitan una gran cantidad de datos, y la mayoría de los investigadores, incluso aquellos que trabajan para gigantes tecnológicos bien financiados como Google, han decidido que es demasiado oneroso filtrar exhaustivamente esta entrada. Por lo tanto, raspan enormes cantidades de datos de la web y, como consecuencia, sus modelos ingieren (y aprenden a replicar) toda la odiosa bilis que esperaría encontrar en línea.

Como los investigadores de Google resumen este problema en su artículo: «[L]los requisitos de datos a gran escala de los modelos de texto a imagen […] han llevado a los investigadores a depender en gran medida de grandes conjuntos de datos, en su mayoría sin curar, extraídos de la web […] Las auditorías de conjuntos de datos han revelado que estos conjuntos de datos tienden a reflejar estereotipos sociales, puntos de vista opresivos y asociaciones despectivas o dañinas para grupos de identidad marginados».

En otras palabras, el desgastado adagio de los científicos informáticos todavía se aplica en el mundo de la IA: basura dentro, basura fuera.

Google no entra en demasiados detalles sobre el contenido preocupante generado por Imagen, pero señala que el modelo «codifica varios sesgos y estereotipos sociales, incluido un sesgo general hacia la generación de imágenes de personas con tonos de piel más claros y una tendencia a que las imágenes que retratan diferentes profesiones se alineen con los estereotipos de género occidentales».

Esto es algo que los investigadores también han encontrado al evaluar DALL-E. Pídale a DALL-E que genere imágenes de una «azafata», por ejemplo, y casi todos los sujetos serán mujeres. Pide fotos de un «CEO» y, sorpresa, sorpresa, obtienes un montón de hombres blancos.

Por esta razón, OpenAI también decidió no lanzar DALL-E públicamente, pero la compañía da acceso a probadores beta seleccionados. También filtra ciertas entradas de texto en un intento de evitar que el modelo se utilice para generar imágenes racistas, violentas o pornográficas. Estas medidas contribuyen de alguna manera a restringir las posibles aplicaciones dañinas de esta tecnología, pero la historia de la IA nos dice que tales modelos de texto a imagen casi seguramente se harán públicos en algún momento en el futuro, con todas las implicaciones preocupantes que trae un acceso más amplio.

La propia conclusión de Google es que Imagen «no es adecuado para el uso público en este momento», y la compañía dice que planea desarrollar una nueva forma de comparar el «sesgo social y cultural en el trabajo futuro» y probar futuras iteraciones. Por ahora, sin embargo, tendremos que estar satisfechos con la optimista selección de imágenes de la compañía: la realeza de mapaches y los cactus con gafas de sol. Sin embargo, eso es solo la punta del iceberg. El iceberg hecho de las consecuencias no deseadas de la investigación tecnológica, si Imagen quiere intentar generar eso.

Últimas noticias