OpenAI lanza Point-E, que es como DALL-E, pero se utilizara para modelado 3D

Únete a nuestra comunidad en Telegram

OpenAI, la startup de inteligencia artificial fundada por Elon Musk detrás del popular generador de texto a imagen DALL-E, anunció el martes el lanzamiento de su nueva máquina de creación de imágenes POINT-E, que puede producir nubes de puntos 3D directamente desde mensajes de texto. Mientras que los sistemas existentes como DreamFusion de Google generalmente requieren varias horas, y GPU, para generar sus imágenes, Point-E solo necesita una GPU y un minuto o dos.

Hay un corgi en un sombrero de Papá Noel, un

El modelado 3D se utiliza en una variedad de industrias y aplicaciones. Los efectos CGI de los éxitos de taquilla de películas modernas, los videojuegos, la realidad virtual y la realidad aumentada, las misiones de mapeo de cráteres lunares de la NASA, los proyectos de preservación del sitio patrimonial de Google y la visión de Meta para el Metaverso dependen de las capacidades de modelado 3D. Sin embargo, la creación de imágenes 3D fotorrealistas sigue siendo un proceso que consume recursos y mucho tiempo, a pesar del trabajo de NVIDIA para automatizar la generación de objetos y la aplicación móvil RealityCapture de Epic Game, que permite a cualquier persona con un teléfono iOS escanear objetos del mundo real como imágenes 3D.

Los sistemas de texto a imagen como DALL-E 2 y Craiyon de OpenAI, DeepAI, Lensa de Prisma Lab o Stable Diffusion de HuggingFace, han ganado rápidamente popularidad, notoriedad e infamia en los últimos años. Text-to-3D es una rama de esa investigación. Point-E, a diferencia de sistemas similares, «aprovecha un gran corpus de pares (texto, imagen), lo que le permite seguir indicaciones diversas y complejas, mientras que nuestro modelo de imagen a 3D está entrenado en un conjunto de datos más pequeño de pares (imagen, 3D)», escribió el equipo de investigación de OpenAI dirigido por Alex Nichol en Point · E: A System for Generating 3D Point Clouds from Complex Prompts, publicado la semana pasada. «Para producir un objeto 3D a partir de un mensaje de texto, primero muestreamos una imagen utilizando el modelo de texto a imagen y luego muestreamos un objeto 3D condicionado a la imagen muestreada. Ambos pasos se pueden realizar en varios segundos y no requieren costosos procedimientos de optimización».

Point-E

Si tuviera que ingresar un mensaje de texto, por ejemplo, «Un gato comiendo un burrito», Point-E primero generará una representación 3D de vista sintética de dicho gato que come burritos. Luego ejecutará esa imagen generada a través de una serie de modelos de difusión para crear la nube de puntos 3D y RGB de la imagen inicial, produciendo primero un modelo de nube gruesa de 1.024 puntos, luego un más fino de 4.096 puntos. «En la práctica, asumimos que la imagen contiene la información relevante del texto y no condicionamos explícitamente las nubes de puntos en el texto», señala el equipo de investigación.

Estos modelos de difusión fueron entrenados en «millones» de modelos 3D, todos convertidos a un formato estandarizado. «Si bien nuestro método funciona peor en esta evaluación que las técnicas de vanguardia», admite el equipo, «produce muestras en una pequeña fracción del tiempo». Si desea probarlo usted mismo, OpenAI ha publicado el código fuente abierto del proyecto en Github.

Últimas noticias