La evolución de la generación 3D a partir de la inteligencia artificial

 29-01-2025
Axel Olivares
   
Foto: Trellis 3D

Foto: Trellis 3D

En los últimos años, el campo de la inteligencia artificial experimentó avances significativos en la generación de modelos 3D a partir de imágenes 2D, marcando un punto de inflexión en industrias como el desarrollo de videojuegos, la animación y la simulación robótica. En este contexto, destaca Trellis, un modelo lanzado recientemente por Microsoft, que redefine los límites de la creación 3D con su enfoque innovador. Esta herramienta se posiciona como una de las más avanzadas en el ámbito, superando las capacidades de modelos anteriores como DreamFusion e InstantMesh.

Trellis tuvo un recorrido progresivo que comenzó con los NeRFs (campos de radiancia neuronal), introducidos por Mildenhall et al. en 2020. Este método demostró cómo generar nuevas vistas 3D a partir de unas pocas imágenes 2D, utilizando redes neuronales para modelar la geometría y densidad de una escena. Posteriormente, DreamFusion dio el salto hacia una generación más generalizada, integrando modelos de difusión 2D como base para optimizar campos de radiancia neuronal. A pesar de su innovación, DreamFusion presentaba limitaciones en la calidad y velocidad de inferencia. Modelos como LRM (Large Reconstruction Model) e InstantMesh buscaron mejorar la resolución y consistencia geométrica, sentando las bases para Trellis.

De acuerdo con Jarne Van den Herrewegen, ingeniero de inteligencia artificial y colaborador de Datameister, el funcionamiento de Trellis combina dos avances clave: el uso de vóxeles dispersos en lugar de mapas de características planos y la aplicación de Flow Matching en un espacio latente 3D. Estos enfoques permiten a Trellis generar geometrías de alta precisión y texturas mejoradas, además de ofrecer un control más refinado durante el proceso creativo. Cada modelo 3D generado por Trellis puede representarse como vóxeles, splats gaussianos, campos de radiancia neuronal o mallas texturizadas, adaptándose a las necesidades de los usuarios.

A nivel práctico, Trellis destaca por su facilidad de edición y versatilidad. Los creadores pueden modificar regiones específicas de los modelos 3D y reutilizar activos generados para iteraciones rápidas, una característica que lo diferencia de herramientas previas. Además, su licencia MIT lo convierte en una opción atractiva para desarrolladores interesados en proyectos comerciales y de código abierto.

Comparación con otras herramientas comerciales

Varias herramientas comerciales han surgido recientemente para competir en el ámbito de la generación 3D, incluyendo Rodin de Hyper3D, Tripo de TripoAI, SPAR3D de StabilityAI y Hunyuan3D-2 de Tencent. Aunque todas comparten el objetivo de convertir imágenes en modelos tridimensionales, cada una presenta fortalezas específicas:

  1. Tripo se destaca por la calidad de sus texturas, conservando detalles de las imágenes originales con una fidelidad excepcional.
  2. Rodin y Hunyuan3D-2 ofrecen un enfoque híbrido que combina generación geométrica y texturas avanzadas, con un notable nivel de precisión en geometrías complejas.
  3. SPAR3D se enfoca en la rapidez de inferencia, aunque sacrifica calidad en comparación con Trellis y sus competidores más cercanos.

Sin embargo, Trellis sobresale por su equilibrio entre calidad, facilidad de edición y control sobre el proceso generativo. Aún así enfrenta competencia en aspectos como texturizado y materiales.




DESCARGA LA NOTA  SÍGUENOS EN GOOGLE NEWS