SIGGRAPH 2026 · Tencent ARC Lab · Universidad Tsinghua

Generación 3D Alineada por Píxeles desde una Sola Imagen

Pixal3d proyecta las características de los píxeles directamente en el espacio 3D mediante condicionamiento por retroproyección — ofreciendo fidelidad casi de reconstrucción, geometría detallada y texturas PBR. Prueba la demo oficial de Hugging Face aquí abajo y explora el método, el flujo de trabajo y la tubería de producción.

  • Condicionamiento pixel-aligned
  • Volúmenes de retroproyección
  • Vista única o múltiple
  • Salida GLB + PBR
  • SIGGRAPH 2026
  • Backbone TRELLIS.2
La demo incrustada está tardando demasiado.

Esto puede ocurrir cuando el Hugging Face Space está en reposo, en cola o temporalmente no disponible. Usa el enlace del Space oficial arriba y conserva esta página como guía de flujo de trabajo.

Resumen del Artículo

Qué resuelve Pixal3d

Los recientes modelos generativos 3D han mejorado rápidamente la calidad de síntesis, pero la fidelidad — la exactitud a nivel de píxel respecto a la imagen de entrada — sigue siendo el cuello de botella central. Pixal3d aborda este problema de frente.

Del artículo arXiv (2605.10922) — SIGGRAPH 2026

La mayoría de los generadores 3D nativos sintetizan la forma en el espacio canónico e inyectan información de la imagen mediante atención, dejando ambiguas las asociaciones píxel-3D. Pixal3d genera en 3D de manera alineada por píxeles, consistente con la vista de entrada. Introduce un esquema de condicionamiento por retroproyección que eleva explícitamente las características de imagen multiescala en un volumen de características 3D — estableciendo una correspondencia directa píxel-3D sin ambigüedad. El resultado: assets 3D de alta calidad que se acercan al nivel de fidelidad de la reconstrucción, con extensión natural a la generación multi-vista y síntesis de escenas con objetos separados.

Por Qué es Importante

Alineado por píxeles, no solo condicionado por imagen

La innovación central de Pixal3d es la correspondencia explícita píxel-3D: cada punto 3D generado permanece directamente vinculado a la imagen de entrada, a diferencia de los métodos basados en atención que tratan las imágenes como orientación aproximada.

Mapeo directo píxel-3D

Las características de imagen multiescala se retroproyectan en un volumen de características 3D, haciendo que la vista de entrada forme parte del sistema de coordenadas de generación.

Fidelidad casi de reconstrucción

El artículo demuestra que Pixal3d se acerca a la fidelidad de una verdadera reconstrucción 3D, con geometría detallada y texturas PBR que coinciden fielmente con la imagen fuente.

Dos ramas disponibles

La rama main usa un backbone TRELLIS.2 mejorado. La rama paper conserva la implementación Direct3D-S2 original para reproducir los resultados de SIGGRAPH.

Listo para multi-vista

Pixal3d se extiende naturalmente a la generación multi-vista agregando volúmenes de características retroproyectados a través de múltiples ángulos de cámara.

Síntesis de escenas

Más allá de objetos individuales, el artículo muestra una tubería modular que produce escenas 3D de alta fidelidad con objetos separados desde imágenes.

Código abierto y gratis para probar

El código, los pesos del modelo y una demo interactiva Gradio están disponibles públicamente. Pruébalo ahora mismo en la demo incrustada de arriba.

Arquitectura Central

La tubería Pixal3d en tres partes

Comprender la arquitectura te ayuda a elegir mejores imágenes de entrada. Una silueta clara y zonas de material visibles proporcionan al condicionador señales más fuertes.

Aprendizaje de Representación Latente Estructurada Alineada por Píxeles

Un VAE comprime SDF dispersas alineadas por píxeles en latentes dispersos eficientes, permitiendo el manejo de formas de alta resolución en una representación compacta y aprendible.

Condicionador Basado en Retroproyección de Imagen

El diferenciador clave. En lugar de referirse vagamente a las características de la imagen mediante atención, Pixal3d eleva explícitamente las características 2D multiescala en volúmenes de características 3D mediante retroproyección calibrada.

Generación y Decodificación en Dos Etapas

Una etapa gruesa predice la estructura general, luego una etapa de detalle refina los latentes. El resultado se decodifica en una malla con mapas de textura PBR listos para renderizado.

Consejo práctico: Pixal3d funciona mejor con imágenes que muestran un solo sujeto con bordes limpios. Las caras ocultas, los materiales transparentes y la geometría muy ocluida siguen siendo desafíos — usa entrada multi-vista cuando la fidelidad en todos los lados sea importante.

Flujo de Producción

De una imagen a un asset 3D utilizable

La generación por IA es el punto de partida — la limpieza inteligente y la validación convierten la salida bruta en un asset listo para producción.

Prepara la imagen

Sujeto único, recorte centrado, silueta limpia, zonas de textura visibles. Evita marcas de agua, oclusiones fuertes e iluminación extrema.

Usa la ruta oficial

Usa la demo de Hugging Face de arriba, la ficha de modelo en Hugging Face, o clona el repositorio de GitHub para inferencia local.

Inspecciona el primer resultado

Gira el modelo, compara la vista frontal con la imagen fuente, verifica la completitud de la parte trasera, agujeros, flotadores, costuras UV y escala.

Limpia para el destino

GLB para vista previa WebGL, OBJ para limpieza en Blender, FBX para Unity o Unreal, STL o 3MF solo después de reparación estanca.

Documenta todo

Conserva la licencia de la imagen fuente, la rama/checkpoint usado, la configuración de generación, el formato de salida y los pasos de limpieza junto al asset.

Antes de la Generación

Verificador de idoneidad de imagen

No todas las imágenes son buenas candidatas para la generación 3D. Esta lista de verificación te da una forma repetible de decidir si vale la pena invertir tiempo de GPU.

Evalúa tu imagen fuente

0/100

Apunta a 75+ antes de invertir tiempo serio de limpieza.

Entrega de Assets

Crea un brief listo para Pixal3d

Un brief corto mantiene a los equipos alineados: qué muestra la imagen, a dónde irá el asset, qué formato importa, qué calidad debe sobrevivir a la exportación.

Generador de brief de asset


      
Mapa de Fuentes Oficiales

Dónde verificar los detalles de Pixal3d

Todos los recursos están disponibles públicamente. Usa estos enlaces como tu cadena de referencia principal y verifica los términos antes del uso comercial.

Rúbrica QA

Cómo juzgar un modelo generado

Un primer render bonito no es suficiente. Evalúa el asset como lo haría un artista técnico al evaluar una entrega.

DimensiónQué inspeccionarCondición de aprobación
Fidelidad de siluetaContorno frontal, proporciones e identidad reconocibleCoincide con la imagen fuente a simple vista desde la vista de entrada
Completitud geométricaParte trasera, lados, agujeros, flotadores y dirección de normalesGira sin colapso visible ni superficies faltantes
Comportamiento de materialesColor base, rugosidad, normales y costuras UVSe lee consistentemente bajo diferentes condiciones de iluminación
Usabilidad de topologíaConteo de polígonos, islas de malla, disposición UV, tolerancia a decimaciónPuede repararse, retopologizarse o decimarse sin caos
Fiabilidad de exportaciónImportación GLB/OBJ/FBX, rutas de texturas, punto de origen y escalaSe abre limpiamente en la herramienta de destino sin correcciones manuales
Notas para Desarrolladores

Instalación local y elección de rama

Usa el repositorio oficial para los requisitos exactos. Este resumen mantiene visible el árbol de decisión para consulta rápida.

Paso 1: Base TRELLIS.2

Sigue primero la guía de instalación de TRELLIS.2 — Pixal3d se construye sobre ella. La rama main usa el backbone TRELLIS.2 mejorado.

Paso 2: Dependencias Pixal3d

Instala las dependencias Python adicionales con pip install -r requirements.txt, luego instala utils3d desde la página de releases del proyecto.

Rama main

Implementación más reciente con backbone TRELLIS.2 mejorado para mejor rendimiento. Recomendada para nuevos proyectos y uso en producción.

Rama paper

Implementación Direct3D-S2 original. Usa esta rama para reproducir exactamente los resultados reportados en el artículo SIGGRAPH 2026.

Inferencia local

python inference.py --image assets/test_image/0.png --output ./output.glb tras instalar las dependencias. Se incluye una demo web Gradio mediante python app.py.

Requisitos GPU

El Hugging Face Space usa arquitectura GPU serie H. Para uso local, verifica los requisitos de TRELLIS.2.

Línea de Tiempo 2026

Hitos del proyecto

Eventos clave del proyecto Pixal3d, basados en el artículo, la página oficial, el README de GitHub y la ficha de modelo de Hugging Face.

  1. Versión mejorada basada en backbone TRELLIS.2 publicada con rendimiento mejorado.
  2. Código de inferencia y demo en línea Hugging Face Gradio disponibles públicamente.
  3. Envío arXiv 2605.10922 publicado con todos los detalles técnicos.
  4. Artículo aceptado en SIGGRAPH 2026 — la conferencia principal de gráficos por computadora.
Limitaciones

Lo que no hay que prometer en exceso

La buena comunicación técnica es honesta sobre los modos de fallo. Esto es lo que Pixal3d no puede garantizar.

Las superficies ocultas son inferidas

Una sola imagen no puede probar completamente la parte trasera. Usa múltiples vistas cuando la fidelidad en todos los lados sea importante para la producción.

Los derechos y licencias importan

No subas personajes protegidos por derechos de autor, assets de marcas registradas o imágenes privadas de clientes sin permiso explícito.

La producción requiere limpieza

Los assets listos para juegos, impresión 3D y comercio electrónico necesitan cada uno rutas de validación y posprocesamiento diferentes.

Las demos externas pueden fallar

Si el Hugging Face Space se duerme o tiene colas, el sitio se degrada con gracia a enlaces oficiales y guía de flujo de trabajo.

FAQ

Preguntas frecuentes sobre Pixal3d

Respuestas breves y directas para quienes quieren lo esencial sin leer el artículo completo.

¿Qué hace diferente a Pixal3d de otros métodos imagen-a-3D?

Pixal3d usa retroproyección de píxeles para mapear explícitamente las características 2D en el espacio 3D, creando una correspondencia directa píxel-3D. La mayoría de los otros métodos usan condicionamiento por atención, donde el vínculo es mucho más débil — de ahí la fidelidad significativamente superior de Pixal3d.

¿Puedo usar Pixal3d para proyectos comerciales?

Verifica la licencia del modelo en Hugging Face para los términos más actualizados. El código es de código abierto, pero los assets generados pueden tener condiciones de uso específicas.

¿Qué rama debo usar — main o paper?

Usa main para la versión más reciente con backbone TRELLIS.2 — recomendado para la mayoría de usuarios. Usa paper solo si necesitas reproducir exactamente los resultados SIGGRAPH 2026.

¿Pixal3d soporta entrada multi-vista?

Sí. El artículo afirma que Pixal3d se extiende naturalmente a la generación multi-vista agregando volúmenes de características retroproyectados en múltiples vistas.

¿Qué formato de salida debo elegir?

GLB para web y vista previa rápida; OBJ para edición de malla en Blender; FBX para motores de juego como Unity y Unreal; STL o 3MF solo después de reparación estanca para impresión 3D.

¿Por qué a veces no carga la demo incrustada?

Los Hugging Face Spaces usan GPUs compartidas con sistema de colas. Los Spaces también pueden entrar en modo reposo cuando están inactivos. La página incluye enlaces oficiales para acceder directamente.

Glosario

Términos clave

Definiciones rápidas para ayudar a los visitantes no investigadores a orientarse en la página.

Pixel-aligned
Un paradigma de generación donde las características 3D permanecen vinculadas a la vista de la imagen de entrada y a las posiciones individuales de los píxeles.
Retroproyección
El mapeo matemático de coordenadas y características de imagen 2D al espacio 3D — el mecanismo central de Pixal3d.
SDF dispersa
Una representación por Signed Distance Function de la forma 3D que puede comprimirse en latentes estructurados eficientes.
PBR
Physically Based Rendering — mapas de textura (color base, normales, rugosidad, metalicidad) que definen la interacción de la superficie con la luz.
GLB
Un formato de archivo glTF binario compacto comúnmente usado para visores 3D web y vistas previas rápidas multiplataforma.
Condicionador
En modelos generativos, el componente que procesa las señales de condicionamiento y las inyecta en el proceso de generación.
Referencia Académica

Cita

Usa la cita BibTeX oficial cuando Pixal3d informe tu investigación o redacción técnica.

@article{li2026pixal3d,
  title   = {Pixal3D: Pixel-Aligned 3D Generation from Images},
  author  = {Li, Dong-Yang and Zhao, Wang and Chen, Yuxin and Hu, Wenbo and Guo, Meng-Hao and Zhang, Fang-Lue and Shan, Ying and Hu, Shi-Min},
  journal = {arXiv preprint arXiv:2605.10922},
  year    = {2026}
}