Mapeo directo píxel-3D
Las características de imagen multiescala se retroproyectan en un volumen de características 3D, haciendo que la vista de entrada forme parte del sistema de coordenadas de generación.
Pixal3d proyecta las características de los píxeles directamente en el espacio 3D mediante condicionamiento por retroproyección — ofreciendo fidelidad casi de reconstrucción, geometría detallada y texturas PBR. Prueba la demo oficial de Hugging Face aquí abajo y explora el método, el flujo de trabajo y la tubería de producción.
Esto puede ocurrir cuando el Hugging Face Space está en reposo, en cola o temporalmente no disponible. Usa el enlace del Space oficial arriba y conserva esta página como guía de flujo de trabajo.
Los recientes modelos generativos 3D han mejorado rápidamente la calidad de síntesis, pero la fidelidad — la exactitud a nivel de píxel respecto a la imagen de entrada — sigue siendo el cuello de botella central. Pixal3d aborda este problema de frente.
La mayoría de los generadores 3D nativos sintetizan la forma en el espacio canónico e inyectan información de la imagen mediante atención, dejando ambiguas las asociaciones píxel-3D. Pixal3d genera en 3D de manera alineada por píxeles, consistente con la vista de entrada. Introduce un esquema de condicionamiento por retroproyección que eleva explícitamente las características de imagen multiescala en un volumen de características 3D — estableciendo una correspondencia directa píxel-3D sin ambigüedad. El resultado: assets 3D de alta calidad que se acercan al nivel de fidelidad de la reconstrucción, con extensión natural a la generación multi-vista y síntesis de escenas con objetos separados.
La innovación central de Pixal3d es la correspondencia explícita píxel-3D: cada punto 3D generado permanece directamente vinculado a la imagen de entrada, a diferencia de los métodos basados en atención que tratan las imágenes como orientación aproximada.
Las características de imagen multiescala se retroproyectan en un volumen de características 3D, haciendo que la vista de entrada forme parte del sistema de coordenadas de generación.
El artículo demuestra que Pixal3d se acerca a la fidelidad de una verdadera reconstrucción 3D, con geometría detallada y texturas PBR que coinciden fielmente con la imagen fuente.
La rama main usa un backbone TRELLIS.2 mejorado. La rama paper conserva la implementación Direct3D-S2 original para reproducir los resultados de SIGGRAPH.
Pixal3d se extiende naturalmente a la generación multi-vista agregando volúmenes de características retroproyectados a través de múltiples ángulos de cámara.
Más allá de objetos individuales, el artículo muestra una tubería modular que produce escenas 3D de alta fidelidad con objetos separados desde imágenes.
El código, los pesos del modelo y una demo interactiva Gradio están disponibles públicamente. Pruébalo ahora mismo en la demo incrustada de arriba.
Comprender la arquitectura te ayuda a elegir mejores imágenes de entrada. Una silueta clara y zonas de material visibles proporcionan al condicionador señales más fuertes.
Un VAE comprime SDF dispersas alineadas por píxeles en latentes dispersos eficientes, permitiendo el manejo de formas de alta resolución en una representación compacta y aprendible.
El diferenciador clave. En lugar de referirse vagamente a las características de la imagen mediante atención, Pixal3d eleva explícitamente las características 2D multiescala en volúmenes de características 3D mediante retroproyección calibrada.
Una etapa gruesa predice la estructura general, luego una etapa de detalle refina los latentes. El resultado se decodifica en una malla con mapas de textura PBR listos para renderizado.
Consejo práctico: Pixal3d funciona mejor con imágenes que muestran un solo sujeto con bordes limpios. Las caras ocultas, los materiales transparentes y la geometría muy ocluida siguen siendo desafíos — usa entrada multi-vista cuando la fidelidad en todos los lados sea importante.
La generación por IA es el punto de partida — la limpieza inteligente y la validación convierten la salida bruta en un asset listo para producción.
Sujeto único, recorte centrado, silueta limpia, zonas de textura visibles. Evita marcas de agua, oclusiones fuertes e iluminación extrema.
Usa la demo de Hugging Face de arriba, la ficha de modelo en Hugging Face, o clona el repositorio de GitHub para inferencia local.
Gira el modelo, compara la vista frontal con la imagen fuente, verifica la completitud de la parte trasera, agujeros, flotadores, costuras UV y escala.
GLB para vista previa WebGL, OBJ para limpieza en Blender, FBX para Unity o Unreal, STL o 3MF solo después de reparación estanca.
Conserva la licencia de la imagen fuente, la rama/checkpoint usado, la configuración de generación, el formato de salida y los pasos de limpieza junto al asset.
No todas las imágenes son buenas candidatas para la generación 3D. Esta lista de verificación te da una forma repetible de decidir si vale la pena invertir tiempo de GPU.
Apunta a 75+ antes de invertir tiempo serio de limpieza.
Un brief corto mantiene a los equipos alineados: qué muestra la imagen, a dónde irá el asset, qué formato importa, qué calidad debe sobrevivir a la exportación.
Todos los recursos están disponibles públicamente. Usa estos enlaces como tu cadena de referencia principal y verifica los términos antes del uso comercial.
Un primer render bonito no es suficiente. Evalúa el asset como lo haría un artista técnico al evaluar una entrega.
| Dimensión | Qué inspeccionar | Condición de aprobación |
|---|---|---|
| Fidelidad de silueta | Contorno frontal, proporciones e identidad reconocible | Coincide con la imagen fuente a simple vista desde la vista de entrada |
| Completitud geométrica | Parte trasera, lados, agujeros, flotadores y dirección de normales | Gira sin colapso visible ni superficies faltantes |
| Comportamiento de materiales | Color base, rugosidad, normales y costuras UV | Se lee consistentemente bajo diferentes condiciones de iluminación |
| Usabilidad de topología | Conteo de polígonos, islas de malla, disposición UV, tolerancia a decimación | Puede repararse, retopologizarse o decimarse sin caos |
| Fiabilidad de exportación | Importación GLB/OBJ/FBX, rutas de texturas, punto de origen y escala | Se abre limpiamente en la herramienta de destino sin correcciones manuales |
Usa el repositorio oficial para los requisitos exactos. Este resumen mantiene visible el árbol de decisión para consulta rápida.
Sigue primero la guía de instalación de TRELLIS.2 — Pixal3d se construye sobre ella. La rama main usa el backbone TRELLIS.2 mejorado.
Instala las dependencias Python adicionales con pip install -r requirements.txt, luego instala utils3d desde la página de releases del proyecto.
Implementación más reciente con backbone TRELLIS.2 mejorado para mejor rendimiento. Recomendada para nuevos proyectos y uso en producción.
Implementación Direct3D-S2 original. Usa esta rama para reproducir exactamente los resultados reportados en el artículo SIGGRAPH 2026.
python inference.py --image assets/test_image/0.png --output ./output.glb tras instalar las dependencias. Se incluye una demo web Gradio mediante python app.py.
El Hugging Face Space usa arquitectura GPU serie H. Para uso local, verifica los requisitos de TRELLIS.2.
Eventos clave del proyecto Pixal3d, basados en el artículo, la página oficial, el README de GitHub y la ficha de modelo de Hugging Face.
La buena comunicación técnica es honesta sobre los modos de fallo. Esto es lo que Pixal3d no puede garantizar.
Una sola imagen no puede probar completamente la parte trasera. Usa múltiples vistas cuando la fidelidad en todos los lados sea importante para la producción.
No subas personajes protegidos por derechos de autor, assets de marcas registradas o imágenes privadas de clientes sin permiso explícito.
Los assets listos para juegos, impresión 3D y comercio electrónico necesitan cada uno rutas de validación y posprocesamiento diferentes.
Si el Hugging Face Space se duerme o tiene colas, el sitio se degrada con gracia a enlaces oficiales y guía de flujo de trabajo.
Respuestas breves y directas para quienes quieren lo esencial sin leer el artículo completo.
Pixal3d usa retroproyección de píxeles para mapear explícitamente las características 2D en el espacio 3D, creando una correspondencia directa píxel-3D. La mayoría de los otros métodos usan condicionamiento por atención, donde el vínculo es mucho más débil — de ahí la fidelidad significativamente superior de Pixal3d.
Verifica la licencia del modelo en Hugging Face para los términos más actualizados. El código es de código abierto, pero los assets generados pueden tener condiciones de uso específicas.
Usa main para la versión más reciente con backbone TRELLIS.2 — recomendado para la mayoría de usuarios. Usa paper solo si necesitas reproducir exactamente los resultados SIGGRAPH 2026.
Sí. El artículo afirma que Pixal3d se extiende naturalmente a la generación multi-vista agregando volúmenes de características retroproyectados en múltiples vistas.
GLB para web y vista previa rápida; OBJ para edición de malla en Blender; FBX para motores de juego como Unity y Unreal; STL o 3MF solo después de reparación estanca para impresión 3D.
Los Hugging Face Spaces usan GPUs compartidas con sistema de colas. Los Spaces también pueden entrar en modo reposo cuando están inactivos. La página incluye enlaces oficiales para acceder directamente.
Definiciones rápidas para ayudar a los visitantes no investigadores a orientarse en la página.
Usa la cita BibTeX oficial cuando Pixal3d informe tu investigación o redacción técnica.
@article{li2026pixal3d,
title = {Pixal3D: Pixel-Aligned 3D Generation from Images},
author = {Li, Dong-Yang and Zhao, Wang and Chen, Yuxin and Hu, Wenbo and Guo, Meng-Hao and Zhang, Fang-Lue and Shan, Ying and Hu, Shi-Min},
journal = {arXiv preprint arXiv:2605.10922},
year = {2026}
}