Correspondance directe pixel-3D
Les caractéristiques d'image multi-échelles sont rétroprojetées dans un volume de caractéristiques 3D, faisant de la vue d'entrée une partie du système de coordonnées de génération.
Pixal3d projette les caractéristiques des pixels directement dans l'espace 3D via un conditionnement par rétroprojection — offrant une fidélité proche de la reconstruction, une géométrie détaillée et des textures PBR. Essayez la démo officielle Hugging Face ci-dessous, puis explorez la méthode, le workflow et le pipeline de production.
Cela peut arriver lorsque le Space Hugging Face est en veille, en file d'attente ou temporairement indisponible. Utilisez le lien du Space officiel ci-dessus et conservez cette page comme guide de workflow.
Les récents modèles génératifs 3D ont rapidement amélioré la qualité de synthèse, mais la fidélité — l'exactitude au niveau des pixels par rapport à l'image d'entrée — reste le goulot d'étranglement central. Pixal3d s'attaque directement à ce problème.
La plupart des générateurs 3D natifs synthétisent la forme dans l'espace canonique et injectent des indices visuels via l'attention, laissant les associations pixel-3D ambiguës. Pixal3d génère plutôt en 3D de manière alignée sur les pixels, cohérente avec la vue d'entrée. Il introduit un schéma de conditionnement par rétroprojection qui soulève explicitement les caractéristiques d'image multi-échelles dans un volume de caractéristiques 3D — établissant une correspondance directe pixel-3D sans ambiguïté. Le résultat : des assets 3D de haute qualité qui approchent le niveau de fidélité de la reconstruction, avec une extension naturelle à la génération multi-vue et à la synthèse de scènes avec objets séparés.
L'innovation centrale de Pixal3d est la correspondance explicite pixel-3D : chaque point 3D généré reste directement lié à l'image d'entrée, contrairement aux méthodes basées sur l'attention qui traitent les images comme un guidage approximatif.
Les caractéristiques d'image multi-échelles sont rétroprojetées dans un volume de caractéristiques 3D, faisant de la vue d'entrée une partie du système de coordonnées de génération.
L'article démontre que Pixal3d approche la fidélité d'une véritable reconstruction 3D, avec une géométrie détaillée et des textures PBR fidèles à l'image source.
La branche main utilise un backbone TRELLIS.2 amélioré. La branche paper préserve l'implémentation Direct3D-S2 originale pour reproduire les résultats SIGGRAPH.
Pixal3d s'étend naturellement à la génération multi-vue en agrégeant les volumes de caractéristiques rétroprojetés sur plusieurs angles de caméra.
Au-delà des objets isolés, l'article montre un pipeline modulaire produisant des scènes 3D haute fidélité avec objets séparés à partir d'images.
Le code, les poids du modèle et une démo interactive Gradio sont publiquement disponibles. Testez-la directement dans la démo intégrée ci-dessus.
Comprendre l'architecture vous aide à choisir de meilleures images d'entrée. Une silhouette claire et des zones de matériau visibles fournissent au conditionneur des signaux plus forts.
Un VAE compresse les SDF éparses alignées sur les pixels en latents épars efficaces, permettant la gestion de formes haute résolution dans une représentation compacte et apprenable.
Le différenciateur clé. Au lieu de se référer vaguement aux caractéristiques d'image via l'attention, Pixal3d soulève explicitement les caractéristiques 2D multi-échelles dans des volumes de caractéristiques 3D par rétroprojection calibrée.
Une étape grossière prédit la structure globale, puis une étape de détail affine les latents. Le résultat est décodé en un maillage avec des cartes de texture PBR prêtes pour le rendu.
Conseil pratique : Pixal3d fonctionne mieux avec des images montrant un sujet unique aux contours nets. Les faces cachées, les matériaux transparents et la géométrie fortement occultée restent des défis — utilisez l'entrée multi-vue lorsque la fidélité sur toutes les faces est importante.
La génération IA est le point de départ — le nettoyage intelligent et la validation transforment la sortie brute en un asset prêt pour la production.
Sujet unique, cadrage centré, silhouette nette, zones de texture visibles. Évitez les filigranes, les occlusions lourdes et l'éclairage extrême.
Utilisez la démo Hugging Face ci-dessus, la fiche modèle sur Hugging Face, ou clonez le dépôt GitHub pour l'inférence locale.
Faites pivoter le modèle, comparez la vue frontale à l'image source, vérifiez la complétion de la face arrière, les trous, les flotteurs, les coutures UV et l'échelle.
GLB pour l'aperçu WebGL, OBJ pour le nettoyage dans Blender, FBX pour Unity ou Unreal, STL ou 3MF seulement après réparation étanche.
Conservez la licence de l'image source, la branche/checkpoint utilisé, les paramètres de génération, le format de sortie et les étapes de nettoyage avec l'asset.
Toutes les images ne sont pas de bonnes candidates pour la génération 3D. Cette checklist vous donne un moyen reproductible de décider si une entrée mérite du temps GPU.
Visez 75+ avant d'investir du temps de nettoyage sérieux.
Un brief court garde les équipes alignées : ce que l'image montre, où l'asset ira, quel format compte, quelle qualité doit survivre à l'export.
Toutes les ressources sont publiquement disponibles. Utilisez ces liens comme chaîne de référence principale et vérifiez les conditions avant usage commercial.
Un joli premier rendu ne suffit pas. Évaluez l'asset comme un artiste technique évaluerait une livraison.
| Dimension | Ce qu'il faut inspecter | Condition de réussite |
|---|---|---|
| Fidélité de la silhouette | Contour frontal, proportions et identité reconnaissable | Correspond à l'image source au premier coup d'œil depuis la vue d'entrée |
| Complétude géométrique | Face arrière, côtés, trous, flotteurs et direction des normales | Tourne sans effondrement visible ni surfaces manquantes |
| Comportement des matériaux | Couleur de base, rugosité, normales et coutures UV | Se lit de manière cohérente sous différentes conditions d'éclairage |
| Utilisabilité de la topologie | Nombre de polygones, îlots de maillage, disposition UV, tolérance à la décimation | Peut être réparé, retopologisé ou décimé sans chaos |
| Fiabilité de l'export | Import GLB/OBJ/FBX, chemins de textures, point d'origine et échelle | S'ouvre proprement dans l'outil cible sans corrections manuelles |
Utilisez le dépôt officiel pour les exigences exactes. Ce résumé garde l'arbre de décision visible pour une consultation rapide.
Suivez d'abord le guide d'installation de TRELLIS.2 — Pixal3d se construit par-dessus. La branche main utilise le backbone TRELLIS.2 amélioré.
Installez les dépendances Python supplémentaires avec pip install -r requirements.txt, puis installez utils3d depuis la page des releases du projet.
Implémentation la plus récente avec backbone TRELLIS.2 amélioré pour de meilleures performances. Recommandée pour les nouveaux projets et l'usage en production.
Implémentation Direct3D-S2 originale. Utilisez cette branche pour reproduire exactement les résultats rapportés dans l'article SIGGRAPH 2026.
python inference.py --image assets/test_image/0.png --output ./output.glb après installation des dépendances. Une démo web Gradio est incluse via python app.py.
Le Hugging Face Space utilise une architecture GPU série H. Pour un usage local, vérifiez les exigences TRELLIS.2.
Événements clés du projet Pixal3d, basés sur l'article, la page officielle, le README GitHub et la fiche modèle Hugging Face.
Une bonne communication technique est honnête sur les modes de défaillance. Voici ce que Pixal3d ne peut pas garantir.
Une seule image ne peut pas prouver complètement la face arrière. Utilisez plusieurs vues quand la fidélité sur toutes les faces est importante pour la production.
Ne téléchargez pas de personnages protégés par le droit d'auteur, d'assets de marques déposées ou d'images clients privées sans permission explicite.
Les assets prêts pour le jeu, l'impression 3D et le e-commerce nécessitent chacun des parcours de validation et de post-traitement différents.
Si le Hugging Face Space se met en veille ou a des files d'attente, le site se dégrade gracieusement vers des liens officiels et des conseils de workflow.
Des réponses courtes et directes pour ceux qui veulent l'essentiel sans parcourir l'article complet.
Pixal3d utilise la rétroprojection de pixels pour mapper explicitement les caractéristiques 2D dans l'espace 3D, créant une correspondance directe pixel-3D. La plupart des autres méthodes utilisent un conditionnement par attention, où le lien est beaucoup plus lâche — d'où la fidélité nettement supérieure de Pixal3d.
Vérifiez la licence du modèle sur Hugging Face pour les conditions les plus récentes. Le code est open source, mais les assets générés peuvent avoir des conditions d'utilisation spécifiques.
Utilisez main pour la version la plus récente avec backbone TRELLIS.2 — recommandé pour la plupart des utilisateurs. Utilisez paper uniquement si vous devez reproduire exactement les résultats SIGGRAPH 2026.
Oui. L'article indique que Pixal3d s'étend naturellement à la génération multi-vue en agrégeant les volumes de caractéristiques rétroprojetés sur plusieurs vues.
GLB pour le web et l'aperçu rapide ; OBJ pour l'édition de maillage dans Blender ; FBX pour les moteurs de jeu comme Unity et Unreal ; STL ou 3MF seulement après réparation étanche pour l'impression 3D.
Les Hugging Face Spaces utilisent des GPU partagés avec un système de file d'attente. Les Spaces peuvent aussi se mettre en veille quand ils sont inactifs. La page inclut des liens officiels pour y accéder directement.
Définitions rapides pour aider les visiteurs non-chercheurs à s'orienter sur la page.
Utilisez la citation BibTeX officielle lorsque Pixal3d informe votre recherche ou votre rédaction technique.
@article{li2026pixal3d,
title = {Pixal3D: Pixel-Aligned 3D Generation from Images},
author = {Li, Dong-Yang and Zhao, Wang and Chen, Yuxin and Hu, Wenbo and Guo, Meng-Hao and Zhang, Fang-Lue and Shan, Ying and Hu, Shi-Min},
journal = {arXiv preprint arXiv:2605.10922},
year = {2026}
}