SIGGRAPH 2026 · Tencent ARC Lab · Université Tsinghua

Génération 3D Alignée sur les Pixels à Partir d'une Seule Image

Pixal3d projette les caractéristiques des pixels directement dans l'espace 3D via un conditionnement par rétroprojection — offrant une fidélité proche de la reconstruction, une géométrie détaillée et des textures PBR. Essayez la démo officielle Hugging Face ci-dessous, puis explorez la méthode, le workflow et le pipeline de production.

  • Conditionnement pixel-aligned
  • Volumes de rétroprojection
  • Vue unique ou multiple
  • Sortie GLB + PBR
  • SIGGRAPH 2026
  • Backbone TRELLIS.2
La démo intégrée prend trop de temps.

Cela peut arriver lorsque le Space Hugging Face est en veille, en file d'attente ou temporairement indisponible. Utilisez le lien du Space officiel ci-dessus et conservez cette page comme guide de workflow.

Résumé de l'Article

Ce que Pixal3d résout

Les récents modèles génératifs 3D ont rapidement amélioré la qualité de synthèse, mais la fidélité — l'exactitude au niveau des pixels par rapport à l'image d'entrée — reste le goulot d'étranglement central. Pixal3d s'attaque directement à ce problème.

Extrait de l'article arXiv (2605.10922) — SIGGRAPH 2026

La plupart des générateurs 3D natifs synthétisent la forme dans l'espace canonique et injectent des indices visuels via l'attention, laissant les associations pixel-3D ambiguës. Pixal3d génère plutôt en 3D de manière alignée sur les pixels, cohérente avec la vue d'entrée. Il introduit un schéma de conditionnement par rétroprojection qui soulève explicitement les caractéristiques d'image multi-échelles dans un volume de caractéristiques 3D — établissant une correspondance directe pixel-3D sans ambiguïté. Le résultat : des assets 3D de haute qualité qui approchent le niveau de fidélité de la reconstruction, avec une extension naturelle à la génération multi-vue et à la synthèse de scènes avec objets séparés.

Pourquoi c'est Important

Aligné sur les pixels, pas seulement conditionné par l'image

L'innovation centrale de Pixal3d est la correspondance explicite pixel-3D : chaque point 3D généré reste directement lié à l'image d'entrée, contrairement aux méthodes basées sur l'attention qui traitent les images comme un guidage approximatif.

Correspondance directe pixel-3D

Les caractéristiques d'image multi-échelles sont rétroprojetées dans un volume de caractéristiques 3D, faisant de la vue d'entrée une partie du système de coordonnées de génération.

Fidélité proche de la reconstruction

L'article démontre que Pixal3d approche la fidélité d'une véritable reconstruction 3D, avec une géométrie détaillée et des textures PBR fidèles à l'image source.

Deux branches disponibles

La branche main utilise un backbone TRELLIS.2 amélioré. La branche paper préserve l'implémentation Direct3D-S2 originale pour reproduire les résultats SIGGRAPH.

Prêt pour le multi-vue

Pixal3d s'étend naturellement à la génération multi-vue en agrégeant les volumes de caractéristiques rétroprojetés sur plusieurs angles de caméra.

Synthèse de scènes

Au-delà des objets isolés, l'article montre un pipeline modulaire produisant des scènes 3D haute fidélité avec objets séparés à partir d'images.

Open source et gratuit à tester

Le code, les poids du modèle et une démo interactive Gradio sont publiquement disponibles. Testez-la directement dans la démo intégrée ci-dessus.

Architecture Centrale

Le pipeline Pixal3d en trois parties

Comprendre l'architecture vous aide à choisir de meilleures images d'entrée. Une silhouette claire et des zones de matériau visibles fournissent au conditionneur des signaux plus forts.

Apprentissage de Représentation Latente Structurée Alignée sur les Pixels

Un VAE compresse les SDF éparses alignées sur les pixels en latents épars efficaces, permettant la gestion de formes haute résolution dans une représentation compacte et apprenable.

Conditionneur Basé sur la Rétroprojection d'Image

Le différenciateur clé. Au lieu de se référer vaguement aux caractéristiques d'image via l'attention, Pixal3d soulève explicitement les caractéristiques 2D multi-échelles dans des volumes de caractéristiques 3D par rétroprojection calibrée.

Génération et Décodage en Deux Étapes

Une étape grossière prédit la structure globale, puis une étape de détail affine les latents. Le résultat est décodé en un maillage avec des cartes de texture PBR prêtes pour le rendu.

Conseil pratique : Pixal3d fonctionne mieux avec des images montrant un sujet unique aux contours nets. Les faces cachées, les matériaux transparents et la géométrie fortement occultée restent des défis — utilisez l'entrée multi-vue lorsque la fidélité sur toutes les faces est importante.

Workflow de Production

D'une image à un asset 3D utilisable

La génération IA est le point de départ — le nettoyage intelligent et la validation transforment la sortie brute en un asset prêt pour la production.

Préparez l'image

Sujet unique, cadrage centré, silhouette nette, zones de texture visibles. Évitez les filigranes, les occlusions lourdes et l'éclairage extrême.

Utilisez le chemin officiel

Utilisez la démo Hugging Face ci-dessus, la fiche modèle sur Hugging Face, ou clonez le dépôt GitHub pour l'inférence locale.

Inspectez le premier résultat

Faites pivoter le modèle, comparez la vue frontale à l'image source, vérifiez la complétion de la face arrière, les trous, les flotteurs, les coutures UV et l'échelle.

Nettoyez pour la destination

GLB pour l'aperçu WebGL, OBJ pour le nettoyage dans Blender, FBX pour Unity ou Unreal, STL ou 3MF seulement après réparation étanche.

Documentez tout

Conservez la licence de l'image source, la branche/checkpoint utilisé, les paramètres de génération, le format de sortie et les étapes de nettoyage avec l'asset.

Avant la Génération

Vérificateur de qualité d'image

Toutes les images ne sont pas de bonnes candidates pour la génération 3D. Cette checklist vous donne un moyen reproductible de décider si une entrée mérite du temps GPU.

Évaluez votre image source

0/100

Visez 75+ avant d'investir du temps de nettoyage sérieux.

Transfert d'Asset

Créez un brief prêt pour Pixal3d

Un brief court garde les équipes alignées : ce que l'image montre, où l'asset ira, quel format compte, quelle qualité doit survivre à l'export.

Générateur de brief d'asset


      
Carte des Sources Officielles

Où vérifier les détails de Pixal3d

Toutes les ressources sont publiquement disponibles. Utilisez ces liens comme chaîne de référence principale et vérifiez les conditions avant usage commercial.

Grille QA

Comment juger un modèle généré

Un joli premier rendu ne suffit pas. Évaluez l'asset comme un artiste technique évaluerait une livraison.

DimensionCe qu'il faut inspecterCondition de réussite
Fidélité de la silhouetteContour frontal, proportions et identité reconnaissableCorrespond à l'image source au premier coup d'œil depuis la vue d'entrée
Complétude géométriqueFace arrière, côtés, trous, flotteurs et direction des normalesTourne sans effondrement visible ni surfaces manquantes
Comportement des matériauxCouleur de base, rugosité, normales et coutures UVSe lit de manière cohérente sous différentes conditions d'éclairage
Utilisabilité de la topologieNombre de polygones, îlots de maillage, disposition UV, tolérance à la décimationPeut être réparé, retopologisé ou décimé sans chaos
Fiabilité de l'exportImport GLB/OBJ/FBX, chemins de textures, point d'origine et échelleS'ouvre proprement dans l'outil cible sans corrections manuelles
Notes Développeur

Installation locale et choix de branche

Utilisez le dépôt officiel pour les exigences exactes. Ce résumé garde l'arbre de décision visible pour une consultation rapide.

Étape 1 : Base TRELLIS.2

Suivez d'abord le guide d'installation de TRELLIS.2 — Pixal3d se construit par-dessus. La branche main utilise le backbone TRELLIS.2 amélioré.

Étape 2 : Dépendances Pixal3d

Installez les dépendances Python supplémentaires avec pip install -r requirements.txt, puis installez utils3d depuis la page des releases du projet.

Branche main

Implémentation la plus récente avec backbone TRELLIS.2 amélioré pour de meilleures performances. Recommandée pour les nouveaux projets et l'usage en production.

Branche paper

Implémentation Direct3D-S2 originale. Utilisez cette branche pour reproduire exactement les résultats rapportés dans l'article SIGGRAPH 2026.

Inférence locale

python inference.py --image assets/test_image/0.png --output ./output.glb après installation des dépendances. Une démo web Gradio est incluse via python app.py.

Exigences GPU

Le Hugging Face Space utilise une architecture GPU série H. Pour un usage local, vérifiez les exigences TRELLIS.2.

Chronologie 2026

Jalons du projet

Événements clés du projet Pixal3d, basés sur l'article, la page officielle, le README GitHub et la fiche modèle Hugging Face.

  1. Version améliorée basée sur le backbone TRELLIS.2 publiée avec des performances accrues.
  2. Code d'inférence et démo en ligne Hugging Face Gradio rendus publics.
  3. Soumission arXiv 2605.10922 publiée avec tous les détails techniques.
  4. Article accepté à SIGGRAPH 2026 — la conférence de référence en infographie.
Limitations

Ce qu'il ne faut pas trop promettre

Une bonne communication technique est honnête sur les modes de défaillance. Voici ce que Pixal3d ne peut pas garantir.

Les surfaces cachées sont inférées

Une seule image ne peut pas prouver complètement la face arrière. Utilisez plusieurs vues quand la fidélité sur toutes les faces est importante pour la production.

Les droits et licences comptent

Ne téléchargez pas de personnages protégés par le droit d'auteur, d'assets de marques déposées ou d'images clients privées sans permission explicite.

La production nécessite du nettoyage

Les assets prêts pour le jeu, l'impression 3D et le e-commerce nécessitent chacun des parcours de validation et de post-traitement différents.

Les démos externes peuvent échouer

Si le Hugging Face Space se met en veille ou a des files d'attente, le site se dégrade gracieusement vers des liens officiels et des conseils de workflow.

FAQ

Questions fréquentes sur Pixal3d

Des réponses courtes et directes pour ceux qui veulent l'essentiel sans parcourir l'article complet.

Qu'est-ce qui distingue Pixal3d des autres méthodes image-vers-3D ?

Pixal3d utilise la rétroprojection de pixels pour mapper explicitement les caractéristiques 2D dans l'espace 3D, créant une correspondance directe pixel-3D. La plupart des autres méthodes utilisent un conditionnement par attention, où le lien est beaucoup plus lâche — d'où la fidélité nettement supérieure de Pixal3d.

Puis-je utiliser Pixal3d pour des projets commerciaux ?

Vérifiez la licence du modèle sur Hugging Face pour les conditions les plus récentes. Le code est open source, mais les assets générés peuvent avoir des conditions d'utilisation spécifiques.

Quelle branche dois-je utiliser — main ou paper ?

Utilisez main pour la version la plus récente avec backbone TRELLIS.2 — recommandé pour la plupart des utilisateurs. Utilisez paper uniquement si vous devez reproduire exactement les résultats SIGGRAPH 2026.

Pixal3d prend-il en charge l'entrée multi-vue ?

Oui. L'article indique que Pixal3d s'étend naturellement à la génération multi-vue en agrégeant les volumes de caractéristiques rétroprojetés sur plusieurs vues.

Quel format de sortie dois-je choisir ?

GLB pour le web et l'aperçu rapide ; OBJ pour l'édition de maillage dans Blender ; FBX pour les moteurs de jeu comme Unity et Unreal ; STL ou 3MF seulement après réparation étanche pour l'impression 3D.

Pourquoi la démo intégrée ne se charge-t-elle parfois pas ?

Les Hugging Face Spaces utilisent des GPU partagés avec un système de file d'attente. Les Spaces peuvent aussi se mettre en veille quand ils sont inactifs. La page inclut des liens officiels pour y accéder directement.

Glossaire

Termes clés

Définitions rapides pour aider les visiteurs non-chercheurs à s'orienter sur la page.

Pixel-aligned
Un paradigme de génération où les caractéristiques 3D restent liées à la vue de l'image d'entrée et aux positions individuelles des pixels.
Rétroprojection
La correspondance mathématique des coordonnées et caractéristiques d'image 2D vers l'espace 3D — le mécanisme central de Pixal3d.
SDF éparse
Une représentation par Signed Distance Function de la forme 3D qui peut être compressée en latents structurés efficaces.
PBR
Physically Based Rendering — cartes de texture (couleur de base, normales, rugosité, métallicité) définissant l'interaction de la surface avec la lumière.
GLB
Un format de fichier glTF binaire compact couramment utilisé pour les visionneuses 3D web et les aperçus rapides multiplateformes.
Conditionneur
Dans les modèles génératifs, le composant qui traite les signaux de conditionnement et les injecte dans le processus de génération.
Référence Académique

Citation

Utilisez la citation BibTeX officielle lorsque Pixal3d informe votre recherche ou votre rédaction technique.

@article{li2026pixal3d,
  title   = {Pixal3D: Pixel-Aligned 3D Generation from Images},
  author  = {Li, Dong-Yang and Zhao, Wang and Chen, Yuxin and Hu, Wenbo and Guo, Meng-Hao and Zhang, Fang-Lue and Shan, Ying and Hu, Shi-Min},
  journal = {arXiv preprint arXiv:2605.10922},
  year    = {2026}
}