Qu'est-ce que Pixal3d ?

Pixal3d est une méthode SIGGRAPH 2026 qui utilise la rétroprojection alignée sur les pixels pour générer des assets 3D haute fidélité à partir d'une seule image.

Pixal3d peut-il créer un modèle 3D à partir d'une image ?

Oui, c'est le workflow principal. Les meilleurs résultats s'obtiennent avec une image propre à sujet unique, silhouette visible et régions de matériau claires.

Quel format de sortie dois-je utiliser ?

GLB pour l'aperçu web, OBJ pour le nettoyage de maillage, FBX pour les moteurs de jeu, STL ou 3MF seulement après réparation étanche.

SIGGRAPH 2026 · Tencent ARC Lab · Université Tsinghua

Génération 3D Alignée sur les Pixels à Partir d'une Seule Image

Q: Pixal3d prend-il en charge l'entrée multi-vue ?

Oui, l'article indique que Pixal3d s'étend naturellement à la génération multi-vue en agrégeant les volumes de caractéristiques rétroprojetés.

Q: Pourquoi la démo intégrée ne se charge-t-elle parfois pas ?

Les Spaces Hugging Face peuvent se mettre en veille, avoir des files d'attente ou être temporairement indisponibles. La page fournit tous les liens officiels.

Pixal3d projette les caractéristiques des pixels directement dans l'espace 3D via un conditionnement par rétroprojection — offrant une fidélité proche de la reconstruction, une géométrie détaillée et des textures PBR. Essayez la démo officielle Hugging Face ci-dessous, puis explorez la méthode, le workflow et le pipeline de production.

Évaluez votre image Voir la méthode Ouvrir le Space officiel

Conditionnement pixel-aligned
Volumes de rétroprojection
Vue unique ou multiple
Sortie GLB + PBR
SIGGRAPH 2026
Backbone TRELLIS.2

La démo intégrée prend trop de temps.

Cela peut arriver lorsque le Space Hugging Face est en veille, en file d'attente ou temporairement indisponible. Utilisez le lien du Space officiel ci-dessus et conservez cette page comme guide de workflow.

Résumé de l'Article

Ce que Pixal3d résout

Les récents modèles génératifs 3D ont rapidement amélioré la qualité de synthèse, mais la fidélité — l'exactitude au niveau des pixels par rapport à l'image d'entrée — reste le goulot d'étranglement central. Pixal3d s'attaque directement à ce problème.

Extrait de l'article arXiv (2605.10922) — SIGGRAPH 2026

La plupart des générateurs 3D natifs synthétisent la forme dans l'espace canonique et injectent des indices visuels via l'attention, laissant les associations pixel-3D ambiguës. Pixal3d génère plutôt en 3D de manière alignée sur les pixels, cohérente avec la vue d'entrée. Il introduit un schéma de conditionnement par rétroprojection qui soulève explicitement les caractéristiques d'image multi-échelles dans un volume de caractéristiques 3D — établissant une correspondance directe pixel-3D sans ambiguïté. Le résultat : des assets 3D de haute qualité qui approchent le niveau de fidélité de la reconstruction, avec une extension naturelle à la génération multi-vue et à la synthèse de scènes avec objets séparés.

Pourquoi c'est Important

Aligné sur les pixels, pas seulement conditionné par l'image

L'innovation centrale de Pixal3d est la correspondance explicite pixel-3D : chaque point 3D généré reste directement lié à l'image d'entrée, contrairement aux méthodes basées sur l'attention qui traitent les images comme un guidage approximatif.

Correspondance directe pixel-3D

Les caractéristiques d'image multi-échelles sont rétroprojetées dans un volume de caractéristiques 3D, faisant de la vue d'entrée une partie du système de coordonnées de génération.

Fidélité proche de la reconstruction

L'article démontre que Pixal3d approche la fidélité d'une véritable reconstruction 3D, avec une géométrie détaillée et des textures PBR fidèles à l'image source.

Deux branches disponibles

La branche main utilise un backbone TRELLIS.2 amélioré. La branche paper préserve l'implémentation Direct3D-S2 originale pour reproduire les résultats SIGGRAPH.

Prêt pour le multi-vue

Pixal3d s'étend naturellement à la génération multi-vue en agrégeant les volumes de caractéristiques rétroprojetés sur plusieurs angles de caméra.

Synthèse de scènes

Au-delà des objets isolés, l'article montre un pipeline modulaire produisant des scènes 3D haute fidélité avec objets séparés à partir d'images.

Open source et gratuit à tester

Le code, les poids du modèle et une démo interactive Gradio sont publiquement disponibles. Testez-la directement dans la démo intégrée ci-dessus.

Architecture Centrale

Le pipeline Pixal3d en trois parties

Comprendre l'architecture vous aide à choisir de meilleures images d'entrée. Une silhouette claire et des zones de matériau visibles fournissent au conditionneur des signaux plus forts.

Apprentissage de Représentation Latente Structurée Alignée sur les Pixels

Un VAE compresse les SDF éparses alignées sur les pixels en latents épars efficaces, permettant la gestion de formes haute résolution dans une représentation compacte et apprenable.

Conditionneur Basé sur la Rétroprojection d'Image

Le différenciateur clé. Au lieu de se référer vaguement aux caractéristiques d'image via l'attention, Pixal3d soulève explicitement les caractéristiques 2D multi-échelles dans des volumes de caractéristiques 3D par rétroprojection calibrée.

Génération et Décodage en Deux Étapes

Une étape grossière prédit la structure globale, puis une étape de détail affine les latents. Le résultat est décodé en un maillage avec des cartes de texture PBR prêtes pour le rendu.

Conseil pratique : Pixal3d fonctionne mieux avec des images montrant un sujet unique aux contours nets. Les faces cachées, les matériaux transparents et la géométrie fortement occultée restent des défis — utilisez l'entrée multi-vue lorsque la fidélité sur toutes les faces est importante.

Workflow de Production

D'une image à un asset 3D utilisable

La génération IA est le point de départ — le nettoyage intelligent et la validation transforment la sortie brute en un asset prêt pour la production.

Préparez l'image

Sujet unique, cadrage centré, silhouette nette, zones de texture visibles. Évitez les filigranes, les occlusions lourdes et l'éclairage extrême.

Utilisez le chemin officiel

Utilisez la démo Hugging Face ci-dessus, la fiche modèle sur Hugging Face, ou clonez le dépôt GitHub pour l'inférence locale.

Inspectez le premier résultat

Faites pivoter le modèle, comparez la vue frontale à l'image source, vérifiez la complétion de la face arrière, les trous, les flotteurs, les coutures UV et l'échelle.

Nettoyez pour la destination

GLB pour l'aperçu WebGL, OBJ pour le nettoyage dans Blender, FBX pour Unity ou Unreal, STL ou 3MF seulement après réparation étanche.

Documentez tout

Conservez la licence de l'image source, la branche/checkpoint utilisé, les paramètres de génération, le format de sortie et les étapes de nettoyage avec l'asset.

Avant la Génération

Vérificateur de qualité d'image

Toutes les images ne sont pas de bonnes candidates pour la génération 3D. Cette checklist vous donne un moyen reproductible de décider si une entrée mérite du temps GPU.

Évaluez votre image source

0/100

Sujet unique avec silhouette visible complète Fond propre ou forte séparation sujet-fond Image nette haute résolution sans flou de bougé Vue de face ou de trois-quarts révélant la forme globale Régions de matériau et de texture clairement visibles Pas d'occlusion lourde ou de parties coupées Éclairage suffisamment uniforme pour une interprétation PBR précise Vous avez les droits d'utilisation de l'image source

Visez 75+ avant d'investir du temps de nettoyage sérieux.

Transfert d'Asset

Créez un brief prêt pour Pixal3d

Un brief court garde les équipes alignées : ce que l'image montre, où l'asset ira, quel format compte, quelle qualité doit survivre à l'export.

Générateur de brief d'asset

Sujet Usage prévu Style visuel Cible d'export

Notes sur l'image

Carte des Sources Officielles

Où vérifier les détails de Pixal3d

Toutes les ressources sont publiquement disponibles. Utilisez ces liens comme chaîne de référence principale et vérifiez les conditions avant usage commercial.

arXiv 2605.10922Article SIGGRAPH 2026, soumis le 11 mai 2026. Détails techniques complets et comparaisons. Dépôt GitHubCode source complet, script d'inférence, branches main et paper, guide d'installation. Modèle Hugging FaceFiche modèle, licence, poids, liste des Spaces et discussions communautaires. Page Officielle du ProjetDémo vidéo, galerie de résultats, comparaisons de méthodes et visualiseur 3D interactif. Hugging Face Space en DirectDémo Gradio par navigateur. La disponibilité dépend de la file d'attente GPU partagée. Branche PaperImplémentation Direct3D-S2 originale pour reproduire les résultats SIGGRAPH 2026.

Grille QA

Comment juger un modèle généré

Un joli premier rendu ne suffit pas. Évaluez l'asset comme un artiste technique évaluerait une livraison.

Dimension	Ce qu'il faut inspecter	Condition de réussite
Fidélité de la silhouette	Contour frontal, proportions et identité reconnaissable	Correspond à l'image source au premier coup d'œil depuis la vue d'entrée
Complétude géométrique	Face arrière, côtés, trous, flotteurs et direction des normales	Tourne sans effondrement visible ni surfaces manquantes
Comportement des matériaux	Couleur de base, rugosité, normales et coutures UV	Se lit de manière cohérente sous différentes conditions d'éclairage
Utilisabilité de la topologie	Nombre de polygones, îlots de maillage, disposition UV, tolérance à la décimation	Peut être réparé, retopologisé ou décimé sans chaos
Fiabilité de l'export	Import GLB/OBJ/FBX, chemins de textures, point d'origine et échelle	S'ouvre proprement dans l'outil cible sans corrections manuelles

Notes Développeur

Installation locale et choix de branche

Utilisez le dépôt officiel pour les exigences exactes. Ce résumé garde l'arbre de décision visible pour une consultation rapide.

Étape 1 : Base TRELLIS.2

Suivez d'abord le guide d'installation de TRELLIS.2 — Pixal3d se construit par-dessus. La branche main utilise le backbone TRELLIS.2 amélioré.

Étape 2 : Dépendances Pixal3d

Installez les dépendances Python supplémentaires avec pip install -r requirements.txt, puis installez utils3d depuis la page des releases du projet.

Branche main

Implémentation la plus récente avec backbone TRELLIS.2 amélioré pour de meilleures performances. Recommandée pour les nouveaux projets et l'usage en production.

Branche paper

Implémentation Direct3D-S2 originale. Utilisez cette branche pour reproduire exactement les résultats rapportés dans l'article SIGGRAPH 2026.

Inférence locale

python inference.py --image assets/test_image/0.png --output ./output.glb après installation des dépendances. Une démo web Gradio est incluse via python app.py.

Exigences GPU

Le Hugging Face Space utilise une architecture GPU série H. Pour un usage local, vérifiez les exigences TRELLIS.2.

Chronologie 2026

Jalons du projet

Événements clés du projet Pixal3d, basés sur l'article, la page officielle, le README GitHub et la fiche modèle Hugging Face.

Mai 2026Version améliorée basée sur le backbone TRELLIS.2 publiée avec des performances accrues.
Mai 2026Code d'inférence et démo en ligne Hugging Face Gradio rendus publics.
11 Mai 2026Soumission arXiv 2605.10922 publiée avec tous les détails techniques.
Avril 2026Article accepté à SIGGRAPH 2026 — la conférence de référence en infographie.

Limitations

Ce qu'il ne faut pas trop promettre

Une bonne communication technique est honnête sur les modes de défaillance. Voici ce que Pixal3d ne peut pas garantir.

Les surfaces cachées sont inférées

Une seule image ne peut pas prouver complètement la face arrière. Utilisez plusieurs vues quand la fidélité sur toutes les faces est importante pour la production.

Les droits et licences comptent

Ne téléchargez pas de personnages protégés par le droit d'auteur, d'assets de marques déposées ou d'images clients privées sans permission explicite.

La production nécessite du nettoyage

Les assets prêts pour le jeu, l'impression 3D et le e-commerce nécessitent chacun des parcours de validation et de post-traitement différents.

Les démos externes peuvent échouer

Si le Hugging Face Space se met en veille ou a des files d'attente, le site se dégrade gracieusement vers des liens officiels et des conseils de workflow.

FAQ

Questions fréquentes sur Pixal3d

Des réponses courtes et directes pour ceux qui veulent l'essentiel sans parcourir l'article complet.

Qu'est-ce qui distingue Pixal3d des autres méthodes image-vers-3D ?

Pixal3d utilise la rétroprojection de pixels pour mapper explicitement les caractéristiques 2D dans l'espace 3D, créant une correspondance directe pixel-3D. La plupart des autres méthodes utilisent un conditionnement par attention, où le lien est beaucoup plus lâche — d'où la fidélité nettement supérieure de Pixal3d.

Puis-je utiliser Pixal3d pour des projets commerciaux ?

Vérifiez la licence du modèle sur Hugging Face pour les conditions les plus récentes. Le code est open source, mais les assets générés peuvent avoir des conditions d'utilisation spécifiques.

Quelle branche dois-je utiliser — main ou paper ?

Utilisez main pour la version la plus récente avec backbone TRELLIS.2 — recommandé pour la plupart des utilisateurs. Utilisez paper uniquement si vous devez reproduire exactement les résultats SIGGRAPH 2026.

Pixal3d prend-il en charge l'entrée multi-vue ?

Oui. L'article indique que Pixal3d s'étend naturellement à la génération multi-vue en agrégeant les volumes de caractéristiques rétroprojetés sur plusieurs vues.

Quel format de sortie dois-je choisir ?

GLB pour le web et l'aperçu rapide ; OBJ pour l'édition de maillage dans Blender ; FBX pour les moteurs de jeu comme Unity et Unreal ; STL ou 3MF seulement après réparation étanche pour l'impression 3D.

Pourquoi la démo intégrée ne se charge-t-elle parfois pas ?

Les Hugging Face Spaces utilisent des GPU partagés avec un système de file d'attente. Les Spaces peuvent aussi se mettre en veille quand ils sont inactifs. La page inclut des liens officiels pour y accéder directement.

Glossaire

Termes clés

Définitions rapides pour aider les visiteurs non-chercheurs à s'orienter sur la page.

Pixel-aligned: Un paradigme de génération où les caractéristiques 3D restent liées à la vue de l'image d'entrée et aux positions individuelles des pixels.
Rétroprojection: La correspondance mathématique des coordonnées et caractéristiques d'image 2D vers l'espace 3D — le mécanisme central de Pixal3d.
SDF éparse: Une représentation par Signed Distance Function de la forme 3D qui peut être compressée en latents structurés efficaces.
PBR: Physically Based Rendering — cartes de texture (couleur de base, normales, rugosité, métallicité) définissant l'interaction de la surface avec la lumière.
GLB: Un format de fichier glTF binaire compact couramment utilisé pour les visionneuses 3D web et les aperçus rapides multiplateformes.
Conditionneur: Dans les modèles génératifs, le composant qui traite les signaux de conditionnement et les injecte dans le processus de génération.

Référence Académique

Citation

Utilisez la citation BibTeX officielle lorsque Pixal3d informe votre recherche ou votre rédaction technique.

@article{li2026pixal3d,
  title   = {Pixal3D: Pixel-Aligned 3D Generation from Images},
  author  = {Li, Dong-Yang and Zhao, Wang and Chen, Yuxin and Hu, Wenbo and Guo, Meng-Hao and Zhang, Fang-Lue and Shan, Ying and Hu, Shi-Min},
  journal = {arXiv preprint arXiv:2605.10922},
  year    = {2026}
}