SIGGRAPH 2026 · Tencent ARC Lab · Tsinghua University

Generazione 3D Pixel-Aligned da una Singola Immagine

Pixal3d proietta le feature dei pixel direttamente nello spazio 3D tramite back-projection conditioning — offrendo fedeltà quasi da ricostruzione, geometria dettagliata e texture PBR. Prova la demo ufficiale di Hugging Face qui sotto, poi esplora il metodo, il workflow e la pipeline di produzione.

  • Condizionamento pixel-aligned
  • Volumi back-projection
  • Singola o multi-view
  • Output GLB + PBR
  • SIGGRAPH 2026
  • Backbone TRELLIS.2
La demo incorporata sta impiegando troppo tempo.

Può succedere quando lo Space di Hugging Face è in sleep, in coda o temporaneamente non disponibile. Usa il link allo Space ufficiale sopra e tieni questa pagina come guida al workflow.

Abstract del Paper

Cosa risolve Pixal3d

I recenti modelli generativi 3D hanno rapidamente migliorato la qualità di sintesi, ma la fedeltà — l'aderenza a livello di pixel all'immagine di input — rimane il collo di bottiglia centrale. Pixal3d affronta questo problema alla radice.

Dal paper arXiv (2605.10922) — SIGGRAPH 2026

La maggior parte dei generatori 3D nativi sintetizza la forma nello spazio canonico e inietta informazioni dall'immagine via attention, lasciando ambigue le associazioni pixel-3D. Pixal3d invece genera in 3D in modo pixel-aligned, coerente con la vista di input. Introduce uno schema di back-projection conditioning che solleva esplicitamente le feature multi-scala dell'immagine in un volume di feature 3D — stabilendo una corrispondenza diretta pixel-3D senza ambiguità. Il risultato: asset 3D di alta qualità che si avvicinano alla fedeltà di ricostruzione, con estensione naturale alla generazione multi-view e alla sintesi di scene con oggetti separati.

Perché è Importante

Pixel-aligned, non solo image-conditioned

L'innovazione centrale di Pixal3d è la corrispondenza esplicita pixel-3D: ogni punto 3D generato rimane direttamente legato all'immagine di input, a differenza dei metodi basati su attention che usano le immagini come guida approssimativa.

Mappatura diretta pixel-3D

Le feature dell'immagine multi-scala vengono back-proiettate in un volume di feature 3D, rendendo la vista di input parte del sistema di coordinate di generazione.

Fedeltà quasi da ricostruzione

Il paper dimostra che Pixal3d si avvicina alla fedeltà di una vera ricostruzione 3D, con geometria dettagliata e texture PBR che corrispondono fedelmente all'immagine sorgente.

Due branch disponibili

Il branch main usa un backbone TRELLIS.2 migliorato. Il branch paper mantiene l'implementazione Direct3D-S2 originale per riprodurre i risultati SIGGRAPH.

Pronto per multi-view

Pixal3d si estende naturalmente alla generazione multi-view aggregando i volumi di feature back-proiettati su più angolazioni della fotocamera.

Sintesi di scene

Oltre agli oggetti singoli, il paper mostra una pipeline modulare che produce scene 3D ad alta fedeltà con oggetti separati dalle immagini.

Open source e gratuito da provare

Codice, pesi del modello e una demo interattiva Gradio sono pubblicamente disponibili. Provalo subito nella demo incorporata qui sopra.

Architettura Centrale

La pipeline Pixal3d in tre fasi

Comprendere l'architettura aiuta a scegliere immagini di input migliori. Una silhouette chiara e regioni di materiale visibili forniscono al conditioner segnali più forti.

Apprendimento di Rappresentazioni Latenti Strutturate Pixel-Aligned

Un VAE comprime SDF sparse pixel-aligned in latenti sparse efficienti, permettendo la gestione di forme ad alta risoluzione in una rappresentazione compatta e apprendibile.

Conditioner Basato su Back-Projection dell'Immagine

Il differenziatore chiave. Invece di riferirsi vagamente alle feature dell'immagine via attention, Pixal3d solleva esplicitamente le feature 2D multi-scala in volumi di feature 3D tramite back-projection calibrata.

Generazione e Decodifica a Due Stadi

Uno stadio grossolano predice la struttura complessiva, poi uno stadio di dettaglio raffina i latenti. Il risultato viene decodificato in una mesh con mappe di texture PBR pronte per il rendering.

Consiglio pratico: Pixal3d funziona meglio con immagini che mostrano un soggetto singolo con bordi puliti. I lati nascosti, i materiali trasparenti e la geometria fortemente occlusa restano sfide — usa l'input multi-view quando la fedeltà su tutti i lati è importante.

Workflow di Produzione

Da un'immagine a un asset 3D utilizzabile

La generazione AI è il punto di partenza — la pulizia intelligente e la validazione trasformano l'output grezzo in un asset pronto per la produzione.

Prepara l'immagine

Soggetto singolo, ritaglio centrato, silhouette pulita, zone di texture visibili. Evita filigrane, occlusioni pesanti e illuminazione estrema.

Usa il percorso ufficiale

Usa la demo Hugging Face sopra, la scheda modello su Hugging Face, o clona il repo GitHub per inferenza locale: python inference.py --image tua_immagine.png --output ./output.glb

Ispeziona il primo risultato

Ruota il modello, confronta la vista frontale con l'immagine sorgente, controlla il completamento del retro, buchi, floater, cuciture UV e scala complessiva.

Pulisci per la destinazione

GLB per anteprima WebGL, OBJ per pulizia in Blender, FBX per Unity o Unreal, STL o 3MF solo dopo riparazione a tenuta stagna.

Documenta tutto

Conserva licenza dell'immagine sorgente, branch/checkpoint usato, impostazioni di generazione, formato di output e passaggi di pulizia insieme all'asset.

Prima della Generazione

Verifica di idoneità dell'immagine

Non tutte le immagini sono buone candidate per la generazione 3D. Questa checklist ti dà un modo ripetibile per decidere se vale la pena investire tempo GPU.

Valuta la tua immagine sorgente

0/100

Punta a 75+ prima di investire tempo serio nella pulizia.

Consegna Asset

Crea un brief pronto per Pixal3d

Un brief breve mantiene i team allineati: cosa mostra l'immagine, dove andrà l'asset, quale formato conta, quale qualità deve sopravvivere all'export.

Generatore di brief asset


      
Mappa delle Fonti Ufficiali

Dove verificare i dettagli di Pixal3d

Tutte le risorse sono pubblicamente disponibili. Usa questi link come catena di riferimento primaria e verifica i termini prima dell'uso commerciale.

Rubrica QA

Come giudicare un modello generato

Un bel primo rendering non basta. Valuta l'asset come farebbe un technical artist valutando una consegna.

DimensioneCosa ispezionareCondizione di superamento
Fedeltà della silhouetteContorno frontale, proporzioni e identità riconoscibileCorrisponde all'immagine sorgente a colpo d'occhio dalla vista di input
Completezza geometricaLato posteriore, lati, buchi, floater e direzione delle normaliRuota senza collassi visibili o superfici mancanti
Comportamento dei materialiColore base, rugosità, normali e cuciture UVSi legge in modo coerente sotto diverse condizioni di illuminazione
Usabilità della topologiaConteggio poligoni, isole mesh, layout UV, tolleranza alla decimazionePuò essere riparato, ritopologizzato o decimato senza caos
Affidabilità dell'exportImport GLB/OBJ/FBX, percorsi texture, punto di origine e scalaSi apre correttamente nello strumento di destinazione senza correzioni manuali
Note per Sviluppatori

Installazione locale e scelta del branch

Usa il repository ufficiale per i requisiti esatti. Questo riepilogo mantiene visibile l'albero decisionale per una rapida consultazione.

Passo 1: Base TRELLIS.2

Segui prima la guida all'installazione di TRELLIS.2 — Pixal3d ci si basa sopra. Il branch main usa il backbone TRELLIS.2 migliorato.

Passo 2: Dipendenze Pixal3d

Installa le dipendenze Python aggiuntive con pip install -r requirements.txt, poi installa utils3d dalla pagina delle release del progetto.

Branch main

Implementazione più recente con backbone TRELLIS.2 migliorato per prestazioni superiori. Raccomandato per nuovi progetti e uso in produzione.

Branch paper

Implementazione Direct3D-S2 originale. Usa questo branch per riprodurre esattamente i risultati riportati nel paper SIGGRAPH 2026.

Inferenza locale

python inference.py --image assets/test_image/0.png --output ./output.glb dopo aver installato le dipendenze. Una demo web Gradio è inclusa via python app.py.

Requisiti GPU

Lo Hugging Face Space usa architettura GPU serie H. Per uso locale, verifica i requisiti TRELLIS.2.

Cronologia 2026

Pietre miliari del progetto

Eventi chiave del progetto Pixal3d, basati su paper, pagina ufficiale, README GitHub e scheda modello Hugging Face.

  1. Versione migliorata basata su backbone TRELLIS.2 rilasciata con prestazioni potenziate.
  2. Codice di inferenza e demo online Hugging Face Gradio resi pubblicamente disponibili.
  3. Invio arXiv 2605.10922 pubblicato con tutti i dettagli tecnici.
  4. Paper accettato a SIGGRAPH 2026 — la conferenza principale per la computer grafica.
Limitazioni

Cosa non promettere troppo

Una buona comunicazione ingegneristica è onesta sulle modalità di fallimento. Ecco cosa Pixal3d non può garantire.

Le superfici nascoste sono inferite

Una singola immagine non può provare completamente il lato posteriore. Usa più viste quando la fedeltà su tutti i lati è importante per la produzione.

Diritti e licenze contano

Non caricare personaggi protetti da copyright, asset di marchi registrati o immagini private di clienti senza permesso esplicito.

La produzione richiede pulizia

Asset pronti per giochi, stampa 3D ed e-commerce richiedono ciascuno percorsi di validazione e post-elaborazione diversi.

Le demo esterne possono fallire

Se lo Hugging Face Space va in sleep o ha code, il sito degrada con grazia a link ufficiali e guida al workflow.

FAQ

Domande comuni su Pixal3d

Risposte brevi e dirette per chi vuole l'essenziale senza scorrere l'intero paper.

Cosa rende Pixal3d diverso dagli altri metodi immagine-a-3D?

Pixal3d usa il pixel back-projection per mappare esplicitamente le feature 2D nello spazio 3D, creando una corrispondenza diretta pixel-3D. La maggior parte degli altri metodi usa il conditioning basato su attention, dove il legame è molto più debole — da qui la fedeltà significativamente superiore di Pixal3d.

Posso usare Pixal3d per progetti commerciali?

Controlla la licenza del modello su Hugging Face per i termini più aggiornati. Il codice è open source, ma gli asset generati potrebbero avere condizioni d'uso specifiche.

Quale branch dovrei usare — main o paper?

Usa main per la versione più recente con backbone TRELLIS.2 — raccomandato per la maggior parte degli utenti. Usa paper solo se devi riprodurre esattamente i risultati SIGGRAPH 2026.

Pixal3d supporta l'input multi-view?

Sì. Il paper afferma che Pixal3d si estende naturalmente alla generazione multi-view aggregando i volumi di feature back-proiettati su più viste.

Che formato di output dovrei scegliere?

GLB per web e anteprima rapida; OBJ per editing mesh in Blender; FBX per motori di gioco come Unity e Unreal; STL o 3MF solo dopo riparazione a tenuta stagna per stampa 3D.

Perché la demo incorporata a volte non si carica?

Gli Hugging Face Spaces usano GPU condivise con sistema a coda. Gli Spaces possono anche entrare in modalità sleep quando inattivi. La pagina include link ufficiali per accedere direttamente.

Glossario

Termini chiave

Definizioni rapide per aiutare i visitatori non ricercatori a orientarsi nella pagina.

Pixel-aligned
Un paradigma di generazione in cui le feature 3D rimangono legate alla vista dell'immagine di input e alle singole posizioni dei pixel.
Back-projection
La mappatura matematica dalle coordinate e feature 2D dell'immagine allo spazio 3D — il meccanismo centrale di Pixal3d.
SDF sparse
Una rappresentazione a Signed Distance Function della forma 3D che può essere compressa in latenti strutturati efficienti.
PBR
Physically Based Rendering — mappe di texture (colore base, normali, rugosità, metallicità) che definiscono l'interazione della superficie con la luce.
GLB
Un formato file glTF binario compatto comunemente usato per visualizzatori 3D web e anteprime rapide multipiattaforma.
Conditioner
Nei modelli generativi, il componente che elabora i segnali di conditioning e li inietta nel processo di generazione.
Riferimento Accademico

Citazione

Usa la citazione BibTeX ufficiale quando Pixal3d informa la tua ricerca o scrittura tecnica.

@article{li2026pixal3d,
  title   = {Pixal3D: Pixel-Aligned 3D Generation from Images},
  author  = {Li, Dong-Yang and Zhao, Wang and Chen, Yuxin and Hu, Wenbo and Guo, Meng-Hao and Zhang, Fang-Lue and Shan, Ying and Hu, Shi-Min},
  journal = {arXiv preprint arXiv:2605.10922},
  year    = {2026}
}