直接的なピクセル-3Dマッピング
マルチスケールの画像特徴が3D特徴ボリュームにバックプロジェクションされ、入力ビューが生成座標系の一部となります。
Pixal3dは、バックプロジェクション条件付けを通じてピクセル特徴を直接3D空間に持ち上げます—再構成レベルの忠実度、詳細なジオメトリ、PBRテクスチャを実現。下の公式Hugging Faceデモをお試しいただき、手法・ワークフロー・制作パイプラインをご覧ください。
Hugging Face Spaceがスリープ中、キュー待ち、または一時的に利用できない可能性があります。上の公式Spaceリンクを使用し、このページをワークフローガイドとしてお使いください。
近年の3D生成モデルは合成品質を急速に向上させてきましたが、忠実度(入力画像に対するピクセルレベルの正確さ)は依然として中心的なボトルネックです。Pixal3dはこの問題に正面から取り組みます。
ほとんどの3Dネイティブジェネレータは、カノニカル空間で形状を合成し、注意機構を介して画像の手がかりを注入するため、ピクセルと3Dの対応関係が曖昧になります。Pixal3dは代わりに、入力ビューと一貫したピクセルアライン方式で3Dを生成します。マルチスケールの画像特徴を3D特徴ボリュームに明示的に持ち上げるピクセルバックプロジェクション条件付けスキームを導入し、曖昧さのない直接的なピクセル-3D対応を確立します。その結果、再構成の忠実度に迫る高品質な3Dアセットが得られ、自然にマルチビュー生成やオブジェクト分離されたシーン合成へと拡張できます。
Pixal3dの中核的革新は、明示的なピクセル-3D対応です。生成されるすべての3Dポイントが入力画像と直接結びついており、画像を緩やかなガイダンスとして扱う注意機構ベースの手法とは一線を画します。
マルチスケールの画像特徴が3D特徴ボリュームにバックプロジェクションされ、入力ビューが生成座標系の一部となります。
論文では、Pixal3dが真の3D再構成の忠実度に迫り、ソース画像に忠実な詳細ジオメトリとPBRテクスチャを実現することを示しています。
mainブランチは改良版TRELLIS.2バックボーンを使用。paperブランチはSIGGRAPH結果を再現するためのDirect3D-S2実装を保持しています。
複数カメラアングルにわたってバックプロジェクション特徴ボリュームを集約することで、自然にマルチビュー生成へ拡張できます。
単一オブジェクトを超えて、論文では画像から高忠実度でオブジェクト分離された3Dシーンを生成するモジュラーパイプラインを示しています。
コード、モデル重み、インタラクティブなGradioデモがすべて公開されています。上の埋め込みデモですぐにお試しいただけます。
アーキテクチャを理解することで、より良い入力画像を選択できます。明確なシルエットと視認できるマテリアル領域が、コンディショナーにより強い信号を提供します。
VAEがピクセルアラインされたスパースSDFを効率的なスパース潜在変数に圧縮し、高解像度形状をコンパクトで学習可能な表現で扱えるようにします。
重要な差別化ポイントです。注意機構を介して画像特徴を緩く参照する代わりに、Pixal3dはキャリブレーションされたバックプロジェクションを通じて、マルチスケール2D特徴を明示的に3D特徴ボリュームに持ち上げます。
粗い段階で全体構造を予測し、その後詳細段階で潜在変数を洗練します。最終結果はPBRテクスチャマップ付きのメッシュにデコードされ、レンダリングに対応します。
実践的なポイント:Pixal3dは、きれいなエッジを持つ単一被写体の画像で最高のパフォーマンスを発揮します。隠れた背面、透明なマテリアル、大きく遮蔽されたジオメトリは依然として課題です—全側面の忠実度が重要な場合はマルチビュー入力を使用してください。
AI生成は出発点です—スマートなクリーンアップと検証が、生の出力をプロダクションレディなアセットに変えます。
単一被写体、中央トリミング、きれいなシルエット、視認できるテクスチャ領域。透かし、強い遮蔽、極端な照明は避けてください。
上のHugging Faceデモ、Hugging Faceのモデルカード、またはGitHubリポジトリをクローンしてローカル推論を行います:python inference.py --image your_image.png --output ./output.glb
モデルを回転させ、正面図をソース画像と比較し、背面の完成度、穴、浮遊物、UVシーム、全体的なスケールを確認します。
WebGLプレビューにはGLB、BlenderクリーンアップにはOBJ、Unity/UnrealにはFBX、水密修復後にのみSTL/3MFを使用します。
ソース画像のライセンス、使用したブランチ/チェックポイント、生成設定、出力形式、クリーンアップ手順をアセットと共に保存します。
すべての画像が3D生成に適しているわけではありません。このチェックリストで、GPU時間を費やす価値があるかどうかを再現可能な方法で判断できます。
本格的なクリーンアップ時間を費やす前に75以上を目指してください。
短いブリーフでチームの足並みを揃えます:画像が示すもの、アセットの行き先、重要なフォーマット、エクスポートを生き残るべき品質。
すべてのリソースは公開されています。これらのリンクを主要な参照チェーンとして使用し、商用利用前に条件を確認してください。
最初のレンダリングがきれいでも十分ではありません。テクニカルアーティストが提出物を評価するようにアセットを評価してください。
| 次元 | 検査項目 | 合格条件 |
|---|---|---|
| シルエット忠実度 | 正面の輪郭、プロポーション、認識可能なアイデンティティ | 入力ビューから一目でソース画像と一致する |
| ジオメトリ完全性 | 背面、側面、穴、浮遊物、法線方向 | 目に見える崩壊や欠落面なしにスムーズに回転する |
| マテリアル動作 | ベースカラー、ラフネス、法線、UVシーム | 異なる照明条件下で一貫して読み取れる |
| トポロジー使用性 | ポリゴン数、メッシュアイランド、UVレイアウト、デシメーション耐性 | 混乱なく修復、リトポロジー、デシメーションが可能 |
| エクスポート信頼性 | GLB/OBJ/FBXインポート、テクスチャパス、原点、スケール | 手動修正なしにターゲットツールできれいに開く |
正確な要件については公式リポジトリを使用してください。このサマリーは決定木を可視化したものです。
まずTRELLIS.2インストールガイドに従ってください—Pixal3dはその上に構築されています。mainブランチは改良版TRELLIS.2バックボーンを使用します。
pip install -r requirements.txtで追加のPython依存関係をインストールし、プロジェクトのリリースページからutils3dをインストールします。
改良版TRELLIS.2バックボーンによる最新実装。新しいプロジェクトや本番使用に推奨。
Direct3D-S2実装。SIGGRAPH 2026論文の結果を正確に再現する必要がある場合に使用。
python inference.py --image assets/test_image/0.png --output ./output.glb 依存関係インストール後に実行。python app.pyでGradio Webデモも利用可能。
Hugging Face SpaceはHシリーズGPUアーキテクチャを使用。ローカル使用の場合はTRELLIS.2要件を確認してください。
論文、公式プロジェクトページ、GitHub README、Hugging Faceモデルカードに基づくPixal3dプロジェクトの主要イベント。
優れた技術コミュニケーションは失敗モードについて正直です。以下はPixal3dが保証できないことです。
単一画像では背面を完全に証明できません。本番で全側面の忠実度が重要な場合は、複数ビューを使用してください。
著作権で保護されたキャラクター、商標登録されたブランドアセット、またはクライアントのプライベート画像を明示的な許可なくアップロードしないでください。
ゲーム対応、3Dプリント対応、Eコマース対応のアセットには、それぞれ異なる検証および後処理パスが必要です。
Hugging Face Spaceがスリープまたはキュー状態の場合、サイトは公式リンクとワークフローガイダンスに優雅にデグレードします。
論文全文を読まずに要点を把握したい方のための簡潔な回答。
Pixal3dはピクセルバックプロジェクションを使用して2D特徴を明示的に3D空間にマッピングし、直接的なピクセル-3D対応を確立します。他の多くの手法は注意機構ベースの条件付けを使用しており、その結びつきははるかに緩やかです—これがPixal3dの著しく高い忠実度の理由です。
最新の条件についてはHugging Faceのモデルライセンスを確認してください。コードはオープンソースですが、生成されたアセットには特定の使用条件がある場合があります。
ほとんどのユーザーにはTRELLIS.2バックボーン搭載の最新版mainを推奨。SIGGRAPH 2026の結果を正確に再現する必要がある場合のみpaperを使用してください。
はい。論文では、バックプロジェクション特徴ボリュームを複数ビューにわたって集約することで、自然にマルチビュー生成に拡張できるとされています。
WebとクイックプレビューにはGLB、Blenderでのメッシュ編集にはOBJ、Unity/UnrealなどのゲームエンジンにはFBX、3Dプリント用には水密修復後のみSTL/3MF。
Hugging Face Spacesはキューシステムを持つ共有GPUを使用しています。また、非アクティブ時にスリープモードに入ることもあります。ページには直接アクセス用の公式リンクが含まれています。
研究分野以外の訪問者がページを理解するための簡潔な定義。
Pixal3dがあなたの研究や技術文書に影響を与えた場合、公式BibTeX引用を使用してください。
@article{li2026pixal3d,
title = {Pixal3D: Pixel-Aligned 3D Generation from Images},
author = {Li, Dong-Yang and Zhao, Wang and Chen, Yuxin and Hu, Wenbo and Guo, Meng-Hao and Zhang, Fang-Lue and Shan, Ying and Hu, Shi-Min},
journal = {arXiv preprint arXiv:2605.10922},
year = {2026}
}