SIGGRAPH 2026 · Tencent ARC Lab · 清華大学

単一画像からのピクセルアライン3D生成

Pixal3dは、バックプロジェクション条件付けを通じてピクセル特徴を直接3D空間に持ち上げます—再構成レベルの忠実度、詳細なジオメトリ、PBRテクスチャを実現。下の公式Hugging Faceデモをお試しいただき、手法・ワークフロー・制作パイプラインをご覧ください。

  • ピクセルアライン条件付け
  • バックプロジェクションボリューム
  • 単一・複数ビュー対応
  • GLB + PBR出力
  • SIGGRAPH 2026
  • TRELLIS.2バックボーン
埋め込みデモの読み込みに時間がかかっています。

Hugging Face Spaceがスリープ中、キュー待ち、または一時的に利用できない可能性があります。上の公式Spaceリンクを使用し、このページをワークフローガイドとしてお使いください。

論文概要

Pixal3dが解決する課題

近年の3D生成モデルは合成品質を急速に向上させてきましたが、忠実度(入力画像に対するピクセルレベルの正確さ)は依然として中心的なボトルネックです。Pixal3dはこの問題に正面から取り組みます。

arXiv論文 (2605.10922) より — SIGGRAPH 2026

ほとんどの3Dネイティブジェネレータは、カノニカル空間で形状を合成し、注意機構を介して画像の手がかりを注入するため、ピクセルと3Dの対応関係が曖昧になります。Pixal3dは代わりに、入力ビューと一貫したピクセルアライン方式で3Dを生成します。マルチスケールの画像特徴を3D特徴ボリュームに明示的に持ち上げるピクセルバックプロジェクション条件付けスキームを導入し、曖昧さのない直接的なピクセル-3D対応を確立します。その結果、再構成の忠実度に迫る高品質な3Dアセットが得られ、自然にマルチビュー生成やオブジェクト分離されたシーン合成へと拡張できます。

重要な理由

ピクセルアライン、単なる画像条件付けではない

Pixal3dの中核的革新は、明示的なピクセル-3D対応です。生成されるすべての3Dポイントが入力画像と直接結びついており、画像を緩やかなガイダンスとして扱う注意機構ベースの手法とは一線を画します。

直接的なピクセル-3Dマッピング

マルチスケールの画像特徴が3D特徴ボリュームにバックプロジェクションされ、入力ビューが生成座標系の一部となります。

再構成レベルの忠実度

論文では、Pixal3dが真の3D再構成の忠実度に迫り、ソース画像に忠実な詳細ジオメトリとPBRテクスチャを実現することを示しています。

2つのブランチを提供

mainブランチは改良版TRELLIS.2バックボーンを使用。paperブランチはSIGGRAPH結果を再現するためのDirect3D-S2実装を保持しています。

マルチビュー対応

複数カメラアングルにわたってバックプロジェクション特徴ボリュームを集約することで、自然にマルチビュー生成へ拡張できます。

シーン合成

単一オブジェクトを超えて、論文では画像から高忠実度でオブジェクト分離された3Dシーンを生成するモジュラーパイプラインを示しています。

オープンソース&無料トライアル

コード、モデル重み、インタラクティブなGradioデモがすべて公開されています。上の埋め込みデモですぐにお試しいただけます。

コアアーキテクチャ

3つの要素からなるPixal3dパイプライン

アーキテクチャを理解することで、より良い入力画像を選択できます。明確なシルエットと視認できるマテリアル領域が、コンディショナーにより強い信号を提供します。

ピクセルアライン構造化潜在表現学習

VAEがピクセルアラインされたスパースSDFを効率的なスパース潜在変数に圧縮し、高解像度形状をコンパクトで学習可能な表現で扱えるようにします。

画像バックプロジェクションベースのコンディショナー

重要な差別化ポイントです。注意機構を介して画像特徴を緩く参照する代わりに、Pixal3dはキャリブレーションされたバックプロジェクションを通じて、マルチスケール2D特徴を明示的に3D特徴ボリュームに持ち上げます。

2段階の生成とデコード

粗い段階で全体構造を予測し、その後詳細段階で潜在変数を洗練します。最終結果はPBRテクスチャマップ付きのメッシュにデコードされ、レンダリングに対応します。

実践的なポイント:Pixal3dは、きれいなエッジを持つ単一被写体の画像で最高のパフォーマンスを発揮します。隠れた背面、透明なマテリアル、大きく遮蔽されたジオメトリは依然として課題です—全側面の忠実度が重要な場合はマルチビュー入力を使用してください。

実践ワークフロー

1枚の画像から使える3Dアセットへ

AI生成は出発点です—スマートなクリーンアップと検証が、生の出力をプロダクションレディなアセットに変えます。

画像を準備する

単一被写体、中央トリミング、きれいなシルエット、視認できるテクスチャ領域。透かし、強い遮蔽、極端な照明は避けてください。

公式パスを使用する

上のHugging Faceデモ、Hugging Faceのモデルカード、またはGitHubリポジトリをクローンしてローカル推論を行います:python inference.py --image your_image.png --output ./output.glb

最初の結果を検査する

モデルを回転させ、正面図をソース画像と比較し、背面の完成度、穴、浮遊物、UVシーム、全体的なスケールを確認します。

目的に合わせてクリーンアップ

WebGLプレビューにはGLB、BlenderクリーンアップにはOBJ、Unity/UnrealにはFBX、水密修復後にのみSTL/3MFを使用します。

すべてを文書化する

ソース画像のライセンス、使用したブランチ/チェックポイント、生成設定、出力形式、クリーンアップ手順をアセットと共に保存します。

生成前チェック

画像適性チェッカー

すべての画像が3D生成に適しているわけではありません。このチェックリストで、GPU時間を費やす価値があるかどうかを再現可能な方法で判断できます。

ソース画像を評価

0/100

本格的なクリーンアップ時間を費やす前に75以上を目指してください。

アセット引き継ぎ

Pixal3d対応ブリーフの作成

短いブリーフでチームの足並みを揃えます:画像が示すもの、アセットの行き先、重要なフォーマット、エクスポートを生き残るべき品質。

アセットブリーフビルダー


      
公式ソースマップ

Pixal3d詳細の確認先

すべてのリソースは公開されています。これらのリンクを主要な参照チェーンとして使用し、商用利用前に条件を確認してください。

QA基準

生成モデルの評価方法

最初のレンダリングがきれいでも十分ではありません。テクニカルアーティストが提出物を評価するようにアセットを評価してください。

次元検査項目合格条件
シルエット忠実度正面の輪郭、プロポーション、認識可能なアイデンティティ入力ビューから一目でソース画像と一致する
ジオメトリ完全性背面、側面、穴、浮遊物、法線方向目に見える崩壊や欠落面なしにスムーズに回転する
マテリアル動作ベースカラー、ラフネス、法線、UVシーム異なる照明条件下で一貫して読み取れる
トポロジー使用性ポリゴン数、メッシュアイランド、UVレイアウト、デシメーション耐性混乱なく修復、リトポロジー、デシメーションが可能
エクスポート信頼性GLB/OBJ/FBXインポート、テクスチャパス、原点、スケール手動修正なしにターゲットツールできれいに開く
開発者向けノート

ローカルインストールとブランチ選択

正確な要件については公式リポジトリを使用してください。このサマリーは決定木を可視化したものです。

ステップ1:TRELLIS.2ベース

まずTRELLIS.2インストールガイドに従ってください—Pixal3dはその上に構築されています。mainブランチは改良版TRELLIS.2バックボーンを使用します。

ステップ2:Pixal3d依存関係

pip install -r requirements.txtで追加のPython依存関係をインストールし、プロジェクトのリリースページからutils3dをインストールします。

mainブランチ

改良版TRELLIS.2バックボーンによる最新実装。新しいプロジェクトや本番使用に推奨。

paperブランチ

Direct3D-S2実装。SIGGRAPH 2026論文の結果を正確に再現する必要がある場合に使用。

ローカル推論

python inference.py --image assets/test_image/0.png --output ./output.glb 依存関係インストール後に実行。python app.pyでGradio Webデモも利用可能。

GPU要件

Hugging Face SpaceはHシリーズGPUアーキテクチャを使用。ローカル使用の場合はTRELLIS.2要件を確認してください。

2026年タイムライン

プロジェクトマイルストーン

論文、公式プロジェクトページ、GitHub README、Hugging Faceモデルカードに基づくPixal3dプロジェクトの主要イベント。

  1. TRELLIS.2バックボーンに基づく改良版がパフォーマンス向上と共にリリース。
  2. 推論コードとオンラインHugging Face Gradioデモが公開。
  3. arXiv投稿2605.10922が全技術詳細と共に公開。
  4. コンピュータグラフィックスの最高峰会議SIGGRAPH 2026に採択。
制限事項

過剰に約束すべきでないこと

優れた技術コミュニケーションは失敗モードについて正直です。以下はPixal3dが保証できないことです。

隠れた面は推論です

単一画像では背面を完全に証明できません。本番で全側面の忠実度が重要な場合は、複数ビューを使用してください。

権利とライセンスは重要です

著作権で保護されたキャラクター、商標登録されたブランドアセット、またはクライアントのプライベート画像を明示的な許可なくアップロードしないでください。

本番にはクリーンアップが必要です

ゲーム対応、3Dプリント対応、Eコマース対応のアセットには、それぞれ異なる検証および後処理パスが必要です。

外部デモは失敗する可能性があります

Hugging Face Spaceがスリープまたはキュー状態の場合、サイトは公式リンクとワークフローガイダンスに優雅にデグレードします。

FAQ

Pixal3dに関するよくある質問

論文全文を読まずに要点を把握したい方のための簡潔な回答。

Pixal3dが他の画像-to-3D手法と異なる点は?

Pixal3dはピクセルバックプロジェクションを使用して2D特徴を明示的に3D空間にマッピングし、直接的なピクセル-3D対応を確立します。他の多くの手法は注意機構ベースの条件付けを使用しており、その結びつきははるかに緩やかです—これがPixal3dの著しく高い忠実度の理由です。

商用プロジェクトにPixal3dを使用できますか?

最新の条件についてはHugging Faceのモデルライセンスを確認してください。コードはオープンソースですが、生成されたアセットには特定の使用条件がある場合があります。

mainとpaperどちらのブランチを使うべき?

ほとんどのユーザーにはTRELLIS.2バックボーン搭載の最新版mainを推奨。SIGGRAPH 2026の結果を正確に再現する必要がある場合のみpaperを使用してください。

マルチビュー入力に対応していますか?

はい。論文では、バックプロジェクション特徴ボリュームを複数ビューにわたって集約することで、自然にマルチビュー生成に拡張できるとされています。

どの出力形式を選ぶべきですか?

WebとクイックプレビューにはGLB、Blenderでのメッシュ編集にはOBJ、Unity/UnrealなどのゲームエンジンにはFBX、3Dプリント用には水密修復後のみSTL/3MF。

埋め込みデモが読み込まれないことがあるのはなぜ?

Hugging Face Spacesはキューシステムを持つ共有GPUを使用しています。また、非アクティブ時にスリープモードに入ることもあります。ページには直接アクセス用の公式リンクが含まれています。

用語集

キーワード

研究分野以外の訪問者がページを理解するための簡潔な定義。

ピクセルアライン
3D特徴が入力画像のビューと個々のピクセル位置に結びついたままになる生成パラダイム。
バックプロジェクション
2D画像座標と特徴から3D空間への数学的マッピング—Pixal3dの中核メカニズム。
スパースSDF
効率的な構造化潜在変数に圧縮可能な、3D形状の符号付き距離関数表現。
PBR
物理ベースレンダリング—表面の光との相互作用を定義するテクスチャマップ(ベースカラー、法線、ラフネス、メタリック)。
GLB
Webベースの3Dビューアやクロスプラットフォームのクイックプレビューに使用されるコンパクトなバイナリglTFファイル形式。
コンディショナー
生成モデルにおいて、条件付け信号を処理し生成プロセスに注入するコンポーネント。
学術引用

引用

Pixal3dがあなたの研究や技術文書に影響を与えた場合、公式BibTeX引用を使用してください。

@article{li2026pixal3d,
  title   = {Pixal3D: Pixel-Aligned 3D Generation from Images},
  author  = {Li, Dong-Yang and Zhao, Wang and Chen, Yuxin and Hu, Wenbo and Guo, Meng-Hao and Zhang, Fang-Lue and Shan, Ying and Hu, Shi-Min},
  journal = {arXiv preprint arXiv:2605.10922},
  year    = {2026}
}