SIGGRAPH 2026 · Tencent ARC Lab · 칭화대학교

단일 이미지에서 픽셀 정렬 3D 생성

Pixal3d는 백프로젝션 컨디셔닝을 통해 픽셀 특성을 3D 공간으로 직접 끌어올립니다 — 재구성 수준의 충실도, 세부 지오메트리, PBR 텍스처를 실현합니다. 아래 공식 Hugging Face 데모를 체험하고, 방법론, 워크플로우, 프로덕션 파이프라인을 살펴보세요.

  • 픽셀 정렬 컨디셔닝
  • 백프로젝션 볼륨
  • 단일/다중 뷰
  • GLB + PBR 출력
  • SIGGRAPH 2026
  • TRELLIS.2 백본
임베디드 데모 로딩 시간이 너무 오래 걸립니다.

Hugging Face Space가 슬립 중이거나, 대기열에 있거나, 일시적으로 사용 불가능할 수 있습니다. 위의 공식 Space 링크를 사용하시고 이 페이지를 워크플로우 가이드로 활용하세요.

논문 초록

Pixal3d가 해결하는 문제

최근 3D 생성 모델은 합성 품질을 빠르게 향상시켰지만, 충실도(입력 이미지에 대한 픽셀 수준의 정확성)는 여전히 핵심 병목 현상으로 남아 있습니다. Pixal3d는 이 문제를 정면으로 해결합니다.

arXiv 논문 (2605.10922) — SIGGRAPH 2026

대부분의 3D 네이티브 생성기는 정규 공간에서 형태를 합성하고 어텐션을 통해 이미지 신호를 주입하여 픽셀-3D 연관성을 모호하게 만듭니다. Pixal3d는 대신 입력 뷰와 일관된 픽셀 정렬 방식으로 3D를 생성합니다. 멀티스케일 이미지 특성을 3D 특성 볼륨으로 명시적으로 끌어올리는 픽셀 백프로젝션 컨디셔닝 방식을 도입하여, 모호함 없이 직접적인 픽셀-3D 대응을 확립합니다. 그 결과, 재구성 충실도에 근접하는 고품질 3D 애셋이 생성되며, 자연스럽게 멀티뷰 생성 및 객체 분리된 장면 합성으로 확장됩니다.

중요한 이유

픽셀 정렬, 단순한 이미지 컨디셔닝이 아닙니다

Pixal3d의 핵심 혁신은 명시적인 픽셀-3D 대응입니다. 생성된 모든 3D 포인트가 입력 이미지에 직접 연결되어 있으며, 이미지를 느슨한 가이드로 취급하는 어텐션 기반 방식과는 다릅니다.

직접적인 픽셀-3D 매핑

멀티스케일 이미지 특성이 3D 특성 볼륨으로 백프로젝션되어, 입력 뷰가 생성 좌표계의 일부가 됩니다.

재구성 수준의 충실도

논문은 Pixal3d가 실제 3D 재구성의 충실도에 근접하며, 소스 이미지에 충실한 세부 지오메트리와 PBR 텍스처를 달성함을 보여줍니다.

두 개의 브랜치 제공

main 브랜치는 개선된 TRELLIS.2 백본을 사용합니다. paper 브랜치는 SIGGRAPH 결과를 재현하기 위한 Direct3D-S2 구현을 유지합니다.

멀티뷰 지원

여러 카메라 앵글에 걸쳐 백프로젝션 특성 볼륨을 집계하여 자연스럽게 멀티뷰 생성으로 확장할 수 있습니다.

장면 합성

단일 객체를 넘어, 논문은 이미지에서 객체 분리된 고충실도 3D 장면을 생성하는 모듈형 파이프라인을 보여줍니다.

오픈소스 & 무료 체험

코드, 모델 가중치, 대화형 Gradio 데모가 모두 공개되어 있습니다. 위의 임베디드 데모에서 바로 체험하실 수 있습니다.

핵심 아키텍처

3단계 Pixal3d 파이프라인

아키텍처를 이해하면 더 나은 입력 이미지를 선택할 수 있습니다. 명확한 실루엣과 가시적인 재질 영역이 컨디셔너에 더 강한 신호를 제공합니다.

픽셀 정렬 구조화 잠재 표현 학습

VAE가 픽셀 정렬된 스파스 SDF를 효율적인 스파스 잠재 변수로 압축하여, 고해상도 형상을 컴팩트하고 학습 가능한 표현으로 다룰 수 있게 합니다.

이미지 백프로젝션 기반 컨디셔너

핵심 차별화 지점입니다. 어텐션을 통해 이미지 특성을 느슨하게 참조하는 대신, Pixal3d는 보정된 백프로젝션을 통해 멀티스케일 2D 특성을 3D 특성 볼륨으로 명시적으로 끌어올립니다.

2단계 생성 및 디코딩

거친 단계에서 전체 구조를 예측한 후, 세부 단계에서 잠재 변수를 정교화합니다. 최종 결과는 렌더링 가능한 PBR 텍스처 맵이 포함된 메시로 디코딩됩니다.

실용적 인사이트: Pixal3d는 깨끗한 가장자리를 가진 단일 피사체 이미지에서 최상의 성능을 발휘합니다. 숨겨진 뒷면, 투명한 재질, 심하게 가려진 지오메트리는 여전히 과제입니다 — 모든 면의 충실도가 중요할 때는 멀티뷰 입력을 사용하세요.

프로덕션 워크플로우

하나의 이미지에서 사용 가능한 3D 애셋까지

AI 생성은 출발점입니다 — 스마트한 정리와 검증이 원시 출력을 프로덕션 레디 애셋으로 변환합니다.

이미지 준비

단일 피사체, 중앙 크롭, 깨끗한 실루엣, 보이는 텍스처 영역. 워터마크, 심한 가림, 극단적 조명은 피하세요.

공식 경로 사용

위의 Hugging Face 데모, Hugging Face의 모델 카드, 또는 GitHub 저장소를 클론하여 로컬 추론: python inference.py --image your_image.png --output ./output.glb

첫 결과 검사

모델을 회전시키고, 전면 뷰를 소스 이미지와 비교하고, 뒷면 완성도, 구멍, 부유물, UV 심, 전체 스케일을 확인하세요.

목적에 맞게 정리

WebGL 미리보기용 GLB, 블렌더 정리용 OBJ, Unity/Unreal용 FBX, 방수 복구 후에만 STL/3MF를 사용하세요.

모든 것을 문서화

소스 이미지 라이선스, 사용한 브랜치/체크포인트, 생성 설정, 출력 형식, 정리 단계를 애셋과 함께 보관하세요.

생성 전 확인

이미지 적합성 체커

모든 이미지가 3D 생성에 적합한 것은 아닙니다. 이 체크리스트는 GPU 시간을 투자할 가치가 있는지 판단할 수 있는 재현 가능한 방법을 제공합니다.

소스 이미지 평가

0/100

본격적인 정리 시간을 투자하기 전에 75점 이상을 목표로 하세요.

애셋 인계

Pixal3d 대응 브리프 작성

짧은 브리프로 팀의 방향을 맞춥니다: 이미지가 보여주는 것, 애셋이 갈 곳, 중요한 형식, 내보내기에서 살아남아야 할 품질.

애셋 브리프 빌더


      
공식 소스 맵

Pixal3d 세부 정보 확인처

모든 리소스는 공개되어 있습니다. 이 링크를 주요 참조 체인으로 사용하고 상업적 사용 전에 조건을 확인하세요.

QA 기준

생성된 모델 평가 방법

첫 렌더링이 예뻐도 충분하지 않습니다. 테크니컬 아티스트가 인계물을 평가하듯 애셋을 평가하세요.

차원검사 항목통과 조건
실루엣 충실도전면 윤곽, 비율, 인식 가능한 정체성입력 뷰에서 한눈에 소스 이미지와 일치
지오메트리 완전성뒷면, 측면, 구멍, 부유물, 법선 방향눈에 보이는 붕괴나 누락된 표면 없이 부드럽게 회전
재질 동작기본 색상, 거칠기, 법선, UV 심다양한 조명 조건에서 일관되게 읽힘
토폴로지 사용성폴리곤 수, 메시 아일랜드, UV 레이아웃, 데시메이션 내성혼란 없이 복구, 리토폴로지, 데시메이션 가능
내보내기 신뢰성GLB/OBJ/FBX 가져오기, 텍스처 경로, 원점, 스케일수동 수정 없이 대상 도구에서 깨끗하게 열림
개발자 노트

로컬 설치 및 브랜치 선택

정확한 요구사항은 공식 저장소를 참조하세요. 이 요약은 빠른 참조를 위한 결정 트리를 보여줍니다.

1단계: TRELLIS.2 기반

먼저 TRELLIS.2 설치 가이드를 따르세요 — Pixal3d는 그 위에 구축됩니다. main 브랜치는 개선된 TRELLIS.2 백본을 사용합니다.

2단계: Pixal3d 의존성

pip install -r requirements.txt로 추가 Python 의존성을 설치한 후, 프로젝트 릴리스 페이지에서 utils3d를 설치하세요.

main 브랜치

개선된 TRELLIS.2 백본으로 최신 구현. 새로운 프로젝트와 프로덕션 사용에 권장됩니다.

paper 브랜치

Direct3D-S2 구현. SIGGRAPH 2026 논문 결과를 정확히 재현해야 할 때만 사용하세요.

로컬 추론

python inference.py --image assets/test_image/0.png --output ./output.glb 의존성 설치 후 실행. python app.py로 Gradio 웹 데모도 포함.

GPU 요구사항

Hugging Face Space는 H 시리즈 GPU 아키텍처를 사용합니다. 로컬 사용 시 TRELLIS.2 요구사항을 확인하세요.

2026 타임라인

프로젝트 마일스톤

논문, 공식 프로젝트 페이지, GitHub README, Hugging Face 모델 카드에 기반한 Pixal3d 프로젝트의 주요 이벤트.

  1. TRELLIS.2 백본 기반 개선 버전이 성능 향상과 함께 출시됨.
  2. 추론 코드와 온라인 Hugging Face Gradio 데모가 공개됨.
  3. arXiv 제출 2605.10922가 전체 기술 세부사항과 함께 공개됨.
  4. 컴퓨터 그래픽스 최고 권위 학회 SIGGRAPH 2026에 논문 채택.
제한 사항

과도하게 약속해서는 안 되는 것

좋은 기술 커뮤니케이션은 실패 모드에 대해 정직합니다. 다음은 Pixal3d가 보장할 수 없는 사항입니다.

숨겨진 표면은 추론됩니다

단일 이미지로는 뒷면을 완전히 증명할 수 없습니다. 프로덕션에서 모든 면의 충실도가 중요할 때는 여러 뷰를 사용하세요.

권리와 라이선스가 중요합니다

저작권 보호 캐릭터, 상표 등록 브랜드 애셋, 또는 클라이언트의 비공개 이미지를 명시적 허가 없이 업로드하지 마세요.

프로덕션에는 정리가 필요합니다

게임용, 3D 프린팅용, 이커머스용 애셋은 각각 다른 검증 및 후처리 경로가 필요합니다.

외부 데모는 실패할 수 있습니다

Hugging Face Space가 슬립 또는 대기열 상태일 경우, 사이트는 공식 링크와 워크플로우 가이던스로 우아하게 저하됩니다.

FAQ

Pixal3d에 대한 자주 묻는 질문

전체 논문을 읽지 않고도 핵심을 파악하려는 분들을 위한 간결한 답변.

Pixal3d가 다른 이미지-to-3D 방식과 다른 점은?

Pixal3d는 픽셀 백프로젝션을 사용하여 2D 특성을 3D 공간에 명시적으로 매핑하고 직접적인 픽셀-3D 대응을 확립합니다. 대부분의 다른 방식은 어텐션 기반 컨디셔닝을 사용하여 그 연결이 훨씬 느슨합니다 — 이것이 Pixal3d의 현저히 높은 충실도의 이유입니다.

상업 프로젝트에 Pixal3d를 사용할 수 있나요?

최신 조건은 Hugging Face의 모델 라이선스를 확인하세요. 코드는 오픈소스이지만, 생성된 애셋에는 특정 사용 조건이 있을 수 있습니다.

main과 paper 중 어떤 브랜치를 사용해야 하나요?

대부분의 사용자에게는 TRELLIS.2 백본이 탑재된 최신 버전 main을 권장합니다. SIGGRAPH 2026 결과를 정확히 재현해야 하는 경우에만 paper를 사용하세요.

멀티뷰 입력을 지원하나요?

네. 논문에 따르면 백프로젝션 특성 볼륨을 여러 뷰에 걸쳐 집계하여 자연스럽게 멀티뷰 생성으로 확장할 수 있습니다.

어떤 출력 형식을 선택해야 하나요?

웹 및 빠른 미리보기용 GLB, 블렌더 메시 편집용 OBJ, Unity/Unreal 게임 엔진용 FBX, 3D 프린팅용 방수 복구 후에만 STL/3MF.

임베디드 데모가 가끔 로드되지 않는 이유는?

Hugging Face Spaces는 대기열 시스템이 있는 공유 GPU를 사용합니다. Spaces는 비활성 시 슬립 모드로 전환될 수도 있습니다. 페이지에는 직접 접근용 공식 링크가 포함되어 있습니다.

용어집

핵심 용어

연구 분야가 아닌 방문자들이 페이지를 이해할 수 있도록 돕는 간결한 정의.

픽셀 정렬
3D 특성이 입력 이미지 뷰와 개별 픽셀 위치에 연결된 상태로 유지되는 생성 패러다임.
백프로젝션
2D 이미지 좌표와 특성에서 3D 공간으로의 수학적 매핑 — Pixal3d의 핵심 메커니즘.
스파스 SDF
효율적인 구조화 잠재 변수로 압축할 수 있는 3D 형상의 부호 거리 함수 표현.
PBR
물리 기반 렌더링 — 표면이 빛과 상호작용하는 방식을 정의하는 텍스처 맵(기본 색상, 법선, 거칠기, 금속성).
GLB
웹 기반 3D 뷰어와 크로스 플랫폼 빠른 미리보기에 사용되는 컴팩트한 바이너리 glTF 파일 형식.
컨디셔너
생성 모델에서 컨디셔닝 신호를 처리하고 생성 프로세스에 주입하는 컴포넌트.
학술 인용

인용

Pixal3d가 귀하의 연구나 기술 문서에 영향을 미쳤다면 공식 BibTeX 인용을 사용하세요.

@article{li2026pixal3d,
  title   = {Pixal3D: Pixel-Aligned 3D Generation from Images},
  author  = {Li, Dong-Yang and Zhao, Wang and Chen, Yuxin and Hu, Wenbo and Guo, Meng-Hao and Zhang, Fang-Lue and Shan, Ying and Hu, Shi-Min},
  journal = {arXiv preprint arXiv:2605.10922},
  year    = {2026}
}