Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models https://arxiv.org/pdf/2407.13642 0. Abstractimage-caption 쌍의 large-scale로 pre-train한 diffusion model을 사용하여 open vocabulary 3D semantic understanding을 위한 Diff2Scene를 제안한다. 이는 object, 외형, 재질, 위치, 구성요소 등을 효과적으로 구분하며, SOTA 성능을 달성하였다. 1. Introductionopen vocabulary task는 카테고리, 세부속성(모양, 색상, 재질 등), 복잡한 조합까지 text로 설명된 모든 semant..