EDA: Explicit Text-Decoupling and Dense Alignment for 3D Visual Grounding

1. Introduction
3D cross modal task를 위해 language 표현과 3D visual 정보를 이해해야 하는 3D Visual Grounding(VG)이 주목받고 있다. 2D VG와 달리 point cloud의 sparseness와 incompleteness, 다양한 언어 표현으로 인해 3D VG를 더 어렵게 한다. 3D VG의 다양한 연구들이 진행되고 있으나 저자들은 2가지를 문제 삼는다.
1. Imbalance: object name은 대부분의 후보를 제거할 수 있다. 이로 인해 figure 1의 b1, b2와 같이 'door', 'refrigerator'를 보고 오직 name만으로 object와 매칭되기도 한다.
2. Ambiguity: 입력에는 다양한 object의 attribute에 대한 단어가 포함되지만 출력은 문장의 feature를 합친 하나의 object만을 출력한다. 이로 인해 main object가 무엇인지 구별하기가 힘들다.
이러한 문제점을 해결하기 위해 저자들은 main object, pronoun, attribute, relation, auxiliary object로 semantic component를 구분한다. 또한 object의 name없이 Grounding을 하는 task(VG-w/o-ON)을 제안하여 모델의 robust함을 평가한다.
contribution은 다음과 같다.
1. text를 분리하는 모듈을 제안하여 vision, language를 잘 매칭하고 imbalance, ambiguity learning을 방지한다.
2. object name없는 3DVG를 제안하여 모델의 robust를 평가한다.
3. SOTA 달성
2. Mathod

전체적인 프레임워크는 다음과 같다. text description을 semantic component로 분리함과 동시에 transformer encoder를 이용해 point cloud와 text의 feature를 추출하고 candidate의 visual feature를 decode한다. 그 후 분리한 text feature와 decoded visual feature간의 loss를 설계하여 text feature와 visual feature가 가장 유사한 object를 찾아낸다.
2.1. Text Decoupling

좀 더 discriminative한 text feature를 추출하고 cross modal feature에 맞추기 위해 text query를 semantic component로 분리한다. 이 때 semantic component는
main object: target object,
auxiliary object: main object를 설명하기 위한 object,
attributes: appearance, shape 등,
pronoun: main object 이름 외의 다른 표현,
relationship: auxiliary object와 main object의 관계로 분류할 수 있다. 분리한 query는 개별적으로 visual feature와 매칭되어 문장 단위로 합쳐져 모호해진 text feature의 문제점을 해결한다. 분리한 text는 position label을 생성하여 position alignment loss와 object classificaion을 위한 supervise로 사용한다. 생성된 position label과 decoupled text feature는 dot 곱을 취한다(figure 3(c). 이때 decouple된 text는 각각의 의미를 담고 있지만 transformer의 attention mechanism 덕에 global 정보도 포함된다.
2.2. Multimodal Feature Extraction
text와 3D point cloud를 RoBERTa와 PointNet++를 활용하여 encode를 한다. 이 때 encoder내에서 self-attention, cross-attention을 취하며 visual, text feature가 cross-modal feature로 업데이트 된다. 그 후 top-k개의 visual feature를 선택하고 proposal feature로 project하여 decode된다. 해당 decoded feature는 MLP를 거쳐 position label로 출력되어 text position label과 매칭된다. 또한 또다른 MLP를 거쳐 object feature를 출력하여 text feature와 매칭되어 loss 계산이 이루어진다. 그 후 최종적으로 box prediction head를 통해 bounding box를 출력하는 구조이다.
2.3. Dense Aligned Loss
Dense Position Aligned Loss
auxiliary object를 제외한 text를 포함한 main position label과 auxiliary object만을 포함한 auxiliary position label, 그리고 그 외의 candidate를 포함한 other position label로 이루어진 text position label과

prediction에 softmax를 취해 visual prediction position label을 매칭한 loss를 설계한다.

Dense Semantic Aligned Loss


text와 visual가 매칭될 수 있도록 학습하는 semantic alignment loss는 위의 두 loss로 구성이 된다. positive 일 경우 +, negative일 경우 -로 contrastive learning을 진행하는데, 이 때 object loss에서 w_에서 auxiliary object는 weight를 2배로 한다. 이는 main object와 confusion을 막기 위한 설계이다.
2.4. Explicit Inference

이후 inference 단계에서는 candidate의 score 중 가장 높은 것을 추론한다.
3. Experiments


3.2. Grounding without Object name (VG-w/o-ON)

