논문리뷰

[논문 리뷰] Open-world Semantic Segmentation for LIDAR Point Clouds

씨주 2024. 11. 26. 23:00

Open-world Semantic Segmentation for LIDAR Point Clouds

 

https://arxiv.org/pdf/2207.01452

 

0. Abstract

현재 LIDAR semantic segmentation 방법은 closed set, static 하기 때문에 real world에서 robust하지 않다. 그래서 저자들은 아래의 내용을 목표로 하는 LIDAR point cloud를 활용한 open-world semantic segmentation task를 제안한다.

1) open-set semantic segmentation을 활용하여 기존의 class와 novel한 class를 모두 구분한다.

2) 기존 class를 잊지 않고 incremental learning을 활용하여 기존 knowledge base에 점진적으로 novel 객체를 포함시킨다.

이를 위해 open-set semantic segmentation과 incremental learning를 모두 활용한 REdundAncy cLassifier(REAL)을 제안한다. 실험결과는 REAL이 open-set semantic segmentation에서 최신 성능을 달성함과 동시에 incremental learning동안 large margin을 두고 망각 문제를 완화한다.

 

1. Introduction

Figure 1.

현재 존재하는 LIDAR semantic segmentation 방법은 모두 closed-set, static하다. 모든 입력에 대해 closed-set network는 학습동안 발생한 카테고리로 할당한다. 따라서 기존 class의 라벨은 novel class에도 잘못 배정하여 자율주행같은 안전에 예민한 상황에 재앙적인 결과를 가져올 수 있다. 한편 static network는 새로운 환경에 적응하기 위해 스스로 업데이트하지 못하기 때문에 특정 상황에 제한적이다.  또한 새로운 장면에 대해 적응하기 위해 처음부터 학습시키는 것은 시간소요가 많이 되고 privacy문제로 기존의 class의 annotation은 가끔 불가하다.

이러한 closed-set, static 문제점을 해결하기 위해, 저자들은 2개의 task로 구성된 LIDAR point clouds open-world semantic segmentation을 제안한다. 1) 기존의 class에 대해 올바른 label이 배정됨과 동시에 novel한 class에 대해 unknown label을 배정한 open-set semantic segmentation(OSeg), 2) novel한 class에 label을 제공한 후 점진적으로 knowledge base에 novel class를 통합하는 incremental learning(IL)

3D LIDAR point cloud OSeg task가 없기 때문에 2D task를 참고해야 하는데, generative network 방법과 uncertainty 방법 2가지가 있다. generative network방법은 conditional genrative adversarial network(cGAN)을 채택했으나 point cloud reconstruction에는 적합하지 않다. point cloud는 모든 정보가 geometry 정보로 결정나는데, cGAN는 geometry 정보는 변경하지 않으면서 channel 정보(RGB값)만 reconstruct할 수 있기 때문이다. uncertainty 방법 또한 Figure 3.(a)와 같이 novel한 class를 old class로 높은 confidence 점수로 예측하고 있기 때문에 적합하지 않다. (novel class가 unknown class에 낮은 MSP(Maximum Softmax Probability)를 가진다는 것은 closed-set prediction에서 novel class가 old class로써 높은 confidence로 분류된다는 것을 의미한다.)

Figure 3 (a).

 

추가로 OSeg task는 incremental learning을 하면 old class를 잊어버리는 풀어야 할 문제가 있다.

따라서 저자들은 OSeg와 IL task 모두를 해내기 위해 동적인 분류 아키텍처를 가지는 REdundAncy cLassifier(REAL)를 제안한다. OSeg task는 unknown class를 예측하기 위해 기본 network를 기반으로 여러 redundancy classifier(RCs)를 추가한다. 그러면 IL task동안, 여러 RCs가 새로운 class에 대해 학습하고 남은 RCs는 여전히 unknown class를 담당한다.

요약한 contribution은 다음 3가지와 같다.

- 처음으로 OSeg와 IL task로 구성된 LIDAR point cloud open-world semantic segmentation를 정의한다.

- unknown object 합성, 예측분포보정, pseudo label 생성을 기반으로 OSeg와 IL task 모두를 하는 일반적인 아키텍처를 제공하는 REAL model를 제안한다.

- SemanticKITTI와 nuScene데이터셋을 기반으로 하는 benchmark와 3D LIDAR point cloud OSeg와 IL을 평가를 만들었다.

 

2. Related Work

Closed-set LIDAR Semantic Segmentation

LIDAR point cloud semantic segmentation는 point base와 voxel base 방법으로 나눌 수 있다. 그 중 Cylinder3D라는 voxel 기반의 방법이 SemanticKITTI와 nuScene에서 최신 성능을 달성하였기 때문에 저자들은 이 모델을 base 아키텍처로 채택하였다.

 

3. Open-world Semantic Segmentation

training set에 있는 old class와 label는 아래와 같다.

closed-set semantic segmentation과 달리 open-world semantic segmentation에는 test set에 novel class가 포함된다.

이미 closed-set으로 학습된 모델 Mc가 있다고 가정해보자. 그렇다면 K0 안에서 출력이 될 것이다. OSeg task에서 Mc는 old class K0에서 label도 맞추고 novel class u에서 unknown label도 맞추기 위해서 Mo로 finetune될 것이다. IL task에서 novel class Kn을 줬을 때, knowledge base를 K0에서 K0, Kn합집합으로 넓히기 위해 M0는 더욱 finetune하여 Mi가 될 것이다.

따라서 class Kn은 unknown에서 known으로 바뀔 것이다. old class K0은 annotaion하지 않으면서 새로운 label은 annotation하여 novel class Kn에 포함 시킨다. 추가적으로 IL Mi 이후 남은 novel class Krn의 unknown label은 유지된다.

 

4. Methodology

Figure 2.

OSeg task

OSeg task는 Mo가 novel class u를 unknown으로 구분할 수 있게 하기 위해 closed-set model Mc를 open-set model Mo로 바꾼다. 이를 위해 r rudundancy clasifiers(RCs)를 추가한다.

Mo에 있는 모든 RCs는 unknown class인 yuk 점수를 예측하기 위해 사용된다. yuk의 최대치를 class 0으로 나타내는 unknown class의 점수로 한다.

 

IL task

IL task는 open-set model Mo를 새롭게 들어온 Kn class를 unknown에서 known으로 바꾸기 위해 Mi로 학습한다. Mi는 남은 novel class Krn를 unknown으로써 구분하기 위해 여전히 open-set이다. 모든 RCs gre 사이에서 몇몇의 RCs(gnv)는 새롭게 소개된 class Kn을 구분하기 위해 사용되며, 남은 RCs(guk)는 unknown class Krn으로 유지된다.

 

4.2 Open-set Semantic Segmentation (OSeg)

OSeg(Mc에서 Mo로 학습)를 위해 학습시키는 2가지 방법을 소개한다.

 

Unknown Object Synthesis

Figure 4.

real novel object의 분포와 가깝게 하기 위해 LIDAR point cloud에 pseudo unknown object를 합성한다. 1) 합성한 객체는 반드시 실존하는 객체의 변하지 않는 기본 geometry feature(curved, flat surface 등)를 공유해야 한다. 이는 noise가 아닌 객체로 취급하고 real unknown 객체의 외형과 비슷하게 갖게 할 수 있다. 2) 합성과정은 최대한 빠르게 이루어져야 한다.

 저자들은 resizing하는 것이 geometric모양을 유지하면서 다른 크기에 대해 새로운 물체라고 인지할 수 있도록 하는  간단하지만 효과적인 방법이라고 말한다. 예를 들어 차, 트럭, 버스, construction vehicle은 비슷한 local geometric feature(전체적인 모양, 타이어 등)를 가지지만 크기가 다르다. 따라서 Figure 4의 (c), (d)와 같이 특정 old class의 물체를 선택하여 pseudo unknown object로써 resize시킨다. 그래서 입력 P는 합성객체 Psyn과 바꾸지 않은 일반 객체 Pnm으로 나뉜다. 합성 객체의 loss는 다음과 같다. l은 cross-entropy loss이며, 합성 객체의 GT label은 unknown class 0으로 설정된다.

 

Predictive Distribution Calibration

closed-set 예측에서 novel 객체는 높은 점수를 가지며 old class로 분류가 된다. 저자들은 이를 probability calibration으로 완화하려했고 조정된 점수는 Fig 3(b)와 같다.

Figure 3.

모든 old class의 point를 original class에 대해 가장 큰 점수를 가지고 unknown classdㅔ 대해 2번재로 큰 점수를 가지게 강제했다. 이를 통해, 네트워크는 novel 객체에 대해 unknown class의 높은 예측 점수를 가진다.

 

Loss Function

Unknown Object Synthesis, Predictive Distribution Calibration를 통해 Mc에서 Mo로 학습시키기 위한 loss는 아래와 같다.

 

4.3 Incremental Learning (IL)

IL task는 Mo를 Mi로 학습시키는 것이고, Mi는 novel class Krn을 unknown으로 남겨놓으면서 새로운 class Kn과 old class K0 모두를 구분할 수 있다. novel class를 finetune 할 때 catastrophic forgetting이 발생하는데 저자들은 이 문제를 해결하기 위해 Pseudo Label Genration를 사용하였다.

 

Pseudo Label Genration

Figure 4 (c)와 같이 전체 point cloud Ynm의 pseudo label을 생성하기 위해 pYold와 Ynv를 합친다. Ynm에는 새로 발견한 Kn과 old class K0가 합쳐지기 때문에 Mi는 old class를 잊지 않고 새로운 class를 배울 수 있다.

 

Loss Function

IL 이후에도 open set을 유지하기 때문에 OSeg에 썼던 Unknown Object Synthesis와 Predictive Distribution Calibration을 사용한다.

따라서 Mo에서 Mi로 학습하는 Loss는 다음과 같다.

 

5. Experiments

5.1 Open-world Evaluation Protocol

open-set semantic segmentation model Mo를 평가 하기 위해 closed-set과 open-set 성능 모두를 고려하였다. closed-set은 mIoU, open-set은 area under the ROC curve(AUROC), area under the precision-recall curve(AUPR)로 성능평가를 하였다.

Table 1.

 

5.2 Open-set Semantic Segmentation (OSeg)

Figure 5.

 

5.3 Incremental Learning

Table 3. / Table 4.

 

5.4 Open-world Semantic Segmentation

Figure 8.