Computer Vision 18

[논문 리뷰] Open-Set Domain Adaptation for Semantic Segmentation

Open-Set Domain Adaptation for Semantic Segmentation https://arxiv.org/pdf/2405.19899 0. AbstractUnsupervised Domain Adaptaion(UDA)는 라벨링되어있는 source domain에서 라벨링되어있지않은 target domain으로 각 pxiel의 지식을 전달하는 것을 목표로 한다. 하지만 현재 UDA방법은 전형적으로 label space를 source와 target이 공유하여 target domain에서 novel category가 등장하는 real world에서 제한이 있다. 본 논문에서는 target domain에 unknwon class가 포함되는 Open-Set Domain Adaptaion for S..

논문리뷰 2025.02.26

[논문 리뷰] Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models

Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models https://arxiv.org/pdf/2407.13642 0. Abstractimage-caption 쌍의 large-scale로 pre-train한 diffusion model을 사용하여 open vocabulary 3D semantic understanding을 위한 Diff2Scene를 제안한다. 이는 object, 외형, 재질, 위치, 구성요소 등을 효과적으로 구분하며, SOTA 성능을 달성하였다. 1. Introductionopen vocabulary task는 카테고리, 세부속성(모양, 색상, 재질 등), 복잡한 조합까지 text로 설명된 모든 semant..

논문리뷰 2025.02.18

[논문 리뷰] Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models https://arxiv.org/pdf/2303.04803 0. AbstractODISE: Open-vocabulary DIffusion-based panptic SEgmentation을 제시한다. 이는 pre train된 text-image diffusion, discriminative model을 활용하여 open vocabulary panoptic segmentation을 수행한다. text-to-image diffusion model은 open vocabulary lanugage description에서 높은 퀄리티의 이미지를 생성하는 능력을 가지고 있다. 이는 re..

논문리뷰 2025.02.04

[논문 리뷰] Open-Vocabulary 3D Semantic Segmentation with Foundation Models

Open-Vocabulary 3D Semantic Segmentation with Foundation Models 0. Abstract3D 환경에서 카테고리의 제한없이 다양한 범위의 물체를 인식하는 것은 real-world에서 불가피해졌다. 이를 위해 open vocabulary 3D semantic segmentation framework인 OV3D를 소개한다. OV3D는 vision과 language foundation model을 활용하여 3D point cloud와 문맥적인 entity description간을 일치시켜 광범위한 open world 지식을 활용한다. entity description은 문맥적인 정보를 활용하여 더 상세하고 정확한 이해를 할 수 있게 해준다. 이처럼 3D domain..

논문리뷰 2025.01.13

[논문 리뷰] Learning for Transductive Threshold Calibration in Open-World Recognition

Learning for Transductive Threshold Calibration in Open-World Recognition https://openaccess.thecvf.com/content/CVPR2024/papers/Zhang_Learning_for_Transductive_Threshold_Calibration_in_Open-World_Recognition_CVPR_2024_paper.pdf 0. Abstract거리기반의 임계값을 설정하는 것은 open world에서 중요한 일이다. 학습된 임베딩 모델에서 거리 기반의 임계값을 찾는 것을 open world threshold calibration이라고 정의한다. 유사한 거리 분포를 가진 테스트 데이터를 필요로 하는 기존의 임계값 calibra..

논문리뷰 2025.01.06

[논문 리뷰] Towards Open World Recognition

Towards Open World Recognition https://arxiv.org/pdf/1412.5687 0. Abstractreal world에서 recognition은 조절되어있는 실험실 환경에서 나타나지 않는 challenge들을 가진다. dataset은 dynamic하고 novel category는 계속해서 탐지되고 추가되야 한다. 이러한 문제들을 다루기 위해 저자들은 Open World recognition을 제안하고 정의한다. open world recognition system을 평가하기 위한 protocol과 객체의 카테고리를 점차 추가하고 모델을 효율적으로 진화시키는  NNO(Nearest Non-Outlier) 알고리즘을 제시한다. 1. Introductionopen world ..

논문리뷰 2025.01.05

[논문 리뷰] Open-set Semantic Segmentation for Point Clouds via Adversarial Prototype Framework

Open-set Semantic Segmentation for Point Clouds via Adversarial Prototype Framework https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Open-Set_Semantic_Segmentation_for_Point_Clouds_via_Adversarial_Prototype_Framework_CVPR_2023_paper.pdf 0. Abstract저자들은 Adversarial Prototype Framework(APF)를 제안한다. 이는 open-set 3D semantic segmentation을 다루며, seen class point는 유지하면서 3D unseen class를 구분하는 것을 목..

논문리뷰 2024.12.19

[논문 리뷰] PDF: A Probability-Driven Framework for Open World 3D Point Cloud Semantic Segmentation

PDF: A Probability-Driven Framework for Open World 3D Point Cloud Semantic Segmentation https://arxiv.org/pdf/2404.00979 0. Abstract존재하는 point cloud semantic segmentation network는 real world에 대한 closed-set과 정적인 관점으로 인해 unknown class를 구분하지 못하고, knowledge를 update하지 못한다. 이는 intelligent agent가 잘못된 결정을 내리게 한다. 이를 해결하기 위해  open-world semantic segmentation인 Probability-Driven Framework(PDF)를 제안한다. 이는 다..

논문리뷰 2024.12.05

[논문 리뷰] Entropic Open-set Active Learning

Entropic Open-set Active Learning https://arxiv.org/pdf/2312.14126 0. AbstractActive learnin(AL)은 unlabeled data에서 가장 informative sample을 선택하여 annotation함으로써 deep model의 수행을 향상시키는 목적을 가진다. closed set에서 인상깊은 수행을 보이지만, 대부분의 AL은 unknown category가 포함된 unlabel데이터인 real-world에서 성능이 떨어진다. 저자들은 AL동안 informative sample을 효과적으로 선택하기 위해 known과 unknown 분포를 사용하는 Entropic Open-set AL(EOAL)을 제시한다. 1. Introducti..

논문리뷰 2024.12.04

[논문 리뷰] Learning Transferable Visual Models From Natural Language Supervision (CLIP)

Learning Transferable Visual Models From Natural Language Supervision https://arxiv.org/abs/2103.00020 총 48페이지의 방대한 논문으로 다 읽지는 못했다. 하지만 신인의 패기(?)로 첫 세미나를 해당 논문으로 진행했었는데 그 때의 발표자료를 참고하여 리뷰를 작성해보려 한다. 1. IntroductionNLP에서 GPT와 같이 raw text를 이용하여 학습하는 Pre-training 방법이 몇 년간 발전해왔다. 그러나 computer vision에서는 여전히 label 데이터셋을 사용하고 있어 저자들은 web text로부터 pre-training을 하는 방법이 computer vision에 돌파구가 될 것이라 생각했다. 이를..

논문리뷰 2024.11.27