CV 18

[논문 리뷰] Open-world Semantic Segmentation for LIDAR Point Clouds

Open-world Semantic Segmentation for LIDAR Point Clouds https://arxiv.org/pdf/2207.01452 0. Abstract현재 LIDAR semantic segmentation 방법은 closed set, static 하기 때문에 real world에서 robust하지 않다. 그래서 저자들은 아래의 내용을 목표로 하는 LIDAR point cloud를 활용한 open-world semantic segmentation task를 제안한다.1) open-set semantic segmentation을 활용하여 기존의 class와 novel한 class를 모두 구분한다.2) 기존 class를 잊지 않고 incremental learning을 활용하여 기..

논문리뷰 2024.11.26

[논문 리뷰] Open-World Semantic Segmentation Including Class Similarity

Open-World Semantic Segmentation Including Class Similarity https://arxiv.org/pdf/2403.07532 0. Abstract본 논문은 open-world semantic segmentation(학습동안 보지 못한 객체가 있는 이미지 데이터를 해석하는)을 다룬다. closed-world semantic segmentation을 정확하게 수행하면서, 동시에 추가적인 학습데이터 필요없이 새로운 카테고리 분리가 가능한 novel한 방법을 제시한다. 추가적으로 새로운 카테고리에 대해 학습한 카테고리 중 유사한 class를 제공한다. 이 방법을 통해 known class과 anomaly segmentation에서 최신 성능을 달성했고 unknown cl..

논문리뷰 2024.11.25

[논문 리뷰] Feedback-Guided Autonomous Driving

Feedback-Guided Autonomous Driving https://openaccess.thecvf.com/content/CVPR2024/papers/Zhang_Feedback-Guided_Autonomous_Driving_CVPR_2024_paper.pdf 자율주행관련 대학원 수업을 들으며 세미나 준비를 했던 논문으로 당시 발표자료를 참고하여 리뷰해보려 한다.(내용이 많이 생략되어 있을 수도 있으니 논문을 참고해주세요) 1. Introduction behavior cloning 즉 행동복제는 최근 자율주행에서 성공적인 패러다임으로 자리잡고 있다. 하지만 novel한 시나리오에서는 fail한 경우가 많다. 반면에 사람은 학습할 때 언어적으로 피드백을 받는다. 어느 부분이 잘못됐는지, 최적화되지 ..

논문리뷰 2024.11.24

[논문 리뷰] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

Swin Transformer: Hierarchical Vision Transformer using Shifted Windowshttps://arxiv.org/abs/2103.14030 0. Abstract본 논문은 새로운 vision Transformer인 SwinTransformer를 제안한다. transformer를 language로부터 vision으로 전환하는데 어려움이 있었는데, 예를 들어 시각적 entity의 차이, 텍스트에 비해 큰 해상도가 있다. 이를 다루기 위해, representation을 shifted window로 계산하는 계층적 transformer를 제안한다. shifted window는 self-attention을 overlapping되지 않는 local window로 제한하여..

논문리뷰 2024.11.21

[논문 리뷰] An Image Is Worth 16X16 Words:Transformers For Image Recognition At Scale(ViT)

An Image Is Worth 16X16 Words:Transformers For Image Recognition At Scalehttps://arxiv.org/pdf/2010.11929 0. AbstractNLP에서 Transformer가 사실상 standard가 되었지만 computer vision에는 적용이 제한되어있다. 하지만 저자들은 image classification에서 CNN없이 image patch의 sequence를 적용한 pure transformer를 성공적으로 보여주었다. 많은 양의 data를 pre-train하고 중간이나 작은 사이즈의 image로 구성된 benchmark를 사용했을 때, Vision Transformer(ViT)는 상대적으로 작은 계산량을 필요로하면서 최신 C..

논문리뷰 2024.11.19

[논문 리뷰] PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation

PointNet: Deep Learning on Point Sets for 3D Classification and Segmentationhttps://arxiv.org/pdf/1612.00593  0. Abstract Point cloud는 geometric data structure에서 중요하다. 불규칙적인 형태때문에 대부분의 연구자들은 3D voxel grid나 collection으로 데이터를 변환한다. 그러나 render된 데이터는 불필요하게 방대하고 문제를 일으킨다. 저자들은 point cloud를 바로 사용하는 novel type을 디자인한다. 이는 입력 point의 불변성을 잘 반영한다. PointNet은 scene semantic parsing부터 object classification, p..

논문리뷰 2024.09.25

[논문 리뷰] Attention Is All You Need(Transformer)

Attention Is All You Needhttps://arxiv.org/pdf/1706.03762 0. Abstract당시 주요한 sequence 변환 모델들은 complex recurrent 이나 인코더와 디코더를 포함한 convolutional neural network를 기반으로 한다. 또한 최신 성능의 모델들은 attention 메커니즘을 통해 인코더와 디코더가 연결되어 있다. 저자들은 Transformer라고 하는 recurrence와 convolution 전체를 배제한 오직 attention 메커니즘을 기반으로 한 새로운 네트워크 아키텍처를 제시한다. 2개의 기계번역을 대상으로 한 실험은 이 모델들의 품질이 우수함과 동시에 더 병렬 처리가 좋고 학습에 적은 시간을 필요로 한다는 것을 보여..

논문리뷰 2024.09.22

[논문 리뷰] ImageNet Classification with Deep Convolutional Neural Networks(AlexNet)

ImageNet Classification with Deep Convolutional Neural Networkshttps://papers.nips.cc/paper_files/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf 0. Abstract저자들은 120만개 고해상도 이미지를 LSVRC-2010 대회에서 1000개의 클래스로 분류했다. 테스트 결과 top-1 and top-5 error rates of 37.5% and 17.0% 성과를 거뒀고 최신 기술보다 나아졌다. 이 신경망은  60 million parameters and 650,000 neurons, five convolutional layers, max-pooling layers, a..

논문리뷰 2024.08.28