티스토리 뷰

ML DL

[논문읽기][SSD]Single Shot MultiBox Detector

무엇보다_빛나는_샤트 2022. 2. 16. 23:37

안녕하세요

프로그래밍을 배우는 빛나는 샤트입니다.

 

Abstract, Introduction을 읽고 제 언어대로 해석해 적은 것입니다.
전체 내용은 추후 업데이트 예정입니다.

 

일시: 2021.05.25(화)

 

오늘 읽어볼 논문은 'Single Shot MultiBox Detector'입니다.

논문 링크: https://arxiv.org/pdf/1512.02325.pdf

 


Abstract(요약)

여기서는 single deep 신경망을 이용해 객체를 탐지하는 방법을 소개한다.

SSD라고 하는 이 방법은 bbox의 출력 공간을 feature map마다 각각 다른 종횡비와 비율을 적용한 default box와 이산화하는 방법이다.

예측할 때는 네트워크는 각각 default box의 객체 카테고리의 점수(정확도인듯)를 생성하고 객체의 외관과 더 비슷한 box의 조정값을 생성한다. 추가적으로 네트워크는 다중의 특성 맵으로부터 나온 예측(다양한 사이즈의 resolution을 통해 나옴)들을 결합한다.

SSD는 객체 제안을 요청하는 것과 연관해서 보면 간단하다. 왜냐하면 이것은 완벽하게 proposal generation과 이후의 픽셀 또는 특성 리샘플링 스테이지를 제거한다. 그리고 single network내의 모든 계산을 요약한다.

 

300x300 사이즈의 입력 이미지가 주어질 때 SSD는 74.3% mAP 달성(VOC 2007), 59FPS(Nvidia Titan X)

512x512 사이즈의 입력 이미지가 주어질 때 SSD는 76.9% mAP 달성(당시 SOTA였던 Faster R-CNN보다 좋다)

다른 single stage method와 비교하면, 더 작은 이미지 입력으로 더 좋은 정확도를 보였다.

 


1. Introduction(소개)

 

*아래 내용은 논문 내용과 이미 정리한 분의 블로그 글을 읽고 정리한 것.

1. 구조: VGG-16을 base로 사용. 또한 보조 network(auxiliary network)사용.

2. 특징

  • 두 네트워크를 연결하는 과정에서 Fully Connected layer를 convolution layer로 대체(속도 상승!)
  • Convolution layer에서 얻은 feature map을 활용! 6개의 서로 다른 scale의 feature map을 예측에 사용
  • 즉, 크기가 다양한 환경에서도 좋은 인식률을 보여줄 수 있다.
  • feature map은 서로 다른 scale, aspect ratio(이미지의 종횡비)을 가지는데 이를 가지고 있는 bbox와 비슷한 default box를 사용해 객체 위치 추정

위 그림과 같이 feature map이 다양한 scale, aspect ratio를 가지고 있어서 다양한 크기의 객체를 포착 가능

 


SSD의 중요한 Point!

  • VGG16과 보조 네트워크 합성
  • FC layer를 conv layer로 대체
  • 다양한 크기의 feature map을 예측에 활용해서 다양한 크기의 객체를 탐지 가능
  • default box: R-CNN계열의 anchor box와 비슷한 개념으로 객체가 있을만한 영역을 네트워크가 생성하는 것.(x,y,w,h)

--> 다양한 크기의  feature map을 이용해 다양한 크기의 객체를 탐지할 수 있는 네트워크

 

 

 

 

내용에 오류가 있으면 피드백 언제나 환영입니다.😊

LIST
댓글