728x90
반응형
Goal
- Multiscale의 물체를 detection하기 위한 일반적인 feature representations을 학습하는 것
- 모든 scale에 대해 강력한 semantics를 갖도록 하는 것
Challenges
- example images에서 가능한 모든 scales의 물체를 검출하는 것
- Semantic strong multiscale feature map(Feature representationts) 학습하도록 함
- Object detection에서 다양한 application(ex. object proposals, box locatlization, instatnce segmentation)을 위한 일반적인 feature design 함
- 효율적인 multiscale feature map(feature representations) 계산이 가능하도록 함
방법
- semantically strong multiscale feature representations을 생성 위해 ConvNet의 leverage feature hierachy 사용
- single forward pass에서 multiscale feature을 얻음
- original bottom-up ConvNet 구조에서 최소한의 cost만 추가
- 일반적인 convolution network 구조(Conv → Relu → Pooling)을 활용
- multiscale feature pyramid에서 end to end learning이 가능하도록 함
image pyramid의 feature | pyramidal feature hierarchy | single feature map |
장점: semantically strong 단점: costly to compute |
장점: fast to compute 단점: week features |
장점: fast to compute 단점: low res features |
Architecture
- Top-down과 lateral connection을 사용
- Semantic이 강한 low resolution(top layer를 의미)과 semantic이 약한 high-resolution을 연결하여 사용
- top-down pathway에서 coarse feature map을 2배 up sampling
- lateral connection으로 부터 소실된 high-resolution 정보를 추가
Bottom-up pathway
- higher pyramid levels의 feature map들은 semantically 강하고 spatially 약함
- 특징이 강하고 공간 해상도는 떨어짐
- SSD는 detection을 위해 상위 layer만 사용
- 하위 layer를 사용하면 높은 해상도로 인하여 속도가 저하되기 때문
- 작은 물체에 대한 detection 성능도 떨어짐
Top-down pathway and lateral connection
- Semantic이 강한 layer로부터 해상도의 layer를 구성
- 재구성된 레이어는 semantic 정보가 강할지 모르나, up/down sampling으로 인해 물체의 위치가 정확하지 않음
- Lateral connection을 통해 localization 보정
- Top-down과 lateral connection을 통해 검출/위치 예측의 성능을 높이고, ResNet의 Skip Connection과 같이 학습을 쉽게 만들어 줌
- Higher pyramid levels의 feature map들은 semantically 강하고, spatially 약함
- 의미가 강하고 공간은 거친 feature map
- → up sampling 하여 higher resolution을 갖게 만듦
- Up sampling한 feature와 기존 bottom-up pathway에서 생성된 feature를 lateral connection 함
- Lateral connection한 feature은 semantically에 약하지만 spatially 강인함
- 2개의 feature maps는 element wise sum으로 1개의 feature map이 되고, 거기에 3x3 convolution을 적용하여 feature map 생성
728x90
반응형
'Machine Learning > CNN' 카테고리의 다른 글
[Machine Learning] U-Net Model (0) | 2021.03.12 |
---|---|
[Machine Learning] DenseNet (0) | 2021.03.08 |
[Machine Learning] Transfer Learning with CNNs (0) | 2021.03.05 |
[Machine Learning] ResNet(Residual Network) (0) | 2021.03.05 |
[Machine Learning] GoogleNet (Inception V4) (0) | 2021.03.05 |