[논문 리뷰] Rethinking ImageNet Pre-training (002)

지난 포스팅에 이어서 기술된 포스팅 이다.

3. Methodology

이분들의 목표는 다시한번 또 말하지만 ImageNet의 pre-training 무용을 보여주고 싶은 것이다!! 테크니컬 리포트 성격이 강한 논문이기에 구조적 개선에 대한 내용보단 pre-training에 대한 분석적인 관점을 가지고 논문을 보면 좋겠다. 특히 지난번 포스팅에서 언급했듯이 다시한번 두가지 관점에서 해당 섹션에 대해 설명한다.

Model Normalization

Training Length

3.1 Normalization

이미지 분류기 학습은 좀 더 능률적인 최적화를 위해 normalization 기법들을 필요로 한다.

Normalization의 성공적인 사례는 여기선 두가지로 보는데 normalized parameter init와 activation normalization layers이다. 어쨋든 이건 이렇다 치고 이미지분류 이외에도 디텍터를 학습할때도 저런 normalization안쓰면 학습은 어렵다고 말한다. (맞음ㅇㅇ)

대표적으론 Batch Normalization (BN) 이 있긴하다. 근데 디텍션에서는 주로 고해상도 영상을 다루고 이에 따라 한정된 메모리자원에서는 배치사이즈를 조금 줄여서 쓸 수밖에 없다. 이런식으로 배치사이즈를 줄여버리면 BN의 성능이 후져진다. 이러한 이슈는 만일 우리가 pre-training을 한다면 fixed param으로 해결해 버릴 수가 있지만, 초장부터 학습하는 본 연구에서는 이러한 방법은 전제자체가 잘못되었다.

그래서 이친구들이 대체로 생각한 두가지 normalization 기법을 소개한다.
(1) Group Normalization (GN) : 배치의 차원과는 독립적인 연산을 함. 배치크기와 아무 상관 없음.
(2) Synchronized Batch Normalization (SyncBN) : 멀티gpu 기반의 BN. 뭐 당연히 멀티gpu를 위한 좀 효율화된 BN이겠지...

그래서 본 실험에서는 GN, SyncBN을 사용해 pre-training없이 처음부터 쌩으로 학습한다. 또 여담으로 appropriately normalized initialization 을 사용해서 VGG로 디텍터를 학습시키면 BN, GN조차 필요없이 쌩으로 학습이 가능한것도 말해준다.

3.2 Convergence

당연히 ImageNet으로 pre-training된 모델보다 비슷하게 수렴하는건 가능하지도 않고 미친소리이다. 지금 이 논문에서는 수렴을 빨리 하자가 아니라 시간만 주어진다면 결국엔 이놈이나 저놈이나 그게 그거가 된다를 말하는 걸 다시한번 상기하자.

ImageNet으로 pre-training한 모델은 ImageNet의 semantic information과 low-level feature (영상에서는 edge, texture같은 걸 의미함)를 학습하는 반면 쌩으로 첨부터 학습하는건 low-feature든 high-feature든 싹다 학습해야 하기 때문에 당연히 ImageNet보단 더 많이 학습시키는 건 자명한 사실이다.

픽셀 하나하나를 샘플 수로 볼 때, ImageNet기반 pre-training과 random initialization기반 from-scratch케이스는 거의 비슷하다!

With this motivation, 이분들은 일단 더 많이 학습해야 한다고 주장한다. 대신에 기존의 논문들은 pre-training에 들였던 시간을 제쳐둔채 fine-tuning에 들인 시간만 논하는데 그러지 말아보자는 의견과 함께...세가지를 기준으로 한번 비교를 해보는데
1. images : 정말 이미지 개수
2. instances : 이미지내에 우리가 원하는 라벨의 객체들의 개수
3. pixels : 귀찮다.. 말그대로 픽셀
암튼 그 비교가 Figure 2에 기술되어있는데

pre-train이 안된대신 COCO를 3배 더 학습하는 것을 전제조건으로 한다. 그것으로부터 일단 이미지 장수만 보면 엄~청나게 큰 차이가 난다. ImageNet기반 pre-training이 훨씬 학습을 더 많이 하는 것처럼 보인다.
하지만 instance를 놓고보면 차이가 좁혀지는데 일단 ImageNet은 딱 하나의 라벨만 있는 반면 COCO에는 최대 7개까지 한 이미지에 있을 수 있다. 그러니 학습할 분량이 단순 이미지 장수로 비교하는 것보단 늘어난다.
또한 가장 중요한 픽셀단위로 볼때, ImageNet이 224x224인 반면 COCO는 무려 800x1333의 high-resolution이다. 그래서 각 인스턴스들의 픽셀로 놓고보니 거의 그 차이가 좁혀진다.

즉 이게 시사하는 바는 random initialization으로 pre-train없이 학습하는건 '픽셀'의 관점에서 볼 때, 충분한 샘플 수가 필요하단 것을 말한다.

음 여기까지가 3장 메소드 설명이고
이제 이 논문의 가장 핵심인 실험결과들 설명이 나오는데...
길다...

다음 포스팅에서 다루겠다.

Younkwan Lee's Homepage

이 블로그 검색