지난 포스팅에 이어서 기술된 포스팅이다. 5. Results and Analysis 5.2 Training from scratch with less data 자 얘내들이 이번엔 두 번째 발견을 하셨다는데...이게 논문에 신기하다고 쓰여있는데 이거 진짜 신기하다. (기존의 통념이 날라가는 것만 같은....) 이번엔 원래 가지고 있는 학습 데이터도 조금만 학습해보고 그렇게 나온 결과들을 기술한다. 우리가 기존에 가지고 있는 통념이라면 Deep Network를 학습하려면 아무래도 Vanishing gradient가 발생하여 똑바로 학습이 안되고 이를 해결하기 위해 다양한 기법들이 있지만 가장 단순한 해결책으로 데이터를 무진장 많이 확보하여 학습하자가 가장 대표적인 방법이다. 이러면 Overfitting도 좀 억제되고 feature representation 자체가 좀 더 rich해진다랄까? 뭐 그렇게 되겠지가 있는데... 앞으로 나올 실험결과들은 좀 이러한 생각들을 많이 깨부셔주는 결과를 보여준다. <35k COCO training images.> 일단 기존의 COCO의 트레이닝 셋에서 약 1/3정도인 35,000장만 써서 학습을 해본 결과를 기술한다. 근데 그렇다고 원래의 Hyper-parameters를 사용해서 좋은 결과를 얻는 것은 아니다. 기존의 hyper-parameter를 적용하면 위 그림과 같이 Overfitting이 발생하게 된다. 그리고 심지어 저 결과는 ImageNet pre-training이 되었음에도 저런 현상이 일어난다. 오? 드디어 이 논문이 주장하는 내용과의 첫 번째 반례이구나!! 싶은데...이게 꼭 그렇게 봐서는 안된다. 우리가 가지고 있던 생각이 Overfitting을 피하려면 데이터를 무쟈게 많이 확보하자가 가장 단순한 아이디어인데 저 위의 결과는 ImageNet이란 지구상에서 공개된 것중 가장 방대한 데...