본문 바로가기

MAD Learning/NLP

[ 논문 리뷰 ] GPT-2 : Language Models are Unsupervised Multitask Learners

이번 리뷰하게될 논문은 GPT-2에 관한 내용이다. 이를 이해하기 위해 이전 논문인 GPT-1을 보고 와야한다(Architecture의 구조는 크게 변화하지 않음). 본 논문에서 가장 주의깊게 봐야할 부분은 해당 model에 Zero-shot 방식을 사용하기 위해 어떤 노력을 했는지 였다.

| Zero-shot : 모델이 훈련 중에 본 적 없는 새로운 태스크나 데이터에 대해 예측을 수행하는 능력

당시의 ML system은 성능이 비약적으로 좋아지고 있지만, 약하고 민감하여 약간의 데이터 혹은 task의 변화에도 많은 영향을 받기때문에 논문에서는 당시 system이 compentent generalist보다는 narrow expert와 유사하다는 비유적인 표현을 사용하였다. 이는 좋은 성능을 만들어 내기 보다는 특정 분야에만 좋은 성능을 보이는 방향성을 가지고 있기에 다양한 분야에 대한 탐색이 어렵다는 것이다. 하지만 세상에는 정제되어있지 않은 데이터들이 무한대로 늘어나고 있고, 이를 하나의 모델을 통해 기존의 방식을 사용하면 시간적, 비용적 측면에서 효율성이 없다고 판단을 하였다. 따라서 더 많은 task를 수행할 수 있는 “general system”이 필요하다고 생각을 하였고, 이는 수동으로 각 task에 대한 dataset을 만들고, 라벨링할 필요가 없는 system을 구축하는데 노력을 기울였다.

Architecture가 발전되기 위해서는 domain과 tasks에 대한 wide range training이 필요하다. 당시에는 pre-training과 fine-tuning을 같이 활용하는 model의 성능이 좋았지만 여전히 특정 task를 수행하기 위해서는 supervised training이 필요하다는 문제가 있었다. 따라서 wide range training을 unsupervised로 수행하기 위한 Zero-Shot Learning이 이 논문에서는 핵심 포인트인 것이다. 본 연구에서는 wide tange domain과 task에 해당하는 dataset을 Common Crawl과 같은 방식으로 수집을 하여 training하였다(특정 task에 맞는 dataset을 안찾기 위함). 이 방식에는 여러 문제점들이 있었기에 어느정도의 수작업은 들어간 것으로 보인다. 이렇게 수집된 무수히 많은 input data들을 해결하기 위해 BBPE(Byte-level BPE) 방식을 사용하여 base vocabulary of size를 256개로 축소하였다. 

결과적으로, GPT-2는 Zero-shot 설정에서 읽기 이해 태스크에서 경쟁력 있는 성능을 보이지만, 요약과 같은 다른 태스크에서는 성능이 아직은 기초적이라고 한다. 또한, Zero-shot performance은 GPT-2의 잠재력을 보여주지만, 미세 조정을 통해 성능이 얼마나 향상될 수 있는지는 아직 불분명한 단계라고 한다.


 지금의 ChatGPT를 생각해 보면 요약, QA, Cloze task, Translation 등의 여러 작업을 수행한다. 기존의 여러 NLP 모델을 보면 하나의 Architecture가 여러 작업에서의 수행을 위해 Pre-training과 Fine tuning을 필수적으로 한 모습을 볼 수 있었는데, GPT-2를 확인해보면 현재의 ChatGPT가 어떻게 구동이 되기에 한번에 여러 task를 수행할 수 있는지 이해를 할 수 있었다. 이번 논문을 통해 내가 모델링을 할 때 한번더 확인해야겠다고 생각한 부분 중 하나가 '데이터의 중복'이다. Computer Vision(CV)의 최근 연구에 따르면 일반적인 이미지 dataset의 상당 부분이 중복된 이미지들을 포함한다고 한다. 그 예시로 CIFAR-10's dataset은 훈련 및 데스트 이미지 간의 중복이 3.3%로 무시할 수 없는 비율을 가지고 있는데, 이러한 현상은 WebText와 같은 dataset에서도 충분히 나타날 수 있고 이는 성능에도 영향을 미치므로 훈련 데이터에서 얼마나 많은 테스트 데이터가 중복되는지에 대한 분석 필요성이 있다는 것을 느꼈다.

 

 

 ※ 본 논문에 대한 정리는 Notion에서 확인할 수 있다.