BERT 이전에 NLU task에서의 SOTA는 ELMo였다. 그래서 먼저 나온 Decoder 기반의 GPT와 ELMo, BERT는 항상 비교를 하며 사용되고는 한다. 이전의 논문 리뷰를 확인해보면 ELMo와 BERT의 차이점을 잘 정리하였기에 이번 리뷰에서는 ELMo에 대하여만 간단하게 리뷰를 남기고자 한다.
ELMo는 Embeddings from Language Models의 약자로, 여러개의 사전 훈련된 (bi)LM으로부터 Embedding시키는 방식이다. 논문에서 소개하는 이 model의 장점을 크게 두가지로 나누어 볼 수 있다. 'high quality deep context-dependent representation & 다양한 NLP task에서의 성능 향상'으로 정리해보고자 한다. 여기에서 high quality deep context-sepensent representation은 biLSTM을 사용하였기에 Word2Vec, GloVe 등과 같은 기존의 Word Embedding 방식(한 단어에 하나의 independent representation만 생성할 수 있다는 단점)과는 다르게 문맥을 파악할 수 있는 점을 강조한다. 또한 기존의 Word Embedding의 문제점을 해결하기 위해 subword information을 character convolution을 통해 학습하였다고 한. 논문에서 설명하는 모델의 architecture는 노션에 정리를 해두었다.

또한 실험한 내용(Experiment)을 확인해 보면 총 6가지의 NLP task에 대하여 baseline model에 ELMo를 함께 사용한 결과를 알 수 있었는데, 전체적으로 성능이 향상된 것을 볼 수 있다.
본 논문에서 내가 가장 흥미롭게 본 부분은 ELMo를 NLU task에 적용하는 과정에서 여러 task를 수행 가능하게 만들기 위해 biLSTM의 Parameter를 Freeze시킨 후 ResNET에서 사용된 skip connection 방식을 이용한다는 점이었다. 이를 통해 몇몇 LSTM은 새로 생성한 문맥을 고려한 단어 임베딩을 task 모델의 입력으로 직접 제공받을 수 있어 훨씬 더 해당 task에 맞는 방식으로 문맥을 고려할 수 있는 것 같다.
※ 논문 요약은 📋노션에 자세하게 정리해 두었다.
'MAD Learning > NLP' 카테고리의 다른 글
| RNN : Recurrent Neural Network (4) | 2024.07.22 |
|---|---|
| [ 논문 리뷰 ] GPT-2 : Language Models are Unsupervised Multitask Learners (0) | 2024.03.02 |
| [ 논문 리뷰 ] BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding (0) | 2024.02.18 |
| [논문 리뷰] GPT-1 : Improving Language Understandingby Generative Pre-Training (1) | 2024.02.11 |
| [논문 리뷰] Transformer : Attention Is All You Need (0) | 2024.02.03 |