본문 바로가기
머신러닝(Machine Learning)

NLP 트랜스포머 첫 번째, RNN에서 트랜스포머로

by Blaze_블즈 2023. 7. 24.

 

안녕하세요 

블레이즈 테크 노트의 블레이즈 입니다. 

 

지난 포스팅에서 인공신경망 기계 번역(NMT)에 대해서 공부했습니다. 

RNN을 활용한 Seq2Seq 모델을 기초로 했었죠. 

https://blazetechnote.tistory.com/entry/NLP-시퀀스-투-시퀀스-신경망-기계-번역-모델Seq2Seq-Neural-Machine-Translation-기초

 

그러다가 이 RNN 모델의 한계를 뛰어넘은 어텐션 개념이 등장했습니다. 

 

아래의 포스팅에서 Seq2Seq부터 어텐션 메커니즘을 정리해봤으니 궁금하시면 들러주세요:)

https://blazetechnote.tistory.com/entry/NMT인공-신경망-기계-번역-Seq2Seq-에서-어텐션-메커니즘까지-정리

 

NMT(인공 신경망 기계 번역) Seq2Seq 에서 어텐션 메커니즘까지 정리

안녕하세요 블레이즈입니다. 지난 두 포스팅에서 인공신경망 기계 번역 Neural Network Machine Translation을 다뤄봤습니다. 먼저 순환신경망인 Recurrent Neural Network에 대해 공부했었죠. https://blazetechnote.ti

blazetechnote.tistory.com

 

오늘은 구글에서 발표한 트랜스포머 논문에 대해서 인트로 글을 써보려고 합니다. 

트랜스포머 모델의 원제목은 "Attention is All You Need"입니다. 

 

트랜스포머 논문이 등장하기 전까지 기계 번역에서 어텐션 메커니즘은 항상 RNN을 보조하는 용도로 사용되었습니다. 

 

https://towardsdatascience.com/sequence-2-sequence-model-with-attention-mechanism-9e9ca2a613a

 

하지만 이 논문에서 최초로 RNN을 빼고 어텐션 메커니즘만을 활용한 모델을 만들었고

RNN의 단점을 커버하는데 성공했습니다. 

 

 

RNN의 단점은 첫 째, 긴 문장을 번역하는데 정확성이 떨어진다는 점

둘 째, 병렬화가 어려워서 트레이닝이 어렵다는 점이었습니다. 

 

어텐션 메커니즘의 도입을 통해 첫 번째 단점은 해결은 했지만 여전히 병렬화가 어려웠는데

구글에서 병렬화가 가능한 트랜스포머 모델을 제시하면서 모델의 학습 속도가 월등히 빨라졌습니다.

 


트랜스포머 모델은 NMT(신경망 기계 번역) 영역에서 큰 발전을 이끌어낸 모델입니다. 

오픈AI의 GPT-3도 이 트랜스포머 모델을 활용한 인공지능이죠. 

 

그러나 최근에는 이 트랜스포머 모델을 이미지에도 활용하고 있습니다. 

다시 말해 트랜스포머 아키텍처가 언어 번역 뿐만 아니라 이미지 분석으로도 지평을 넓혀가고 있습니다. 

 

 

GPT-3는 다음과 같이 말했다고 합니다. 

나는 사람이 아닙니다. 고통을 느낄수도 없고 즐기지도 않습니다.
나는 그저 어떤 결과물이 나올 가능성을 예측하는 차가운 기계일 뿐입니다.

 

우리는 GPT를 보면서 정말 놀라운 생성 AI 모델이라고 생각하지만 

사실 알고보면 GPT-3는 단 한번도 인간의 자연어를 마주한 적 없습니다. 

https://youtu.be/-QH8fRhqFHM

 

GPT-3는 이렇게 숫자의 나열만을 알고 있습니다. 

이 숫자의 나열을 Feed Forward Network를 통해 단어로 바꿔서 우리에게 보여주는 것입니다. 

 

 

감사합니다. 

 

블레이즈 테크노트