본문 바로가기
머신러닝(Machine Learning)

NLP 트랜스포머 모델 데이터셋 wmt14 다운로드하기

by Blaze_블즈 2023. 8. 5.

안녕하세요 

블레이즈 테크노트의 블레이즈 입니다. 

 

이번 포스팅에서는 트랜스포머 논문에서 훈련 데이터로 사용했던 데이터셋을 다운받아보도록 하겠습니다. 

 

pip install tensorflow-datasets

먼저 이렇게 해서 텐서플로우 데이터셋을 다운받아줬습니다. 

 

import tensorflow_datasets as tfds

# 데이터셋 다운로드
dataset, info = tfds.load('wmt14_translate/de-en', split=['train', 'validation'], with_info=True)

# 다운받은 데이터셋 확인
print(info)

 

https://www.tensorflow.org/datasets/catalog/wmt14_translate?hl=ko

 

wmt14_translate  |  TensorFlow Datasets

이 페이지는 Cloud Translation API를 통해 번역되었습니다. Switch to English wmt14_translate 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요. 경고: 수동 다운로드가 필요

www.tensorflow.org

위의 링크를 참고하면 wmt14의 다양한 데이터가 있는 걸 알 수 있습니다. 

체코어-영어가 기본인데 

 

실제 논문에서 사용한 데이터는 

독일어-영어 와 프랑스어-영어 입니다. 

이 부분은 수동으로 다운로드 해줘야 합니다. 

 

구체적인 wmt14 소스코드는 아래의 git에 나와있습니다. 

https://github.com/tensorflow/datasets/blob/master/tensorflow_datasets/translate/wmt14.py

 

 

여튼, 제가 보기엔 파이썬으로 다운 받는게 제일 간편해보이더라고요! 

 

그래서 다운을 받았는데 다운을 받으시면 제 경우 /Users 하위에 

/tensorflow_datasets 라는 디렉토리가 생겼습니다. 

 

그리고 그 하부에 /wmt14_translation 이 있고 아래와 같은 디렉토리가 생겼습니다. 

cs-en은 다운받고 싶지 않았지만,,, 실수로 다운받았네요 ㅎㅎ 

 

위의 코드는 독어 데이터셋을 다운 받는 코드이고 아래의 코드는 프랑스어 데이터셋을 다운받는 코드입니다. 


# 데이터셋 다운로드
dataset, info = tfds.load('wmt14_translate/de-en', split=['train', 'validation'], with_info=True)

# 다운받은 데이터셋 확인
print(info)

 

용량이 생각보다 크니 주의해주세요!

 

감사합니다. 

 

블레이즈 테크노트