안녕하세요
블레이즈 테크노트의 블레이즈 입니다.

이번 포스팅에서는 트랜스포머 논문에서 훈련 데이터로 사용했던 데이터셋을 다운받아보도록 하겠습니다.
pip install tensorflow-datasets
먼저 이렇게 해서 텐서플로우 데이터셋을 다운받아줬습니다.
import tensorflow_datasets as tfds
# 데이터셋 다운로드
dataset, info = tfds.load('wmt14_translate/de-en', split=['train', 'validation'], with_info=True)
# 다운받은 데이터셋 확인
print(info)
https://www.tensorflow.org/datasets/catalog/wmt14_translate?hl=ko
wmt14_translate | TensorFlow Datasets
이 페이지는 Cloud Translation API를 통해 번역되었습니다. Switch to English wmt14_translate 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요. 경고: 수동 다운로드가 필요
www.tensorflow.org
위의 링크를 참고하면 wmt14의 다양한 데이터가 있는 걸 알 수 있습니다.
체코어-영어가 기본인데
실제 논문에서 사용한 데이터는
독일어-영어 와 프랑스어-영어 입니다.
이 부분은 수동으로 다운로드 해줘야 합니다.
구체적인 wmt14 소스코드는 아래의 git에 나와있습니다.
https://github.com/tensorflow/datasets/blob/master/tensorflow_datasets/translate/wmt14.py
여튼, 제가 보기엔 파이썬으로 다운 받는게 제일 간편해보이더라고요!
그래서 다운을 받았는데 다운을 받으시면 제 경우 /Users 하위에
/tensorflow_datasets 라는 디렉토리가 생겼습니다.
그리고 그 하부에 /wmt14_translation 이 있고 아래와 같은 디렉토리가 생겼습니다.

cs-en은 다운받고 싶지 않았지만,,, 실수로 다운받았네요 ㅎㅎ
위의 코드는 독어 데이터셋을 다운 받는 코드이고 아래의 코드는 프랑스어 데이터셋을 다운받는 코드입니다.
# 데이터셋 다운로드
dataset, info = tfds.load('wmt14_translate/de-en', split=['train', 'validation'], with_info=True)
# 다운받은 데이터셋 확인
print(info)
용량이 생각보다 크니 주의해주세요!

감사합니다.
블레이즈 테크노트
'머신러닝(Machine Learning)' 카테고리의 다른 글
NLP 트랜스포머 코드 스터디 리뷰 (2) transformer.py (0) | 2023.08.19 |
---|---|
NLP 트랜스포머 코드 스터디 리뷰 (1) transformer.py (0) | 2023.08.18 |
NLP 트랜스포머 네 번째, 멀티 헤드 어텐션 Multi-Head Attention 알아보기 (0) | 2023.08.01 |
NLP 트랜스포머 세 번째, 셀프 어텐션 알아보기 (0) | 2023.07.30 |
NLP 트랜스포머 두 번째, 포지셔널 인코딩(Positional Encoding) 알아보기 (0) | 2023.07.25 |