NLP 트랜스포머 모델 데이터셋 wmt14 다운로드하기

안녕하세요

블레이즈 테크노트의 블레이즈 입니다.

이번 포스팅에서는 트랜스포머 논문에서 훈련 데이터로 사용했던 데이터셋을 다운받아보도록 하겠습니다.

pip install tensorflow-datasets

먼저 이렇게 해서 텐서플로우 데이터셋을 다운받아줬습니다.

import tensorflow_datasets as tfds

# 데이터셋 다운로드
dataset, info = tfds.load('wmt14_translate/de-en', split=['train', 'validation'], with_info=True)

# 다운받은 데이터셋 확인
print(info)

https://www.tensorflow.org/datasets/catalog/wmt14_translate?hl=ko

wmt14_translate | TensorFlow Datasets

이 페이지는 Cloud Translation API를 통해 번역되었습니다. Switch to English wmt14_translate 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요. 경고: 수동 다운로드가 필요

www.tensorflow.org

위의 링크를 참고하면 wmt14의 다양한 데이터가 있는 걸 알 수 있습니다.

체코어-영어가 기본인데

실제 논문에서 사용한 데이터는

독일어-영어 와 프랑스어-영어 입니다.

이 부분은 수동으로 다운로드 해줘야 합니다.

구체적인 wmt14 소스코드는 아래의 git에 나와있습니다.

https://github.com/tensorflow/datasets/blob/master/tensorflow_datasets/translate/wmt14.py

여튼, 제가 보기엔 파이썬으로 다운 받는게 제일 간편해보이더라고요!

그래서 다운을 받았는데 다운을 받으시면 제 경우 /Users 하위에

/tensorflow_datasets 라는 디렉토리가 생겼습니다.

그리고 그 하부에 /wmt14_translation 이 있고 아래와 같은 디렉토리가 생겼습니다.

cs-en은 다운받고 싶지 않았지만,,, 실수로 다운받았네요 ㅎㅎ

위의 코드는 독어 데이터셋을 다운 받는 코드이고 아래의 코드는 프랑스어 데이터셋을 다운받는 코드입니다.


# 데이터셋 다운로드
dataset, info = tfds.load('wmt14_translate/de-en', split=['train', 'validation'], with_info=True)

# 다운받은 데이터셋 확인
print(info)

용량이 생각보다 크니 주의해주세요!

감사합니다.

블레이즈 테크노트

저작자표시 비영리 변경금지 (새창열림)

'머신러닝(Machine Learning)' 카테고리의 다른 글

NLP 트랜스포머 코드 스터디 리뷰 (2) transformer.py (0)	2023.08.19
NLP 트랜스포머 코드 스터디 리뷰 (1) transformer.py (0)	2023.08.18
NLP 트랜스포머 네 번째, 멀티 헤드 어텐션 Multi-Head Attention 알아보기 (0)	2023.08.01
NLP 트랜스포머 세 번째, 셀프 어텐션 알아보기 (0)	2023.07.30
NLP 트랜스포머 두 번째, 포지셔널 인코딩(Positional Encoding) 알아보기 (0)	2023.07.25

NLP 트랜스포머 모델 데이터셋 wmt14 다운로드하기

'머신러닝(Machine Learning)' 카테고리의 다른 글

관련글

티스토리툴바