학습 모델 및 데이터 제공

학습 모델 및 데이터 신청 방법

* 학습데이터 신청 전에 키발급 신청을 완료하셔야 합니다. Open API Key 발급 및 관리

  1. STEP1
    다운로드 및 작성
    사용허가협약서를 다운로드하여 수기로 작성해주세요.
  2. STEP2
    스캔 및 업로드
    작성한 사용허가협약서를 스캔하여 학습모델 신청하기 버튼 클릭 후 파일을 업로드해주세요.
  3. STEP3
    정보입력 후신청
    개인정보 입력 후 학습데이터 신청하기를 완료합니다.
  4. STEP4
    담당자 확인 후 이메일 발송
    담당자 확인 후 신청자의 이메일로 다운로드 페이지(URL) 정보를 전달합니다.
  5. STEP5
    파일 다운로드
    해당 페이지에 접속하여 API Key를 입력해 파일을 다운로드 받습니다.
사용허가협약서 다운로드 및 신청
학습 모델 및 데이터 목록
한국어 BERT 언어모델

과학기술정보통신부와 IITP의 혁신성장동력 프로젝트로 추진 중인 엑소브레인 사업에서 한국어의 특성을 반영하여 개발한 BERT (Bidirectional Encoder Representations from Transformers) 언어모델을 공개합니다.

ETRI 엑소브레인 연구진이 배포하는 한국어 최첨단 딥러닝 언어모델은 한국어분석·기계독해·문서분류 등 다양한 태스크에 활용 가능하며, 5종(의미역 인식, 기계독해, 단락 순위화, 문장 유사도 추론, 문서 주제분류)의 한국어 처리 태스크에서 구글이 배포한 한국어 언어모델과 비교 평가한 결과, ETRI의 언어모델이 평균 4.5% 성능이 우수한 것으로 평가되었습니다.

ETRI 형태소 기반 언어모델과 구글 언어모델 비교

BERT 언어모델은 대용량 원시 텍스트로부터 어휘의 양방향 문맥정보와 문장 간의 선후관계를 학습하여 단어를 문맥을 반영한 벡터로 표현하는 모델입니다. 한국어 언어모델 학습 말뭉치로는 신문기사와 백과사전 등 23GB의 대용량 텍스트를 대상으로 47억개의 형태소를 사용하여 학습하였습니다.

한국어 BERT 언어모델로 한국어의 특성을 반영한 형태소분석 기반의 언어모델과 형태소분석을 수행하지 않은 어절 기반의 언어모델 2가지 모델을 공개합니다.

  • 형태소분석 기반의 언어모델은 교착어인 한국어의 특성을 반영한 모델입니다. 명사/동사에 조사/접미사가 결합된 어절을 의미의 최소단위인 형태소로 구분하여 분석한 언어모델로, 여러 태스크에서 어절 기반 언어모델 보다 우수한 성능을 보입니다. (형태소분석은 본 OpenAPI의 언어분석-형태소분석 API 이용)
  • 어절 기반 언어모델은 구글과 유사한 방식으로 어절에서 고빈도로 발생하는 문자(음절)를 결합하여 단어를 구성한 언어모델로, 형태소분석을 수행하지 않아도 된다는 장점이 있습니다.

배포하는 언어모델은 대표적인 딥러닝 프레임워크인 파이토치(PyTorch)와 텐서플로우(Tensorflow)에서도 모두 사용 가능하도록 배포합니다. 활용을 위한 세부적인 내용은 다운로드 받은 언어모델 압축파일 내의 readme 문서를 참고하시면 됩니다.

배포 모델 세부 모델 세부 내용 모델 파라미터
KorBERT Korean_BERT_Morphology
  • 학습데이터: 23GB 원시 말뭉치 (47억개 형태소)
  • 형태소분석기: 본 OpenAPI 언어분석 중, 형태소분석 API
  • 딥러닝 라이브러리: pytorch, tensorflow
  • 소스코드: tokenizer 및 기계독해(MRC), 문서분류 예제
  • Latin alphabets: Cased
30349 vocabs,
12 layer,
768 hidden,
12 heads,
Korean_BERT_WordPiece
  • 학습데이터: 23GB 원시 말뭉치
  • 딥러닝 라이브러리: pytorch, tensorflow
  • 소스코드: tokenizer
  • Latin alphabets: Cased
30797 vocabs,
12 layer,
768 hidden,
12 heads,

배포하는 한국어 KorBERT 언어모델의 구글 대비 평가 결과는 아래와 같습니다.

평가 항목
[아래 5개 태스크를 평가 항목으로 선정]
  • 의미역 인식(Semantic Role Labeling): 문장 내에서 술어에 의해 기술되는 사건에 대한 개체들의 역할을 인식
  • 기계 독해(Machine Reading Comprehension): 주어진 단락에서 질문이 요구하는 정답을 찾음
  • 단락 순위화(Passage Ranking): 검색결과 집합에서 질문에 찾는 정답이 들어있는 단락 순위화
  • 문장 유사도 추론(Natural Language Inference): 2개 문장 간 의미가 동일한 지 여부를 분류
  • 문서 주제분류: 문서의 주제를 기정의된 54개의 클래스 중 하나로 분류
평가 결과
구분 의미역인식 기계독해 단락순위화 문장유사도추론 문서주제분류
평가데이터 및 규격 Korean Propbank,
학습: 19,302 문장
평가: 3,773 문장
KorQuAD 데이터,
학습: 60,406건
평가: 5,773건 (dev셋)
학습: 45,521 질문
평가: 1,000 질문
(질문당 평균 8.7개 단락)
학습: 10,874문장쌍
평가: 1,209문장쌍
(이진 분류체계: 유사, 무관)
학습: 9,301건
평가: 1,035건
(54개 분류체계)
평가 방법 F1[2] Exact Match[3] / F1 Precision@Top1 Accuracy Accuracy
(Google)
Word Piece[4]기반
한국어 언어모델
81.85% 80.82% / 90.68%
(정답 경계 구분을 위해
후처리 수행)
66.3% 79.4% 91.1%
(엑소브레인)
Word Piece 기반
한국어 언어모델
85.10% 80.70% / 91.94%
(정답 경계 구분을 위해
후처리 수행)
70.5% 82.7% 93.4%
(엑소브레인)
형태소 기반
한국어 언어모델
85.77% 86.40% / 94.18% 73.7% 83.4% 93.7%
[2] F1: 정확률(Precision, 시스템이 결과가 정답인 비율)과 재현률(Recall, 실제 정답을 시스템이 맞춤 비율)의 조화평균
[3] Exact Match: 시스템이 제시한 결과와 정답이 완전히 일치하는 비율
[4] Word Piece: 하나의 단어를 내부 단어(Subword Unit)들로 분리하는 단어 분리 모델
한국어 이해생성 언어모델(ET5)

과학기술정보통신부와 IITP의 혁신성장동력 프로젝트로 추진 중인 엑소브레인 사업에서 한국어 이해 및 생성이 가능한 언어모델을 공개합니다.

ETRI 엑소브레인 연구진이 배포하는 한국어 이해생성 언어모델(ET5)은 한국어를 이해하고 실시간으로 출력 텍스트를 생성해 낼 수 있어서, 한국어분석, 기계독해, 문장의미 분석과 같은 언어 이해 유형의 태스크뿐 아니라 문서요약, 질문생성 등과 같은 다양한 언어 생성 유형의 태스크에도 활용이 가능합니다.

한국어 이해생성 언어모델(ET5)은 대용량 원시 텍스트로부터 빈칸 단어열 맞추기(T5 학습 유형)와 다음 단어 맞추기(GPT 학습 유형)를 동시에 사전학습(pre-train)하여 언어이해와 언어생성 능력을 향상하였습니다. 대표적인 한국어 처리 태스크 5종(기계독해, 요약, 단락 순위화, 형태소 분석, 문장유사도 추론) 대상 평가 결과 한국어 최고 수준의 성능을 보였습니다. 구글에서 배포한 모델에 비해 기계독해 1.40%, 형태소 분석 1.43%, 문장유사도 추론 7.12% 우수한 성능으로 평가되었습니다.

학습 말뭉치로는 약 136 GB (12억9천만 문장, 139억개 단어, 643억 글자)의 Common Crawl, 위키백과, 신문기사, 방송 대본, 영화/드라마 대본 등, 문어/구어를 망라한 대용량 텍스트를 대상으로 학습하였습니다.

배포하는 언어모델은 파이토치(PyTorch) 딥러닝 라이브러리를 이용하여 활용 가능합니다. 활용을 위한 세부적인 내용은 다운로드 받은 언어모델 압축파일 내의 readme 문서를 참고하시면 됩니다.

배포 모델 세부 내용 모델 파라미터
ET5 base
  • 학습데이터: 136GB 원시 말뭉치
  • 딥러닝 라이브러리: pytorch
  • HuggingFace model 및 SentencePiece tokenizer model 파일
  • Latin alphabets: Cased
45100 vocabs,
12 layers (인코더/디코더 각각),
12 heads,
768 d_model,
64 d_kv,
3072 d_ff

배포하는 한국어 이해생성 언어모델(ET5)의 평가 결과는 아래와 같습니다.

평가 항목
  • [질의응답] 기계 독해(Machine Reading Comprehension): 주어진 단락에서 질문이 요구하는 정답을 찾음
  • [언어생성] 문서요약(Abstractive Summarization): 주어진 문서를 요약한 문장을 생성
  • [정보검색] 단락 순위화(Passage Ranking): 검색결과 집합에서 질문에 찾는 정답이 들어있는 단락 순위화
  • [언어분석] 형태소 분석(Part Of Speech Tagging): 주어진 문장에 대해 형태소와 품사를 찾음
  • [문장의미 분석] 문장 유사도 추론(Natural Language Inference): 2개 문장 간 의미가 동일한 지 여부를 분류
평가 결과
구분 [질의응답]
기계독해
[언어생성]
문서요약
[정보검색]
단락 순위화
[언어분석]
형태소분석
[문장의미 분석]
문장유사도추론
평가데이터 및 규격 KorQuAD v1.0
학습: 60,406건
평가: 5,773건 (dev셋)
AI Hub 요약
(뉴스-abstractive)
학습: 240,972건
평가: 30,121건(test셋)
학습: 45,521 질문
평가: 1,000 질문
(질문당 평균 8.7개 단락)
세종 말뭉치
학습: 135,238문장
평가: 4,800문장
학습: 41,465 문장쌍
평가: 3,181 문장쌍
(이진 분류체계: 유사, 무관)
평가 방법 Exact Match[1]/F1[2] ROUGE-1/2/L[3] Precision@Top1 F1 Accuracy
(KETI)
KE-T5.ko base
91.35 / 85.40 49.15 / 21.97 / 46.78 81.8 N/A[4] 79.54
(Google)
mT5 base
92.86 / 85.14 49.39 / 22.03 / 46.92 81.6 93.82 77.31
(엑소브레인)
ET5 base
94.26 / 86.37 50.05 / 22.98 / 47.37 82.0 95.25 84.43

* 모든 성능지표는 디코딩 생성 방식으로 출력된 텍스트를 기반으로 측정되었음

[1] Exact Match: 시스템이 제시한 결과와 정답이 완전히 일치하는 비율
[2] F1: 정확률(Precision, 시스템이 결과가 정답인 비율)과 재현률(Recall, 실제 정답을 시스템이 맞춤 비율)의 조화평균
[3] ROUGE-1/2/L: 시스템 요약본과 정답 요약본 간 겹치는 unigram(1)/bigram(2)/최장(Longest) 길이 부분문자열의 비율
[4] 형태소 태그를 표현할 수 있는 여유(unused) 토큰 부재로 비교 성능 평가 제외
언어처리 학습데이터

한국어 분석 및 질의응답 기술을 개발하기 위한 과학기술정보통신부 소프트웨어 분야 R&D인 엑소브레인 과제에서는 다양한 지식산업 환경에서 전문가 수준의 질의응답 서비스의 제공을 위하여 ETRI, 울산대, KAIST, 충북대, 강원대, 국회도서관 등 국내 여러 연구기관이 힘을 합쳐 연구하고 있습니다.

엑소브레인 과제를 수행하면서 ETRI와 함께 각 연구기관에서 구축한 언어처리 학습데이터(엑소브레인 말뭉치 V5.0)를 공개하여 유사 분야 연구에 도움이 되고자 합니다. 공개하는 엑소브레인 말뭉치 V5.0은 아래와 같이 구성되어 있습니다.

엑소브레인
QA Datasets
(ETRI)
퀴즈 QA Datasets
  • 퀴즈 분야 질의응답을 위한 4개 유형 (객관식/주관식/가부형/연상형)의 퀴즈 QA datasets (569개)
SQuAD 한국어 QA Dataset
  • SQuAD 질문의 위키피디아 한국어 번역 QA datasets (표준태깅, 339개)
MRC 한국어 QA Dataset
  • 한국어 위키피디아를 대상으로 구축한 MRC(Machine Reading Comprehension) QA datasets(10,000개)
위키피디아 단문질문 QA Datasets
  • 상/중/하 난이도 별 패러프레이즈 QA datasets(표준태깅, 300개)
  • 일반상식 분야 QA dataset(기본 태깅, 1,776개)
엑소브레인 법령QA Dataset (국회도서관)
  • 세계 35개국 헌법에 대한 QA dataset (약 36,000 셋)
  • 질문과 정답문장의 패러프레이징 난이도에 따라 상/중/하 질문 난이도 구분
엑소브레인 근거 설명 QA Dataset
  • 한국어 질문과 다수의 위키피디아 검색결과 단락 대상으로 정답의 근거를 설명가능한 QA dataset (30,000셋)
  • 각 질문 별 패러프레이즈 질문 포함
엑소브레인
언어분석 말뭉치
(ETRI/강원대)
언어분석 통합 말뭉치
  • 언어분석 6개 기술(형태소분석, 다의어 어휘의미분석, 세분류 개체명인식, 의존구문분석, 의미역인식, 상호참조해결)의 태깅 가이드라인과 자연어 질의응답을 위한 질문/정답 포맷의 뉴스기사 대상 태깅 말뭉치 (2,593문장, 33,131어절)
세부기술 별 말뭉치
  • 개체명 인식 태깅 가이드라인 및 말뭉치 (인명/장소/조직/날짜/시간 5개 태그, 10,000 문장)
  • 의미역 인식 태깅 가이드라인 및 말뭉치 (625문장, 7,436어절)
  • 의존구문분석 태깅 가이드라인 및 말뭉치 (2,225문장, 27,317어절)
TTA 공인인증 말뭉치 (추후제공예정)
  • 엑소브레인 과제 결과물의 객관적인 성능 측정을 위해 2018년 한국정보통신기술협회(TTA)에서 시행한 공인인증 평가에 사용된 평가셋(개체명 인식: 459문장, 의미역 인식(필수역 대상): 450문장)
UCorpus-HG 말뭉치
(울산대학교)
울산대학교 형태/의미 말뭉치(UCorpus-HG)
  • 표준국어대사전 기반 모든 동형이의어 대상으로 어깨번호를 부착한 말뭉치
  • 원문: 세종 형태의미 말뭉치, 신문, 초등학교 국어교과서, 법률, 사전뜻풀이/용례
  • 전체 1,909,840 문장, 18,869,517 어절 (학습 말뭉치 90%, 평가 말뭉치 10%로 분리 제공)
엑소브레인
Korean TimeBank
및 SpaceBank
(KAIST/충북대)
한국어 시간 정보 주석 말뭉치: Korean TimeBank (KAIST)
  • 한국어 시간 정보 자동 추출을 위한 한국어 시간 정보 주석 가이드라인 및 말뭉치
  • 말뭉치 구성: 812 문서, 5,467 문장 태깅 (시간개체 4,509개, 시간관계 5,182개)
한국어 공간 정보 주석 말뭉치: Korean SpaceBank (충북대학교)
  • 한국어 공간 정보 자동 추출을 위한 한국어 공간 정보 주석 가이드라인 및 말뭉치
  • 말뭉치 구성 : 개체 태그 7종류, 관계 태그 4종류, 2,264 문장 태깅
엑소브레인
패러프레이즈 말뭉치
(KAIST)
한국어 패러프레이즈 말뭉치: Korean Paraphrase Corpus(KAIST)
  • 한국어 패러프레이즈 인식 및 평가를 위한 주석 가이드라인 및 말뭉치
  • 말뭉치 구성: 패러프레이즈 관계 2,000문장 쌍과 출처, 유사도(0-5)/난이도(상/중/하) 표준 태깅, 의미(실질) 형태소 정보 태깅
언어처리 학습데이터 구축 표준안

공개된 언어처리 학습데이터 중 엑소브레인 언어분석 말뭉치와 QA datasets은 한국정보통신기술협회(TTA), 국가기술표준원 KS 표준안에 입각하여 구축하였습니다. ETRI 언어지능연구그룹이 주도로 여러 전문가들의 검증을 거쳐 현재 형태소 분석, 개체명 인식, 구문분석, 질문분석이 표준안으로 채택되었으며, 의미역 인식에 대한 표준안이 제출되어 검증 중에 있습니다. 표준안은 아래에서 다운받으실 수 있습니다.

TTA 표준 형태소 태그셋
(TTAK.KO-11.0010/R1)

다운로드

TTA 표준 개체명 태그셋
(TTAK.KO-10.0852)

다운로드

TTA 표준 의존 구문분석 가이드라인
(TTAK.KO-10.0853)

다운로드

TTA 표준 오픈 도메인 자연어 질의 응답을 위한
질문 분석 메타데이터 (TTAK.KO-10.1098)

다운로드

국가기술표준원 KS 표준 (예정) 한국어 정보 처리를 위한
의미역 세트 및 태깅 말뭉치

준비중입니다.
음성 학습데이터

한국어 및 영어 음성인식 기술을 개발하기 위한 과학기술정보통신부의 R&D인 “언어학습을 위한 자유발화형 음성대화처리 원천기술 개발” 과제에서는 음성대화 인터페이스 및 외국어교육을 위한 다양한 음성인식 기술 개발과 관련 데이터를 구축하고 있습니다.

과제를 수행하면서 구축한 약 300명 규모의 음향모델 훈련을 위한 학습데이터를 배포하여 관련 연구 분야에 도움이 되고자 합니다.

아래의 표와 같이 잡음 및 입력 환경, 비원어민 음성인식을 고려하여 구분된 학습데이터의 다운로드를 제공합니다.

적용 포맷은 공히 16kHz 샘플링 주파수로 녹음된 16-비트 선형(linear) PCM 파일이며, 부가 정보로서 파일별로 단어 단위의 전사 정보 및 발성자의 성별 정보가 제공됩니다.

데이터 명 구축 방법 및 환경 분량(전체 발화수)
다채널 잡음처리 기술
개발 및 평가용 데이터
  1. ㆍ 8채널 어레이 마이크 이용 (1M거리 녹음)
  2. ㆍ 사무실 잡음 환경
50명 * 100발화 * 8마이크 (40,208)
텔레매틱스 목적지 인식을 위한
음향모델 적응용 음성 데이터
  1. ㆍ 정지 및 주행 중인 자동차 환경: 정차중, 60Km/h, 100Km/h의 3가지 주행 상황
  2. ㆍ 네비게이션 단말기 적용
50명 * 120발화 (6,000)
잡음처리 및 음성검출을 위한
스마트폰 환경 연속어 음성 데이터
  1. ㆍ 아이폰4, 갤럭시S2 사용
  2. ㆍ 조용한 사무실 환경
50명 * 100발화 * 2환경 (10,000)
한국어 및 영어 음향모델
훈련용 음성 데이터
  1. ㆍ 한국어 : 한국어 자연어 발성 문장
  2. ㆍ 영어 : 한국인이 발성한 영어 문장
한/영 각 50명 * 100발화 (10,000)
음성인터페이스 개발을 위한
어린이 음성 데이터
  1. ㆍ 어린이 음향모델 훈련용
  2. ㆍ 초등 1~4학년 대상 녹음
  3. ㆍ 아이폰5, 갤럭시S4, 마이크 동시 녹음
50명 * 100발화 * 3환경 (16,200)
객체검출 학습데이터 (업데이트 : 2020.11.25)

영상 데이터 인식 기술을 개발하기 위한 과학기술정보통신부 소프트웨어 분야 R&D 과제인 딥뷰(DeepView) 과제에서는 영상 데이터 이해 및 예측을 위한 플랫폼을 개발하고 있습니다. 딥뷰 과제를 수행하면서 구축한 약 20만장(기존 약 10만장) 정도의 객체 검출용 이미지 학습데이터를 배포하여, 유사 분야 연구에 도움이 되고자 합니다.

객체 검출용 이미지 학습데이터는 ImageNet 분류 체계 기반으로 약 560여개의 객체(사람, 개, 자동차 등)를 정의하였으며, 객체에 대한 정보(객체 이름)와 영상 내에 그 객체의 위치 좌표 정보가 태깅된 이미지로 구성되어 있습니다.

아래의 표와 같이 15개의 세부 카테고리로 구분된 학습데이터의 다운로드를 제공합니다. 다운로드되는 파일은 JPEG 이미지와 XML 객체 정보 파일입니다.

No 상위 카테고리 세부 카테고리 이미지 수
1 사람 사람 18,646
2 사람 2 10,069
3 사람 3 8,928
4 얼굴 5,563
5 얼굴 2 301
6 얼굴 3 548
7 동물 17,249
8 새 2 6,750
9 새 3 8,256
10 양서류, 파충류, 절지동물, 무척추동물 19,259
11 양서류, 파충류, 절지동물, 무척추동물 2 6,477
12 양서류, 파충류, 절지동물, 무척추동물 3 8,067
13 포유류 25,261
14 포유류 2 10,487
15 포유류 3 12,187
16 개, 고양이, 개과, 고양이과, 물고기 16,817
17 개, 고양이, 개과, 고양이과, 물고기 2 4,443
18 개, 고양이, 개과, 고양이과, 물고기 3 5,865
19 식물 식물 16,817
20 식물 2 6,008
21 식물 3 6,867
22 인공물 의류, 천, 피복 12,660
23 의류, 천, 피복 2 4,502
24 의류, 천, 피복 3 4,653
25 구조, 건설 - 건축물, 벽, 문 19,097
26 구조, 건설 - 건축물, 벽, 문 2 9,759
27 구조, 건설 - 건축물, 벽, 문 3 8,534
28 구조, 건설 - 기타구조 및 건설 23,314
29 구조, 건설 - 기타구조 및 건설 2 12,203
30 구조, 건설 - 기타구조 및 건설 3 11,095
31 장치 15,716
32 장치 2 4,620
33 장치 3 3,645
34 자동차 류 12,375
35 자동차 류 2 6,038
36 자동차 류 3 7,911
37 도구, 기계, 장비, 기구 14,070
38 도구, 기계, 장비, 기구 2 4,996
39 도구, 기계, 장비, 기구 3 5,358
40 가구, 가전, 악기, 장난감, 무기 15,180
41 가구, 가전, 악기, 장난감, 무기 2 7,451
42 가구, 가전, 악기, 장난감, 무기 3 5,937
43 자연 구조물 지형, 자연구조물 5,916
44 지형, 자연구조물 2 1,322
45 지형, 자연구조물 3 3,324
총 합계 431,131
사람 상태 이해 학습데이터 (업데이트 : 2021.12.10)

영상 인식 기술을 개발하기 위한 과학기술정보통신부 소프트웨어 분야 R&D 과제인 딥뷰(DeepView) 과제에서는 영상 데이터 이해 및 예측을 위한 플랫폼을 개발하고 있습니다.딥뷰 과제를 수행하면서 구축한 사람 상태 이해를 위한 이미지 학습데이터를 배포하여, 유사 분야 연구에 도움이 되고자 합니다.

사람 상태 이해 이미지 학습데이터는 COCO 분류 체계 기반으로 사람의 상태를 6가지로 분류하여 정의하였으며, 사람에 대한 관절 및 영역 정보가 포함되어 있습니다. 아래의 표와 같이 우선 5가지의 상태 카테고리로 구분된 학습데이터의 다운로드를 제공합니다. 다운로드 되는 파일은 이미지와 json 객체 정보 파일입니다.

(Running 데이터는 정제후 추후 제공 예정)

No 상위 카테고리 상태 카테고리 이미지 수
1 사람 Standing 18,058
2 Walking 8,343
3 Running -
4 Sitting 15,761
5 Crouching 15,760
6 Lying 7,781
총 합계 65,703
TOP