서비스 이용안내

학습 모델 및 데이터 신청 방법

* 학습데이터 신청 전에 키발급 신청을 완료하셔야 합니다. Open API 사용신청하기

  1. STEP1
    다운로드 및 작성
    사용허가협약서를 다운로드하여 수기로 작성해주세요.
  2. STEP2
    스캔 및 업로드
    작성한 사용허가협약서를 스캔하여 학습데이터 신청하기 버튼 클릭 후 파일을 업로드해주세요.
  3. STEP3
    정보입력 후신청
    개인정보 입력 후 학습데이터 신청하기를 완료합니다.
  4. STEP4
    담당자 확인 후 이메일 발송
    담당자 확인 후 신청자의 이메일로 다운로드 페이지(URL) 정보를 전달합니다.
  5. STEP5
    파일 다운로드
    해당 페이지에 접속하여 API Key를 입력해 파일을 다운로드 받습니다.
학습 모델 및 데이터 신청하기
학습 모델 및 데이터 목록
한국어 BERT 언어모델

과학기술정보통신부와 IITP의 혁신성장동력 프로젝트로 추진 중인 엑소브레인 사업에서 한국어의 특성을 반영하여 개발한 BERT (Bidirectional Encoder Representations from Transformers) 언어모델을 공개합니다.

ETRI 엑소브레인 연구진이 배포하는 한국어 최첨단 딥러닝 언어모델은 한국어분석·기계독해·문서분류 등 다양한 태스크에 활용 가능하며, 5종(의미역 인식, 기계독해, 단락 순위화, 문장 유사도 추론, 문서 주제분류)의 한국어 처리 태스크에서 구글이 배포한 한국어 언어모델과 비교 평가한 결과, ETRI의 언어모델이 평균 4.5% 성능이 우수한 것으로 평가되었습니다.

BERT 언어모델은 대용량 원시 텍스트로부터 어휘의 양방향 문맥정보와 문장 간의 선후관계를 학습하여 단어를 문맥을 반영한 벡터로 표현하는 모델입니다. 한국어 언어모델 학습 말뭉치로는 신문기사와 백과사전 등 23GB의 대용량 텍스트를 대상으로 47억개의 형태소를 사용하여 학습하였습니다.

한국어 BERT 언어모델로 한국어의 특성을 반영한 형태소분석 기반의 언어모델과 형태소분석을 수행하지 않은 어절 기반의 언어모델 2가지 모델을 공개합니다.

  • 형태소분석 기반의 언어모델은 교착어인 한국어의 특성을 반영한 모델입니다. 명사/동사에 조사/접미사가 결합된 어절을 의미의 최소단위인 형태소로 구분하여 분석한 언어모델로, 여러 태스크에서 어절 기반 언어모델 보다 우수한 성능을 보입니다. (형태소분석은 본 OpenAPI의 언어분석-형태소분석 API 이용)
  • 어절 기반 언어모델은 구글과 유사한 방식으로 어절에서 고빈도로 발생하는 문자(음절)를 결합하여 단어를 구성한 언어모델로, 형태소분석을 수행하지 않아도 된다는 장점이 있습니다.

배포하는 언어모델은 대표적인 딥러닝 프레임워크인 파이토치(PyTorch)와 텐서플로우(Tensorflow)에서도 모두 사용 가능하도록 배포합니다. 활용을 위한 세부적인 내용은 다운로드 받은 언어모델 압축파일 내의 readme 문서를 참고하시면 됩니다.

배포 모델 세부 모델 세부 내용 모델 파라미터
KorBERT Korean_BERT_Morphology
  • 학습데이터: 23GB 원시 말뭉치 (47억개 형태소)
  • 형태소분석기: 본 OpenAPI 언어분석 중, 형태소분석 API
  • 딥러닝 라이브러리: pytorch, tensorflow
  • 소스코드: tokenizer 및 기계독해(MRC), 문서분류 예제
  • Latin alphabets: Cased
30349 vocabs,
12 layer,
768 hidden,
12 heads,
Korean_BERT_WordPiece
  • 학습데이터: 23GB 원시 말뭉치
  • 딥러닝 라이브러리: pytorch, tensorflow
  • 소스코드: tokenizer
  • Latin alphabets: Cased
30797 vocabs,
12 layer,
768 hidden,
12 heads,

배포하는 한국어 KorBERT 언어모델의 구글 대비 평가 결과는 아래와 같습니다.

평가 항목
[아래 5개 태스크를 평가 항목으로 선정]
  • 의미역 인식(Semantic Role Labeling): 문장 내에서 술어에 의해 기술되는 사건에 대한 개체들의 역할을 인식
  • 기계 독해(Machine Reading Comprehension): 주어진 단락에서 질문이 요구하는 정답을 찾음
  • 단락 순위화(Passage Ranking): 검색결과 집합에서 질문에 찾는 정답이 들어있는 단락 순위화
  • 문장 유사도 추론(Natural Language Inference): 2개 문장 간 의미가 동일한 지 여부를 분류
  • 문서 주제분류: 문서의 주제를 기정의된 54개의 클래스 중 하나로 분류
평가 결과
구분 의미역인식 기계독해 단락순위화 문장유사도추론 문서주제분류
평가데이터 및 규격 Korean Propbank,
학습: 19,302 문장
평가: 3,773 문장
KorQuAD 데이터,
학습: 60,406건
평가: 5,773건 (dev셋)
학습: 45,521 질문
평가: 1,000 질문
(질문당 평균 8.7개 단락)
학습: 10,874문장쌍
평가: 1,209문장쌍
(이진 분류체계: 유사, 무관)
학습: 9,301건
평가: 1,035건
(54개 분류체계)
평가 방법 F1[2] Exact Match[3] / F1 Precision@Top1 Accuracy Accuracy
(Google)
Word Piece[4]기반
한국어 언어모델
81.85% 80.82% / 90.68%
(정답 경계 구분을 위해
후처리 수행)
66.3% 79.4% 91.1%
(엑소브레인)
Word Piece 기반
한국어 언어모델
85.10% 80.70% / 91.94%
(정답 경계 구분을 위해
후처리 수행)
70.5% 82.7% 93.4%
(엑소브레인)
형태소 기반
한국어 언어모델
85.77% 86.40% / 94.18% 73.7% 83.4% 93.7%
[2] F1: 정확률(Precision, 시스템이 결과가 정답인 비율)과 재현률(Recall, 실제 정답을 시스템이 맞춤 비율)의 조화평균
[3] Exact Match: 시스템이 제시한 결과와 정답이 완전히 일치하는 비율
[4] Word Piece: 하나의 단어를 내부 단어(Subword Unit)들로 분리하는 단어 분리 모델
언어처리 학습데이터

한국어 분석 및 질의응답 기술을 개발하기 위한 과학기술정보통신부 소프트웨어 분야 R&D인 엑소브레인 과제에서는 다양한 지식산업 환경에서 전문가 수준의 질의응답 서비스의 제공을 위하여 ETRI, 울산대, KAIST, 충북대, 강원대 등 국내 여러 연구기관이 힘을 합쳐 연구하고 있습니다.

엑소브레인 과제를 수행하면서 ETRI와 함께 각 연구기관에서 구축한 언어처리 학습데이터(엑소브레인 말뭉치 v4.0)를 공개하여 유사 분야 연구에 도움이 되고자 합니다. 공개하는 엑소브레인 말뭉치 v4.0은 아래와 같이 구성되어 있습니다.

엑소브레인
QA Datasets
(ETRI)
퀴즈 QA Datasets
  • 퀴즈 분야 질의응답을 위한 4개 유형 (객관식/주관식/가부형/연상형)의 퀴즈 QA datasets (569개)
SQuAD 한국어 QA Dataset
  • SQuAD 질문의 위키피디아 한국어 번역 QA datasets (표준태깅, 339개)
MRC 한국어 QA Dataset
  • 한국어 위키피디아를 대상으로 구축한 MRC(Machine Reading Comprehension) QA datasets(10,000개)
위키피디아 단문질문 QA Datasets
  • 상/중/하 난이도 별 패러프레이즈 QA datasets(표준태깅, 300개)
  • 일반상식 분야 QA dataset(기본 태깅, 1,776개)
엑소브레인
언어분석 말뭉치
(ETRI/강원대)
언어분석 통합 말뭉치
  • 언어분석 6개 기술(형태소분석, 다의어 어휘의미분석, 세분류 개체명인식, 의존구문분석, 의미역인식, 상호참조해결)의 태깅 가이드라인과 자연어 질의응답을 위한 질문/정답 포맷의 뉴스기사 대상 태깅 말뭉치 (2,593문장, 33,131어절)
세부기술 별 말뭉치
  • 개체명 인식 태깅 가이드라인 및 말뭉치 (인명/장소/조직/날짜/시간 5개 태그, 10,000 문장)
  • 의미역 인식 태깅 가이드라인 및 말뭉치 (625문장, 7,436어절)
  • 의존구문분석 태깅 가이드라인 및 말뭉치 (2,225문장, 27,317어절)
TTA 공인인증 말뭉치 (추후제공예정)
  • 엑소브레인 과제 결과물의 객관적인 성능 측정을 위해 2018년 한국정보통신기술협회(TTA)에서 시행한 공인인증 평가에 사용된 평가셋(개체명 인식: 459문장, 의미역 인식(필수역 대상): 450문장)
UCorpus-HG 말뭉치
(울산대학교)
울산대학교 형태/의미 말뭉치(UCorpus-HG)
  • 표준국어대사전 기반 모든 동형이의어 대상으로 어깨번호를 부착한 말뭉치
  • 원문: 세종 형태의미 말뭉치, 신문, 초등학교 국어교과서, 법률, 사전뜻풀이/용례
  • 전체 1,909,840 문장, 18,869,517 어절 (학습 말뭉치 90%, 평가 말뭉치 10%로 분리 제공)
엑소브레인
Korean TimeBank
및 SpaceBank
(KAIST/충북대)
한국어 시간 정보 주석 말뭉치: Korean TimeBank (KAIST)
  • 한국어 시간 정보 자동 추출을 위한 한국어 시간 정보 주석 가이드라인 및 말뭉치
  • 말뭉치 구성: 812 문서, 5,467 문장 태깅 (시간개체 4,509개, 시간관계 5,182개)
한국어 공간 정보 주석 말뭉치: Korean SpaceBank (충북대학교)
  • 한국어 공간 정보 자동 추출을 위한 한국어 공간 정보 주석 가이드라인 및 말뭉치
  • 말뭉치 구성 : 개체 태그 7종류, 관계 태그 4종류, 2,264 문장 태깅
엑소브레인
패러프레이즈 말뭉치
(KAIST)
한국어 패러프레이즈 말뭉치: Korean Paraphrase Corpus(KAIST)
  • 한국어 패러프레이즈 인식 및 평가를 위한 주석 가이드라인 및 말뭉치
  • 말뭉치 구성: 패러프레이즈 관계 2,000문장 쌍과 출처, 유사도(0-5)/난이도(상/중/하) 표준 태깅, 의미(실질) 형태소 정보 태깅
언어처리 학습데이터 구축 표준안

공개된 언어처리 학습데이터 중 엑소브레인 언어분석 말뭉치와 QA datasets은 한국정보통신기술협회(TTA), 국가기술표준원 KS 표준안에 입각하여 구축하였습니다. ETRI 언어지능연구그룹이 주도로 여러 전문가들의 검증을 거쳐 현재 형태소 분석, 개체명 인식, 구문분석, 질문분석이 표준안으로 채택되었으며, 의미역 인식에 대한 표준안이 제출되어 검증 중에 있습니다. 표준안은 아래에서 다운받으실 수 있습니다.

TTA 표준 형태소 태그셋
(TTAK.KO-11.0010/R1)

다운로드

TTA 표준 개체명 태그셋
(TTAK.KO-10.0852)

다운로드

TTA 표준 의존 구문분석 가이드라인
(TTAK.KO-10.0853)

다운로드

TTA 표준 오픈 도메인 자연어 질의 응답을 위한
질문 분석 메타데이터 (TTAK.KO-10.1098)

다운로드

국가기술표준원 KS 표준 (예정) 한국어 정보 처리를 위한
의미역 세트 및 태깅 말뭉치

준비중입니다.
음성 학습데이터

한국어 및 영어 음성인식 기술을 개발하기 위한 과학기술정보통신부의 R&D인 “언어학습을 위한 자유발화형 음성대화처리 원천기술 개발” 과제에서는 음성대화 인터페이스 및 외국어교육을 위한 다양한 음성인식 기술 개발과 관련 데이터를 구축하고 있습니다.

과제를 수행하면서 구축한 약 300명 규모의 음향모델 훈련을 위한 학습데이터를 배포하여 관련 연구 분야에 도움이 되고자 합니다.

아래의 표와 같이 잡음 및 입력 환경, 비원어민 음성인식을 고려하여 구분된 학습데이터의 다운로드를 제공합니다.

적용 포맷은 공히 16kHz 샘플링 주파수로 녹음된 16-비트 선형(linear) PCM 파일이며, 부가 정보로서 파일별로 단어 단위의 전사 정보 및 발성자의 성별 정보가 제공됩니다.

데이터 명 구축 방법 및 환경 분량(전체 발화수)
다채널 잡음처리 기술
개발 및 평가용 데이터
  1. ㆍ 8채널 어레이 마이크 이용 (1M거리 녹음)
  2. ㆍ 사무실 잡음 환경
50명 * 100발화 * 8마이크 (40,208)
텔레매틱스 목적지 인식을 위한
음향모델 적응용 음성 데이터
  1. ㆍ 정지 및 주행 중인 자동차 환경: 정차중, 60Km/h, 100Km/h의 3가지 주행 상황
  2. ㆍ 네비게이션 단말기 적용
50명 * 120발화 (6,000)
잡음처리 및 음성검출을 위한
스마트폰 환경 연속어 음성 데이터
  1. ㆍ 아이폰4, 갤럭시S2 사용
  2. ㆍ 조용한 사무실 환경
50명 * 100발화 * 2환경 (10,000)
한국어 및 영어 음향모델
훈련용 음성 데이터
  1. ㆍ 한국어 : 한국어 자연어 발성 문장
  2. ㆍ 영어 : 한국인이 발성한 영어 문장
한/영 각 50명 * 100발화 (10,000)
음성인터페이스 개발을 위한
어린이 음성 데이터
  1. ㆍ 어린이 음향모델 훈련용
  2. ㆍ 초등 1~4학년 대상 녹음
  3. ㆍ 아이폰5, 갤럭시S4, 마이크 동시 녹음
50명 * 100발화 * 3환경 (16,200)
객체검출 학습데이터

영상 데이터 인식 기술을 개발하기 위한 과학기술정보통신부 소프트웨어 분야 R&D 과제인 딥뷰(DeepView) 과제에서는 영상 데이터 이해 및 예측을 위한 플랫폼을 개발하고 있습니다. 딥뷰 과제를 수행하면서 구축한 약 10만장 정도의 객체 검출용 이미지 학습데이터를 배포하여, 유사 분야 연구에 도움이 되고자 합니다.

객체 검출용 이미지 학습데이터는 ImageNet 분류 체계 기반으로 약 880여개의 객체(사람, 개, 자동차 등)를 정의하였으며, 객체에 대한 정보(객체 이름)와 영상 내에 그 객체의 위치 좌표 정보가 태깅된 이미지로 구성되어 있습니다.

아래의 표와 같이 15개의 세부 카테고리로 구분된 학습데이터의 다운로드를 제공합니다. 다운로드되는 파일은 JPEG 이미지와 XML 객체 정보 파일입니다.

상위 카테고리 세부 카테고리 이미지 수
사람 사람 10,930
얼굴 5,127
동물 10,045
양서류,파충류,절지동물, 무척추동물 11,470
포유류 11,491
개,고양이, 개과, 고양이과, 물고기 7,640
식물 식물 8,500
인공물 의류,천,피복 8,102
구조, 건설 - 건축물, 벽, 문 10,539
구조, 건설 - 기타구조 및 건설 10,223
장치 10,702
자동차 류 7,142
도구,기계,장비,기구 11,228
가구,가전,악기,장난감,무기 9,27
지질 형성, 형성 2,611
총 합계 135,020