서비스 이용안내

학습데이터 신청 방법

* 학습데이터 신청 전에 키발급 신청을 완료하셔야 합니다. Open API 사용신청하기

  1. STEP1
    다운로드 및 작성
    사용허가협약서를 다운로드하여 수기로 작성해주세요.
  2. STEP2
    스캔 및 업로드
    작성한 사용허가협약서를 스캔하여 학습데이터 신청하기 버튼 클릭 후 파일을 업로드해주세요.
  3. STEP3
    정보입력 후신청
    개인정보 입력 후 학습데이터 신청하기를 완료합니다.
  4. STEP4
    담당자 확인 후 이메일 발송
    담당자 확인 후 신청자의 이메일로 다운로드 페이지(URL) 정보를 전달합니다.
  5. STEP5
    파일 다운로드
    해당 페이지에 접속하여 API Key를 입력해 파일을 다운로드 받습니다.
사용허가협약 신청하기
언어처리 학습데이터 사용허가협약서 음성 학습데이터 사용허가협약서 객체검출 학습데이터 사용허가협약서
다운로드 다운로드 다운로드
학습데이터 신청하기 학습데이터 신청하기 학습데이터 신청하기
학습데이터 목록
언어처리 학습데이터

한국어 분석 및 질의응답 기술을 개발하기 위한 과학기술정보통신부 소프트웨어 분야 R&D인 엑소브레인 과제에서는 다양한 지식산업 환경에서 전문가 수준의 질의응답 서비스의 제공을 위하여 ETRI, 울산대, KAIST, 충북대, 강원대 등 국내 여러 연구기관이 힘을 합쳐 연구하고 있습니다.

엑소브레인 과제를 수행하면서 ETRI와 함께 각 연구기관에서 구축한 언어처리 학습데이터(엑소브레인 말뭉치 v4.0)를 공개하여 유사 분야 연구에 도움이 되고자 합니다. 공개하는 엑소브레인 말뭉치 v4.0은 아래와 같이 구성되어 있습니다.

엑소브레인
QA Datasets
(ETRI)
퀴즈 QA Datasets
  • 퀴즈 분야 질의응답을 위한 4개 유형 (객관식/주관식/가부형/연상형)의 퀴즈 QA datasets (569개)
SQuAD 한국어 QA Dataset
  • SQuAD 질문의 위키피디아 한국어 번역 QA datasets (표준태깅, 339개)
MRC 한국어 QA Dataset
  • 한국어 위키피디아를 대상으로 구축한 MRC(Machine Reading Comprehension) QA datasets(10,000개)
위키피디아 단문질문 QA Datasets
  • 상/중/하 난이도 별 패러프레이즈 QA datasets(표준태깅, 300개)
  • 일반상식 분야 QA dataset(기본 태깅, 1,776개)
엑소브레인
언어분석 말뭉치
(ETRI/강원대)
언어분석 통합 말뭉치
  • 언어분석 6개 기술(형태소분석, 다의어 어휘의미분석, 세분류 개체명인식, 의존구문분석, 의미역인식, 상호참조해결)의 태깅 가이드라인과 자연어 질의응답을 위한 질문/정답 포맷의 뉴스기사 대상 태깅 말뭉치 (2,593문장, 33,131어절)
세부기술 별 말뭉치
  • 개체명 인식 태깅 가이드라인 및 말뭉치 (인명/장소/조직/날짜/시간 5개 태그, 10,000 문장)
  • 의미역 인식 태깅 가이드라인 및 말뭉치 (625문장, 7,436어절)
  • 의존구문분석 태깅 가이드라인 및 말뭉치 (2,225문장, 27,317어절)
TTA 공인인증 말뭉치 (추후제공예정)
  • 엑소브레인 과제 결과물의 객관적인 성능 측정을 위해 2018년 한국정보통신기술협회(TTA)에서 시행한 공인인증 평가에 사용된 평가셋(개체명 인식: 459문장, 의미역 인식(필수역 대상): 450문장)
UCorpus-HG 말뭉치
(울산대학교)
울산대학교 형태/의미 말뭉치(UCorpus-HG)
  • 표준국어대사전 기반 모든 동형이의어 대상으로 어깨번호를 부착한 말뭉치
  • 원문: 세종 형태의미 말뭉치, 신문, 초등학교 국어교과서, 법률, 사전뜻풀이/용례
  • 전체 1,909,840 문장, 18,869,517 어절 (학습 말뭉치 90%, 평가 말뭉치 10%로 분리 제공)
엑소브레인
Korean TimeBank
및 SpaceBank
(KAIST/충북대)
한국어 시간 정보 주석 말뭉치: Korean TimeBank (KAIST)
  • 한국어 시간 정보 자동 추출을 위한 한국어 시간 정보 주석 가이드라인 및 말뭉치
  • 말뭉치 구성: 812 문서, 5,467 문장 태깅 (시간개체 4,509개, 시간관계 5,182개)
한국어 공간 정보 주석 말뭉치: Korean SpaceBank (충북대학교)
  • 한국어 공간 정보 자동 추출을 위한 한국어 공간 정보 주석 가이드라인 및 말뭉치
  • 말뭉치 구성 : 개체 태그 7종류, 관계 태그 4종류, 2,264 문장 태깅
엑소브레인
패러프레이즈 말뭉치
(KAIST)
한국어 패러프레이즈 말뭉치: Korean Paraphrase Corpus(KAIST)
  • 한국어 패러프레이즈 인식 및 평가를 위한 주석 가이드라인 및 말뭉치
  • 말뭉치 구성: 패러프레이즈 관계 2,000문장 쌍과 출처, 유사도(0-5)/난이도(상/중/하) 표준 태깅, 의미(실질) 형태소 정보 태깅
언어처리 학습데이터 구축 표준안

공개된 언어처리 학습데이터 중 엑소브레인 언어분석 말뭉치와 QA datasets은 한국정보통신기술협회(TTA), 국가기술표준원 KS 표준안에 입각하여 구축하였습니다. ETRI 언어지능연구그룹이 주도로 여러 전문가들의 검증을 거쳐 현재 형태소 분석, 개체명 인식, 구문분석, 질문분석이 표준안으로 채택되었으며, 의미역 인식에 대한 표준안이 제출되어 검증 중에 있습니다. 표준안은 아래에서 다운받으실 수 있습니다.

TTA 표준 형태소 태그셋
(TTAK.KO-11.0010/R1)

다운로드

TTA 표준 개체명 태그셋
(TTAK.KO-10.0852)

다운로드

TTA 표준 의존 구문분석 가이드라인
(TTAK.KO-10.0853)

다운로드

TTA 표준 오픈 도메인 자연어 질의 응답을 위한
질문 분석 메타데이터 (TTAK.KO-10.1098)

다운로드

국가기술표준원 KS 표준 (예정) 한국어 정보 처리를 위한
의미역 세트 및 태깅 말뭉치

준비중입니다.
음성 학습데이터

한국어 및 영어 음성인식 기술을 개발하기 위한 과학기술정보통신부의 R&D인 “언어학습을 위한 자유발화형 음성대화처리 원천기술 개발” 과제에서는 음성대화 인터페이스 및 외국어교육을 위한 다양한 음성인식 기술 개발과 관련 데이터를 구축하고 있습니다.

과제를 수행하면서 구축한 약 300명 규모의 음향모델 훈련을 위한 학습데이터를 배포하여 관련 연구 분야에 도움이 되고자 합니다.

아래의 표와 같이 잡음 및 입력 환경, 비원어민 음성인식을 고려하여 구분된 학습데이터의 다운로드를 제공합니다.

적용 포맷은 공히 16kHz 샘플링 주파수로 녹음된 16-비트 선형(linear) PCM 파일이며, 부가 정보로서 파일별로 단어 단위의 전사 정보 및 발성자의 성별 정보가 제공됩니다.

데이터 명 구축 방법 및 환경 분량(전체 발화수)
다채널 잡음처리 기술
개발 및 평가용 데이터
  1. ㆍ 8채널 어레이 마이크 이용 (1M거리 녹음)
  2. ㆍ 사무실 잡음 환경
50명 * 100발화 * 8마이크 (40,208)
텔레매틱스 목적지 인식을 위한
음향모델 적응용 음성 데이터
  1. ㆍ 정지 및 주행 중인 자동차 환경: 정차중, 60Km/h, 100Km/h의 3가지 주행 상황
  2. ㆍ 네비게이션 단말기 적용
50명 * 120발화 (6,000)
잡음처리 및 음성검출을 위한
스마트폰 환경 연속어 음성 데이터
  1. ㆍ 아이폰4, 갤럭시S2 사용
  2. ㆍ 조용한 사무실 환경
50명 * 100발화 * 2환경 (10,000)
한국어 및 영어 음향모델
훈련용 음성 데이터
  1. ㆍ 한국어 : 한국어 자연어 발성 문장
  2. ㆍ 영어 : 한국인이 발성한 영어 문장
한/영 각 50명 * 100발화 (10,000)
음성인터페이스 개발을 위한
어린이 음성 데이터
  1. ㆍ 어린이 음향모델 훈련용
  2. ㆍ 초등 1~4학년 대상 녹음
  3. ㆍ 아이폰5, 갤럭시S4, 마이크 동시 녹음
50명 * 100발화 * 3환경 (16,200)
객체검출 학습데이터

영상 데이터 인식 기술을 개발하기 위한 과학기술정보통신부 소프트웨어 분야 R&D 과제인 딥뷰(DeepView) 과제에서는 영상 데이터 이해 및 예측을 위한 플랫폼을 개발하고 있습니다. 딥뷰 과제를 수행하면서 구축한 약 10만장 정도의 객체 검출용 이미지 학습데이터를 배포하여, 유사 분야 연구에 도움이 되고자 합니다.

객체 검출용 이미지 학습데이터는 ImageNet 분류 체계 기반으로 약 880여개의 객체(사람, 개, 자동차 등)를 정의하였으며, 객체에 대한 정보(객체 이름)와 영상 내에 그 객체의 위치 좌표 정보가 태깅된 이미지로 구성되어 있습니다.

아래의 표와 같이 15개의 세부 카테고리로 구분된 학습데이터의 다운로드를 제공합니다. 다운로드되는 파일은 JPEG 이미지와 XML 객체 정보 파일입니다.

상위 카테고리 세부 카테고리 이미지 수
사람 사람 10,930
얼굴 5,127
동물 10,045
양서류,파충류,절지동물, 무척추동물 11,470
포유류 11,491
개,고양이, 개과, 고양이과, 물고기 7,640
식물 식물 8,500
인공물 의류,천,피복 8,102
구조, 건설 - 건축물, 벽, 문 10,539
구조, 건설 - 기타구조 및 건설 10,223
장치 10,702
자동차 류 7,142
도구,기계,장비,기구 11,228
가구,가전,악기,장난감,무기 9,27
지질 형성, 형성 2,611
총 합계 135,020