AI API/DATA

학습 모델 및 데이터 신청 바로가기

언어처리 학습데이터

한국어 분석 및 질의응답 기술을 개발하기 위한 과학기술정보통신부 소프트웨어 분야 R&D인 엑소브레인 과제에서는 다양한 지식산업 환경에서 전문가 수준의 질의응답 서비스의 제공을 위하여 ETRI, 울산대, KAIST, 충북대, 강원대, 국회도서관 등 국내 여러 연구기관이 힘을 합쳐 연구하고 있습니다.

엑소브레인 과제를 수행하면서 ETRI와 함께 각 연구기관에서 구축한 언어처리 학습데이터(엑소브레인 말뭉치 V5.0)를 공개하여 유사 분야 연구에 도움이 되고자 합니다. 공개하는 엑소브레인 말뭉치 V5.0은 아래와 같이 구성되어 있습니다.

엑소브레인 QA Datasets (ETRI)	퀴즈 QA Datasets · 퀴즈 분야 질의응답을 위한 4개 유형 (객관식/주관식/가부형/연상형)의 퀴즈 QA datasets (569개)
SQuAD 한국어 QA Dataset · SQuAD 질문의 위키피디아 한국어 번역 QA datasets (표준태깅, 339개) MRC 한국어 QA Dataset · 한국어 위키피디아를 대상으로 구축한 MRC(Machine Reading Comprehension) QA datasets(10,000개)
위키피디아 단문질문 QA Datasets · 상/중/하 난이도 별 패러프레이즈 QA datasets(표준태깅, 300개) · 일반상식 분야 QA dataset(기본 태깅, 1,776개)
엑소브레인 법령QA Dataset (국회도서관) · 세계 35개국 헌법에 대한 QA dataset (약 36,000 셋) · 질문과 정답문장의 패러프레이징 난이도에 따라 상/중/하 질문 난이도 구분
엑소브레인 근거 설명 QA Dataset · 한국어 질문과 다수의 위키피디아 검색결과 단락 대상으로 정답의 근거를 설명가능한 QA dataset (30,000셋) · 각 질문 별 패러프레이즈 질문 포함
엑소브레인 멀티홉 QA Dataset · 한국어 질문과 다수의 위키피디아 검색결과 단락 대상으로 멀티홉 추론 기반의 QA dataset (40,000셋) · 브릿지형 및 비교형 학습데이터
엑소브레인 언어분석 말뭉치 (ETRI/강원대)	언어분석 통합 말뭉치 · 언어분석 6개 기술(형태소분석, 다의어 어휘의미분석, 세분류 개체명인식, 의존구문분석, 의미역인식, 상호참조해결)의 태깅 가이드라인과 자연어 질의응답을 위한 질문/정답 포맷의 뉴스기사 대상 태깅 말뭉치 (2,593문장, 33,131어절)
세부기술 별 말뭉치 · 개체명 인식 태깅 가이드라인 및 말뭉치 (인명/장소/조직/날짜/시간 5개 태그, 10,000 문장) · 의미역 인식 태깅 가이드라인 및 말뭉치 (625문장, 7,436어절) · 의존구문분석 태깅 가이드라인 및 말뭉치 (2,225문장, 27,317어절) TTA 공인인증 말뭉치 (추후제공예정) · 엑소브레인 과제 결과물의 객관적인 성능 측정을 위해 2018년 한국정보통신기술협회(TTA)에서 시행한 공인인증 평가에 사용된 평가셋(개체명 인식: 459문장, 의미역 인식(필수역 대상): 450문장)
UCorpus-HG 말뭉치 (울산대학교)	울산대학교 형태/의미 말뭉치(UCorpus-HG) · 표준국어대사전 기반 모든 동형이의어 대상으로 어깨번호를 부착한 말뭉치 · 원문: 세종 형태의미 말뭉치, 신문, 초등학교 국어교과서, 법률, 사전뜻풀이/용례 · 전체 1,909,840 문장, 18,869,517 어절 (학습 말뭉치 90%, 평가 말뭉치 10%로 분리 제공)
엑소브레인 Korean TimeBank 및 SpaceBank (KAIST/충북대)	한국어 시간 정보 주석 말뭉치: Korean TimeBank (KAIST) · 한국어 시간 정보 자동 추출을 위한 한국어 시간 정보 주석 가이드라인 및 말뭉치 · 말뭉치 구성: 812 문서, 5,467 문장 태깅 (시간개체 4,509개, 시간관계 5,182개)
한국어 공간 정보 주석 말뭉치: Korean SpaceBank (충북대학교) · 한국어 공간 정보 자동 추출을 위한 한국어 공간 정보 주석 가이드라인 및 말뭉치 · 말뭉치 구성 : 개체 태그 7종류, 관계 태그 4종류, 2,264 문장 태깅
엑소브레인 패러프레이즈 말뭉치 (KAIST)	한국어 패러프레이즈 말뭉치: Korean Paraphrase Corpus(KAIST) · 한국어 패러프레이즈 인식 및 평가를 위한 주석 가이드라인 및 말뭉치 · 말뭉치 구성: 패러프레이즈 관계 2,000문장 쌍과 출처, 유사도(0-5)/난이도(상/중/하) 표준 태깅, 의미(실질) 형태소 정보 태깅

엑소브레인
QA Datasets
(ETRI)

퀴즈 QA Datasets

· 퀴즈 분야 질의응답을 위한 4개 유형 (객관식/주관식/가부형/연상형)의 퀴즈 QA datasets (569개)

SQuAD 한국어 QA Dataset

· SQuAD 질문의 위키피디아 한국어 번역 QA datasets (표준태깅, 339개)

MRC 한국어 QA Dataset

· 한국어 위키피디아를 대상으로 구축한 MRC(Machine Reading Comprehension) QA datasets(10,000개)

위키피디아 단문질문 QA Datasets

· 상/중/하 난이도 별 패러프레이즈 QA datasets(표준태깅, 300개)

· 일반상식 분야 QA dataset(기본 태깅, 1,776개)

엑소브레인 법령QA Dataset (국회도서관)

· 세계 35개국 헌법에 대한 QA dataset (약 36,000 셋)

· 질문과 정답문장의 패러프레이징 난이도에 따라 상/중/하 질문 난이도 구분

엑소브레인 근거 설명 QA Dataset

· 한국어 질문과 다수의 위키피디아 검색결과 단락 대상으로 정답의 근거를 설명가능한 QA dataset (30,000셋)

· 각 질문 별 패러프레이즈 질문 포함

엑소브레인 멀티홉 QA Dataset

· 한국어 질문과 다수의 위키피디아 검색결과 단락 대상으로 멀티홉 추론 기반의 QA dataset (40,000셋)

· 브릿지형 및 비교형 학습데이터

엑소브레인
언어분석 말뭉치
(ETRI/강원대)

언어분석 통합 말뭉치

· 언어분석 6개 기술(형태소분석, 다의어 어휘의미분석, 세분류 개체명인식, 의존구문분석, 의미역인식, 상호참조해결)의 태깅 가이드라인과 자연어 질의응답을 위한 질문/정답 포맷의 뉴스기사 대상 태깅 말뭉치 (2,593문장, 33,131어절)

세부기술 별 말뭉치

· 개체명 인식 태깅 가이드라인 및 말뭉치 (인명/장소/조직/날짜/시간 5개 태그, 10,000 문장)

· 의미역 인식 태깅 가이드라인 및 말뭉치 (625문장, 7,436어절)

· 의존구문분석 태깅 가이드라인 및 말뭉치 (2,225문장, 27,317어절)

TTA 공인인증 말뭉치 (추후제공예정)

· 엑소브레인 과제 결과물의 객관적인 성능 측정을 위해 2018년 한국정보통신기술협회(TTA)에서 시행한 공인인증 평가에 사용된 평가셋(개체명 인식: 459문장, 의미역 인식(필수역 대상): 450문장)

UCorpus-HG 말뭉치
(울산대학교)

울산대학교 형태/의미 말뭉치(UCorpus-HG)

· 표준국어대사전 기반 모든 동형이의어 대상으로 어깨번호를 부착한 말뭉치

· 원문: 세종 형태의미 말뭉치, 신문, 초등학교 국어교과서, 법률, 사전뜻풀이/용례

· 전체 1,909,840 문장, 18,869,517 어절 (학습 말뭉치 90%, 평가 말뭉치 10%로 분리 제공)

엑소브레인
Korean TimeBank
및 SpaceBank
(KAIST/충북대)

한국어 시간 정보 주석 말뭉치: Korean TimeBank (KAIST)

· 한국어 시간 정보 자동 추출을 위한 한국어 시간 정보 주석 가이드라인 및 말뭉치

· 말뭉치 구성: 812 문서, 5,467 문장 태깅 (시간개체 4,509개, 시간관계 5,182개)

한국어 공간 정보 주석 말뭉치: Korean SpaceBank (충북대학교)

· 한국어 공간 정보 자동 추출을 위한 한국어 공간 정보 주석 가이드라인 및 말뭉치

· 말뭉치 구성 : 개체 태그 7종류, 관계 태그 4종류, 2,264 문장 태깅

엑소브레인
패러프레이즈 말뭉치
(KAIST)

한국어 패러프레이즈 말뭉치: Korean Paraphrase Corpus(KAIST)

· 한국어 패러프레이즈 인식 및 평가를 위한 주석 가이드라인 및 말뭉치

· 말뭉치 구성: 패러프레이즈 관계 2,000문장 쌍과 출처, 유사도(0-5)/난이도(상/중/하) 표준 태깅, 의미(실질) 형태소 정보 태깅

언어처리 학습데이터 구축 표준안

공개된 언어처리 학습데이터 중 엑소브레인 언어분석 말뭉치와 QA datasets은 한국정보통신기술협회(TTA), 국가기술표준원 KS 표준안에 입각하여 구축하였습니다. ETRI 언어지능연구그룹이 주도로 여러 전문가들의 검증을 거쳐 현재 형태소 분석, 개체명 인식, 구문분석, 질문분석이 표준안으로 채택되었으며, 의미역 인식에 대한 표준안이 제출되어 검증 중에 있습니다. 표준안은 아래에서 다운받으실 수 있습니다.

TTA 표준 형태소 태그셋 (TTAK.KO-11.0010/R1)
TTA 표준 개체명 태그셋 (TTAK.KO-10.0852)
TTA 표준 의존 구문분석 가이드라인 (TTAK.KO-10.0853)
TTA 표준 오픈 도메인 자연어 질의 응답을 위한 질문 분석 메타데이터 (TTAK.KO-10.1098)
국가기술표준원 KS 표준 (예정) 한국어 정보 처리를 위한 의미역 세트 및 태깅 말뭉치