* 학습데이터 신청 전에 키발급 신청을 완료하셔야 합니다. Open API Key 발급 및 관리
한국어 BERT 언어모델 | 협약서 다운로드 학습데이터 신청하기 |
---|---|
언어처리 학습데이터 | 협약서 다운로드 학습데이터 신청하기 |
음성 학습데이터 | 협약서 다운로드 학습데이터 신청하기 |
객체검출 학습데이터 | 협약서 다운로드 학습데이터 신청하기 |
과학기술정보통신부와 IITP의 혁신성장동력 프로젝트로 추진 중인 엑소브레인 사업에서 한국어의 특성을 반영하여 개발한 BERT (Bidirectional Encoder Representations from Transformers) 언어모델을 공개합니다.
ETRI 엑소브레인 연구진이 배포하는 한국어 최첨단 딥러닝 언어모델은 한국어분석·기계독해·문서분류 등 다양한 태스크에 활용 가능하며, 5종(의미역 인식, 기계독해, 단락 순위화, 문장 유사도 추론, 문서 주제분류)의 한국어 처리 태스크에서 구글이 배포한 한국어 언어모델과 비교 평가한 결과, ETRI의 언어모델이 평균 4.5% 성능이 우수한 것으로 평가되었습니다.
BERT 언어모델은 대용량 원시 텍스트로부터 어휘의 양방향 문맥정보와 문장 간의 선후관계를 학습하여 단어를 문맥을 반영한 벡터로 표현하는 모델입니다. 한국어 언어모델 학습 말뭉치로는 신문기사와 백과사전 등 23GB의 대용량 텍스트를 대상으로 47억개의 형태소를 사용하여 학습하였습니다.
한국어 BERT 언어모델로 한국어의 특성을 반영한 형태소분석 기반의 언어모델과 형태소분석을 수행하지 않은 어절 기반의 언어모델 2가지 모델을 공개합니다.
배포하는 언어모델은 대표적인 딥러닝 프레임워크인 파이토치(PyTorch)와 텐서플로우(Tensorflow)에서도 모두 사용 가능하도록 배포합니다. 활용을 위한 세부적인 내용은 다운로드 받은 언어모델 압축파일 내의 readme 문서를 참고하시면 됩니다.
배포 모델 | 세부 모델 | 세부 내용 | 모델 파라미터 |
---|---|---|---|
KorBERT | Korean_BERT_Morphology |
|
30349 vocabs, 12 layer, 768 hidden, 12 heads, |
Korean_BERT_WordPiece |
|
30797 vocabs, 12 layer, 768 hidden, 12 heads, |
배포하는 한국어 KorBERT 언어모델의 구글 대비 평가 결과는 아래와 같습니다.
구분 | 의미역인식 | 기계독해 | 단락순위화 | 문장유사도추론 | 문서주제분류 |
---|---|---|---|---|---|
평가데이터 및 규격 | Korean Propbank, 학습: 19,302 문장 평가: 3,773 문장 |
KorQuAD 데이터, 학습: 60,406건 평가: 5,773건 (dev셋) |
학습: 45,521 질문 평가: 1,000 질문 (질문당 평균 8.7개 단락) |
학습: 10,874문장쌍 평가: 1,209문장쌍 (이진 분류체계: 유사, 무관) |
학습: 9,301건 평가: 1,035건 (54개 분류체계) |
평가 방법 | F1[2] | Exact Match[3] / F1 | Precision@Top1 | Accuracy | Accuracy |
(Google) Word Piece[4]기반 한국어 언어모델 |
81.85% | 80.82% / 90.68% (정답 경계 구분을 위해 후처리 수행) |
66.3% | 79.4% | 91.1% |
(엑소브레인) Word Piece 기반 한국어 언어모델 |
85.10% | 80.70% / 91.94% (정답 경계 구분을 위해 후처리 수행) |
70.5% | 82.7% | 93.4% |
(엑소브레인) 형태소 기반 한국어 언어모델 |
85.77% | 86.40% / 94.18% | 73.7% | 83.4% | 93.7% |
한국어 분석 및 질의응답 기술을 개발하기 위한 과학기술정보통신부 소프트웨어 분야 R&D인 엑소브레인 과제에서는 다양한 지식산업 환경에서 전문가 수준의 질의응답 서비스의 제공을 위하여 ETRI, 울산대, KAIST, 충북대, 강원대, 국회도서관 등 국내 여러 연구기관이 힘을 합쳐 연구하고 있습니다.
엑소브레인 과제를 수행하면서 ETRI와 함께 각 연구기관에서 구축한 언어처리 학습데이터(엑소브레인 말뭉치 V5.0)를 공개하여 유사 분야 연구에 도움이 되고자 합니다. 공개하는 엑소브레인 말뭉치 V5.0은 아래와 같이 구성되어 있습니다.
엑소브레인 QA Datasets (ETRI) |
퀴즈 QA Datasets
|
---|---|
SQuAD 한국어 QA Dataset
|
|
위키피디아 단문질문 QA Datasets
|
|
엑소브레인 법령QA Dataset (국회도서관)
|
|
엑소브레인 언어분석 말뭉치 (ETRI/강원대) |
언어분석 통합 말뭉치
|
세부기술 별 말뭉치
|
|
UCorpus-HG 말뭉치 (울산대학교) |
울산대학교 형태/의미 말뭉치(UCorpus-HG)
|
엑소브레인 Korean TimeBank 및 SpaceBank (KAIST/충북대) |
한국어 시간 정보 주석 말뭉치: Korean TimeBank (KAIST)
|
한국어 공간 정보 주석 말뭉치: Korean SpaceBank (충북대학교)
|
|
엑소브레인 패러프레이즈 말뭉치 (KAIST) |
한국어 패러프레이즈 말뭉치: Korean Paraphrase Corpus(KAIST)
|
공개된 언어처리 학습데이터 중 엑소브레인 언어분석 말뭉치와 QA datasets은 한국정보통신기술협회(TTA), 국가기술표준원 KS 표준안에 입각하여 구축하였습니다. ETRI 언어지능연구그룹이 주도로 여러 전문가들의 검증을 거쳐 현재 형태소 분석, 개체명 인식, 구문분석, 질문분석이 표준안으로 채택되었으며, 의미역 인식에 대한 표준안이 제출되어 검증 중에 있습니다. 표준안은 아래에서 다운받으실 수 있습니다.
한국어 및 영어 음성인식 기술을 개발하기 위한 과학기술정보통신부의 R&D인 “언어학습을 위한 자유발화형 음성대화처리 원천기술 개발” 과제에서는 음성대화 인터페이스 및 외국어교육을 위한 다양한 음성인식 기술 개발과 관련 데이터를 구축하고 있습니다.
과제를 수행하면서 구축한 약 300명 규모의 음향모델 훈련을 위한 학습데이터를 배포하여 관련 연구 분야에 도움이 되고자 합니다.
아래의 표와 같이 잡음 및 입력 환경, 비원어민 음성인식을 고려하여 구분된 학습데이터의 다운로드를 제공합니다.
적용 포맷은 공히 16kHz 샘플링 주파수로 녹음된 16-비트 선형(linear) PCM 파일이며, 부가 정보로서 파일별로 단어 단위의 전사 정보 및 발성자의 성별 정보가 제공됩니다.
데이터 명 | 구축 방법 및 환경 | 분량(전체 발화수) |
---|---|---|
다채널 잡음처리 기술 개발 및 평가용 데이터 |
|
50명 * 100발화 * 8마이크 (40,208) |
텔레매틱스 목적지 인식을 위한 음향모델 적응용 음성 데이터 |
|
50명 * 120발화 (6,000) |
잡음처리 및 음성검출을 위한 스마트폰 환경 연속어 음성 데이터 |
|
50명 * 100발화 * 2환경 (10,000) |
한국어 및 영어 음향모델 훈련용 음성 데이터 |
|
한/영 각 50명 * 100발화 (10,000) |
음성인터페이스 개발을 위한 어린이 음성 데이터 |
|
50명 * 100발화 * 3환경 (16,200) |
영상 데이터 인식 기술을 개발하기 위한 과학기술정보통신부 소프트웨어 분야 R&D 과제인 딥뷰(DeepView) 과제에서는 영상 데이터 이해 및 예측을 위한 플랫폼을 개발하고 있습니다. 딥뷰 과제를 수행하면서 구축한 약 20만장(기존 약 10만장) 정도의 객체 검출용 이미지 학습데이터를 배포하여, 유사 분야 연구에 도움이 되고자 합니다.
객체 검출용 이미지 학습데이터는 ImageNet 분류 체계 기반으로 약 560여개의 객체(사람, 개, 자동차 등)를 정의하였으며, 객체에 대한 정보(객체 이름)와 영상 내에 그 객체의 위치 좌표 정보가 태깅된 이미지로 구성되어 있습니다.
아래의 표와 같이 15개의 세부 카테고리로 구분된 학습데이터의 다운로드를 제공합니다. 다운로드되는 파일은 JPEG 이미지와 XML 객체 정보 파일입니다.
No | 상위 카테고리 | 세부 카테고리 | 이미지 수 |
---|---|---|---|
1 | 사람 | 사람 | 18,646 |
2 | 사람 2 | 10,069 | |
3 | 얼굴 | 5,563 | |
4 | 얼굴 2 | 301 | |
5 | 동물 | 새 | 17,249 |
6 | 새 2 | 6,750 | |
7 | 양서류, 파충류, 절지동물, 무척추동물 | 19,259 | |
8 | 양서류, 파충류, 절지동물, 무척추동물 2 | 6,477 | |
9 | 포유류 | 25,261 | |
10 | 포유류 2 | 10,487 | |
11 | 개, 고양이, 개과, 고양이과, 물고기 | 13,407 | |
12 | 개, 고양이, 개과, 고양이과, 물고기 2 | 4,443 | |
13 | 식물 | 식물 | 16,817 |
14 | 식물 2 | 6,008 | |
15 | 인공물 | 의류, 천, 피복 | 12,660 |
16 | 의류, 천, 피복 2 | 4,502 | |
17 | 구조, 건설 - 건축물, 벽, 문 | 19,097 | |
18 | 구조, 건설 - 건축물, 벽, 문 2 | 9,759 | |
19 | 구조, 건설 - 기타구조 및 건설 | 23,314 | |
20 | 구조, 건설 - 기타구조 및 건설 2 | 12,203 | |
21 | 장치 | 15,716 | |
22 | 장치 2 | 4,620 | |
23 | 자동차 류 | 12,375 | |
24 | 자동차 류 2 | 6,038 | |
25 | 도구, 기계, 장비, 기구 | 14,070 | |
26 | 도구, 기계, 장비, 기구 2 | 4,996 | |
27 | 가구, 가전, 악기, 장난감, 무기 | 15,180 | |
28 | 가구, 가전, 악기, 장난감, 무기 2 | 7,451 | |
29 | 자연 구조물 | 지형, 자연구조물 | 5,916 |
30 | 지형, 자연구조물 2 | 1,322 | |
총 합계 | 329,956 |