로고이미지
TOP

한국어 이해생성 언어모델(ET5)

학습 모델 및 데이터 신청 바로가기

한국어 이해생성 언어모델(ET5)

과학기술정보통신부와 IITP의 혁신성장동력 프로젝트로 추진 중인 엑소브레인 사업에서 한국어 이해 및 생성이 가능한 언어모델을 공개합니다.

ETRI 엑소브레인 연구진이 배포하는 한국어 이해생성 언어모델(ET5)은 한국어를 이해하고 실시간으로 출력 텍스트를 생성해 낼 수 있어서, 한국어분석, 기계독해, 문장의미 분석과 같은 언어 이해 유형의 태스크뿐 아니라 문서요약, 질문생성 등과 같은 다양한 언어 생성 유형의 태스크에도 활용이 가능합니다.

한국어 이해생성 언어모델(ET5)은 대용량 원시 텍스트로부터 빈칸 단어열 맞추기(T5 학습 유형)다음 단어 맞추기(GPT 학습 유형)동시에 사전학습(pre-train)하여 언어이해와 언어생성 능력을 향상하였습니다. 대표적인 한국어 처리 태스크 5종(기계독해, 요약, 단락 순위화, 형태소 분석, 문장유사도 추론) 대상 평가 결과 한국어 최고 수준의 성능을 보였습니다. 구글에서 배포한 모델에 비해 기계독해 1.40%, 형태소 분석 1.43%, 문장유사도 추론 7.12% 우수한 성능으로 평가되었습니다.

  • 입력

    출력

  • 질문

    중국어 방은 무엇을 증명하기 위한 목적으로 제안되었나요?

    단락

    중국어 방 혹은 중국인 방(영어: Chinese room)은 존 설(John Searle)이 튜링 테스트로 기계의 인공지능 여부를 판정할 수 없다는 것을 논증하기 위해 고안한 사고실험이다.

    기계의 인공지능 여부를 판정할 수 없다는 것

  • 요약

    레디움아트센터 개관 기념전 - 부산과 닮은 도시 니스서 활동 - 아르망 등 신사실주의 작가 - 10명 작품 100여 점 선보여 - 이수정 관장 30년 수집 작품 "우리 미술관은 그림만 거는 공간에서 벗어나 학생들의 교육 기관이자 가족과 관광객들이 찾는 예술마당입니다."'신사실주의 경향의 니스파 1960년'전이 열리는 레디움아트센터. 레디움아트센터 제공 레디움아트센터는 묘한 공간이다. 부산 해운대구 중동 팔레드시즈 2층 330㎡(약 100평) 규모의 공간에 전시실과 아트숍 등을 갖췄다. 미술 교육 프로그램도 마련했다. 이곳은 과거 해운대 달맞이언덕에서 동백아트센터를 운영하던 이수정 관장이 지난해 11월 설립한 사설 미술관이다.

    이수정 관장이 지난해 11월 설립한 사설 미술관 레디움아트센터에는 지난 30년간 현대미술의 중요한 흐름이 된 니스파의 현대미술 작품 100여 점이 전시되어 있다.

  • 형태소 분석

    문 대통령의 1차 접종은 늦어도 4월 초순에는 이뤄질 전망이다.

    문/NNP 대통령/NNG 의/JKG 1/SN 차/NNB 접종/NNG 은/JX 늦/VA 어도/EC 4/SN 월/NNB 초순/NNG 에/JKB 는/JX 이뤄/VV 질/VX 전망/NNG 이/VCP 다/EF ./SF

  • 문장유사도 : 문장 1

    이세돌 9단이 알파고의 실수들에 대해 이야기 하고 있다.

    문장유사도 : 문장 2

    이세돌 9단은 알파고의 오류 가능성에 대해서도 입을 열었다.

    (의미) 동등

학습 말뭉치로는 약 136 GB (12억9천만 문장, 139억개 단어, 643억 글자)의 Common Crawl, 위키백과, 신문기사, 방송 대본, 영화/드라마 대본 등, 문어/구어를 망라한 대용량 텍스트를 대상으로 학습하였습니다.

배포하는 언어모델은 파이토치(PyTorch) 딥러닝 라이브러리를 이용하여 활용 가능합니다. 활용을 위한 세부적인 내용은 다운로드 받은 언어모델 압축파일 내의 readme 문서를 참고하시면 됩니다.

배포 모델 세부 내용 모델 파라미터
ET5 base

· 학습데이터: 136GB 원시 말뭉치

· 딥러닝 라이브러리: pytorch

· HuggingFace model 및 SentencePiece tokenizer model 파일

· Latin alphabets: Cased

45100 vocabs,
12 layers (인코더/디코더 각각),
12 heads,
768 d_model,
64 d_kv,
3072 d_ff

배포하는 한국어 이해생성 언어모델(ET5)의 평가 결과는 아래와 같습니다.

평가 항목
- [질의응답] 기계 독해(Machine Reading Comprehension): 주어진 단락에서 질문이 요구하는 정답을 찾음
- [언어생성] 문서요약(Abstractive Summarization): 주어진 문서를 요약한 문장을 생성
- [정보검색] 단락 순위화(Passage Ranking): 검색결과 집합에서 질문에 찾는 정답이 들어있는 단락 순위화
- [언어분석] 형태소 분석(Part Of Speech Tagging): 주어진 문장에 대해 형태소와 품사를 찾음
- [문장의미 분석] 문장 유사도 추론(Natural Language Inference): 2개 문장 간 의미가 동일한 지 여부를 분류
평가 결과
구분 [질의응답]
기계독해
[언어생성]
문서요약
[정보검색]
단락 순위화
[언어분석]
형태소분석
[문장의미 분석]
문장유사도추론
평가데이터
및 규격
KorQuAD v1.0
학습: 60,406건
평가: 5,773건 (dev셋)
AI Hub 요약
(뉴스-abstractive)
학습: 240,972건
평가: 30,121건(test셋)
학습: 45,521 질문
평가: 1,000 질문
(질문당 평균 8.7개 단락)
세종 말뭉치
학습: 135,238 문장
평가: 4,800 문장
학습: 41,465 문장쌍
평가: 3,181 문장쌍
(이진 분류체계: 유사, 무관)
평가 방법 Exact Match[1]/F1[2] ROUGE-1/2/L[3] Precision@Top1 F1 Accuracy
(KETI)
KE-T5.ko base
91.35 / 85.40 49.15 / 21.97 / 46.78 81.8 N/A[4] 79.54
(Google)
mT5 base
92.86 / 85.14 49.39 / 22.03 / 46.92 81.6 93.82 77.31
(엑소브레인)
ET5 base
94.26 / 86.37 50.05 / 22.98 / 47.37 82.0 95.25 84.43

* 모든 성능지표는 디코딩 생성 방식으로 출력된 텍스트를 기반으로 측정되었음

[1] Exact Match :시스템이 제시한 결과와 정답이 완전히 일치하는 비율

[2] F1 :정확률(Precision, 시스템이 결과가 정답인 비율)과 재현률(Recall, 실제 정답을 시스템이 맞춤 비율)의 조화평균

[3] ROUGE-1/2/L : 시스템 요약본과 정답 요약본 간 겹치는 unigram(1)/bigram(2)/최장(Longest) 길이 부분문자열의 비율

[4] 형태소 태그를 표현할 수 있는 여유(unused) 토큰 부재로 비교 성능 평가 제외