AI API/DATA

한국어 생성 언어모델(EiLLM)

정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 전문지식 대상 판단결과의 이유/근거를 설명가능한 전문가 의사결정 지원 인공지능 기술개발 과제에서 개발된 한국어 생성 언어모델을 공개합니다.

ETRI에서 배포하는 언어모델은 총 2종이며, 한국어 모델(polyglot-ko-12.8b)을 기반으로 약 26만개의 instruction following 데이터로 fine-tuning된 모델과 영어 모델(llmama2-13b)을 기반으로 약 63만개의 instruction following 데이터로 fine-tuning된 모델입니다. 학습데이터는 정제를 통해 추후 공개될 예정입니다. 영어 모델 기반으로 fine-tuning된 생성 언어모델은 NIA와 Upstate가 주최하는 Open-ko-llm 리더보드에서 추론과 상식분야에서 1위를 하였습니다 (2023. 10. 10기준).

한국어 모델 기반 생성 언어모델(polyglot-ko-12.8b-instruct)

Fine-tuning 학습데이터

Naver	alpaca	vicuna	dolly	autoCoT	hc3	codeAlpaca	flan	gpt4all
21,155	52,002	85,619	15,009	7,728	10,390	19,656	27,873	25,126

영어 모델 기반 생성 언어모델(llama2-ko-13b-instruct)

Fine-tuning 학습데이터

Naver	alpaca	vicuna	dolly	autoCoT	hc3	codeAlpaca	flan	gpt4all	openOrca	shareGPT
21,155	52,002	85,619	15,009	7,728	10,390	19,656	27,873	25,126	46,558	323,093

모델 및 데이터

한국어 생성 언어모델

한국어 생성 언어모델(EiLLM)

한국어 모델 기반 생성 언어모델(polyglot-ko-12.8b-instruct)

영어 모델 기반 생성 언어모델(llama2-ko-13b-instruct)