로고이미지
TOP

음성 학습데이터

학습 모델 및 데이터 신청 바로가기

음성 학습데이터

한국어 및 영어 음성인식 기술을 개발하기 위한 과학기술정보통신부의 R&D인 “언어학습을 위한 자유발화형 음성대화처리 원천기술 개발” 과제에서는 음성대화 인터페이스 및 외국어교육을 위한 다양한 음성인식 기술 개발과 관련 데이터를 구축하고 있습니다.

과제를 수행하면서 구축한 약 300명 규모의 음향모델 훈련을 위한 학습데이터를 배포하여 관련 연구 분야에 도움이 되고자 합니다.

아래의 표와 같이 잡음 및 입력 환경, 비원어민 음성인식을 고려하여 구분된 학습데이터의 다운로드를 제공합니다.

적용 포맷은 공히 16kHz 샘플링 주파수로 녹음된 16-비트 선형(linear) PCM 파일이며, 부가 정보로서 파일별로 단어 단위의 전사 정보 및 발성자의 성별 정보가 제공됩니다.

데이터 명 구축 방법 및 환경 분량(전체 발화수)
다채널 잡음처리 기술
개발 및 평가용 데이터

· 8채널 어레이 마이크 이용 (1M거리 녹음)

· 사무실 잡음 환경

50명 * 100발화 * 8마이크 (40,208)
텔레매틱스 목적지 인식을 위한 음향모델 적응용 음성 데이터

· 정지 및 주행 중인 자동차 환경: 정차중, 60Km/h, 100Km/h의 3가지 주행 상황

· 네비게이션 단말기 적용

50명 * 120발화 (6,000)
잡음처리 및 음성검출을 위한
스마트폰 환경 연속어 음성 데이터

· 아이폰4, 갤럭시S2 사용

· 조용한 사무실 환경

50명 * 100발화 * 2환경 (10,000)
한국어 및 영어 음향모델
훈련용 음성 데이터

· 한국어 : 한국어 자연어 발성 문장

· 영어 : 한국인이 발성한 영어 문장

한/영 각 50명 * 100발화 (10,000)
음성인터페이스 개발을 위한
어린이 음성 데이터

· 어린이 음향모델 훈련용

· 초등 1~4학년 대상 녹음

· 아이폰5, 갤럭시S4, 마이크 동시 녹음

50명 * 100발화 * 3환경 (16,200)