개발관련
A

Korean_BERT_Morphology 모델은 아래 예제와 같이, 입력 문장에 대해 형태소 분석한 결과를 입력으로 받습니다.


 - 원문: ETRI에서 한국어 BERT 언어 모델을 배포하였다.

 - 입력 예제: ETRI/SL 에서/JKB 한국어/NNP BERT/SL 언어/NNG 모델/NNG 을/JKO 배포/NNG 하/XSV 었/EP 다/EF ./SF


001_bert_morp_pytorch 폴더의 src_examples 내용을 참고하시면, OpenAPI를 이용한 형태소분석 및 처리 방법을 확인하실 수 있습니다.


A

형태소분석기는 TTA 표준 형태소 태그셋(TTAK.KO-11.0010/R1)에 호환되는 형태소분석기 사용이 필요합니다.


예를 들어, 아래 예제와 같은 경우 TTA 가이드라인에서는 전자를 따르고 있습니다.

 1) 사용하다: 사용/NNG + 하/XSV <-> 사용하/VV

 2) 산다: 살/VV + ㄴ다/EF <-> 산/VV + 다/EF

 3) 연구원: 연구/NNG + 원/XSN <-> 연구원/NNG


TTA 표준 가이드라인과 다른 분석 결과를 사용하면 성능에 영향을 미칠 수 있습니다.


A

WordPiece 모델은 형태소분석을 수행하지 않는 모델로, 조사/어미와 같은 음절이 선행 음절과 결합되는 경우가 자주 발생합니다

(: 구성된다 à + ##성된 + ##)


예를 들어, WordPiece 모델에서는 단어는과 같은 어절을 어는처럼 형태소와 다른 단위로 구분합니다

따라서, 기계독해 모델의 정답이 단어일 경우, “어는이라는 wordpiece를 정답 경계로 인식 후

조사 을 필터링하는 단계가 필요합니다.


구체적인 후처리 규칙은 사용하시는 기계독해 데이터의 dev 셋에서

시스템 결과와 정답 결과를 비교하여 보시면 후처리 대상 규칙을 정리하실 수 있습니다.

 

 
A

사용자가 개발한 도메인 이름으로 대화를 하기에 꼭 도메인을 개발해야 합니다. 


샘플로 제공하는 도메인이라도 대화처리 응용개발도구에 접속하셔서 사용자의 도메인으로 설정하셔야 합니다.

A

사용자가 직접 개발한 도메인의 대화를 할 수 있습니다. 


이를 위해 대화처리 응용개발도구를 제공하고 있습니다. 


샘플 도메인으로 5개를 제공하고 있습니다.

A

응용 도메인에 따라 다르게 정의될 수 있습니다. 대화처리 응용개발도구에서 도메인별로 정의 가능합니다.

A

입력된 이미지로부터 객체를 검출하여 (카테고리, 검출신뢰도, 검출 박스좌표) 등의 정보를 결과로 JSON 포맷의 출력을 제공합니다.

A

이미지 내에 존재하는 모든 객체(80가지 카테고리)를 검출할 수 있습니다.

A

COCO 데이터셋에 정의된 80가지 객체 카테고리를 정확하게 분류 및 검출할 수 있습니다. 


A

입력 이미지 파일은 BMP, PNG, JPG 포맷의 이미지 파일을 처리할 수 있습니다.

기본적으로 모든 품질의 이미지 처리가 가능하나, 512x512 이하의 저해상도나 1080P (1920x1080) 이상의 고해상도를 갖는 이미지에서는 객체 검출률이 낮아지거나, 처리 시간이 길어질 수 있음을 알려드립니다.

A

현재 주로 여행/일상 분야 대화체 영역으로 되어 있습니다. 

특정 영역이나 방송자막 인식 등 무제한 용으로도 조정이 가능합니다. 

A

영어는 북미, 중국어는 북경표준어, 스페인어는 유럽식을 지원합니다. 

A

현재 아랍어, 베트남어 엔진을 확보한 상태이고, 내년 이후 태국어 등 총 14개 언어까지 확장할 예정입니다. 

A

정답과 신뢰도, 정답에 대한 근거 문장 정보 등을 제공합니다. 정답을 찾지 못한 경우는 검색 문장 및 단락 정보를 제공합니다. 

자세한 것은 개발 가이드를 참고하세요.

A

트리플 기반의 정보로 부터 정답을 제공하는 방식, 위키백과의 문장/단락 검색으로 부터 정답을 제공하는 방식, 앞의 두가지 방식에 딥러닝 기반의 기계독해 기술을 적용하는 방식의 질의응답 기능을 제공합니다.