한국어 문서 사실성 검증 기술(KorFactScore)
주요 특징
최근 다양한 분야에서 인공지능(AI) 모델을 활용해 대량의 한국어 문서가 자동으로 생성되고 있습니다. 그러나 AI가 생성한 문서가 사실에 기반한 신뢰성 있는 내용을 포함하고 있는지 판단하기 위한 검증 도구는 충분히 마련되어 있지 않습니다. 특히, 한국어 문서 내 개별 정보 단위에 대한 사실 관계를 분석하고 설명할 수 있는 기술이 부족한 상황입니다.
한국어 문서 사실성 검증 기술(KorFactScore)은 AI 생성 문서의 신뢰성을 평가하기 위해 개별 정보 단위의 사실 관계를 설명하고 검증하는 시스템입니다. 시스템은 특정 언어모델에 국한되지 않아 다양한 모델로 교체하여 평가용 모델의 사실 판단 능력을 평가할 수 있습니다.
아래 표와 같이 성능 평가를 위한 데이터를 제공합니다. 데이터는 한국인과 외국인, 2개의 카테고리 대상에 대해 GPT-4로 생성된 문서들로 구성되어 있습니다. 여기에는 AI 생성 문서, 개별 정보 단위로 분할 된 문장들, 성능 평가를 위한 정답 데이터(ground truth label)가 포함되어 있습니다. 평가를 위한 코드도 함께 제공합니다.
데이터 | 문서 수 |
---|---|
한국인 약력 | 64 |
외국인 약력 | 50 |
총 합계 | 114 |
제공하는 데이터에서 한국인 약력 생성 데이터는 평균 53.2%, 외국인 약력 생성 데이터는 평균 19.9%의 비사실적인 내용을 포함하고 있습니다.