HWP 텍스트추출 SDK 릴리즈 -

자유소프트는 AI 구축작업에 필수적인 문서 텍스트추출 SDK를 일반에 제공하기로 했다고 밝혔다.

LLM의 대중화로 인해 기존 문서 파일에서 내용을 추출하여 새롭게 지식기반 데이타베이스를 구축하는 사례가 급증하고 있다. 특히 관공서의 경우 대부분이 HWP 파일로 저장되어 있는 경우가 많고 외부 문서의 경우 PDF 포맷으로 저장되어 있는 바, 두 종류의 파일 포맷이 AI 개발자들에게 걸림돌이 되어 왔다.

HWP 파일은 DOCX처럼 XML 포맷이 아니고 바이너리 문서인 까닭에 AI 엔진에서 쉽게 데이터를 추출해갈 수가 없다. 또한 PDF 역시 구조적인 문서포맷이 아닌 비구조적 문서인 관계로 형식을 이해하여 가져가기가 어려운 현실이다.

자유소프트는 이에 착안하여 다년간의 관련 기술 개발 경험을 되살려 HWP나 PDF, DOCX 문서로부터 텍스트나 JSON 형식의 문서속성을 추출하는 SDK를 공개하기로 하였다.

텍스트 추출은 겉으로는 크게 다르지 않을 것 같지만 실제로는 문서 속성을 빠짐없이 가져와야하기 때문에 생각보다 그리 쉽지가 않다. 국내 문서들은 대부분 “표” 를 많이 이용하기 때문에 표안에 들어있는 구문들을 추출하기 위해서는 특별한 노우하우가 필요하다.

PDF 또한 오픈소스 종류들을 쉽게 구할 수 있지만 품질을 비교하고 나면 상용 솔루션을 찾게 될 것이라고 밝혔다.

자유문서추출기(DocuExtractor)가 필요한 개발자들은 위해 온라인으로 품질을 테스트할 수 있는 포털(convert.jayoo.kr)을 제공한다.