안녕하세요!! 요즘 챗GPT 등 AI서비스가 대세인데, 저희 회사에서도 기존에 한글로 작성된 문서를 데이터화하여 활용하려고 합니다. 그래서 기존 한글문서를 자동으로 읽어서 데이터화 하려고 하는 데, 방법을 알고 싶습니다. 비용이 들면 견적서도 요청드립니다.
- 한글 본문 내용을 읽어서 DB, Nosql 등 담는 방법?
- 한글 내 표형식의 셀 내용을 읽어서 데이터화 하는 방법?
- 한글 내 글 상자 등의 내용을 읽어서 데이터화 하는 방법?
등을 알려 주시면 감사하겠습니다.
특히, 한글 파일 하나 열어서 처리하는 것이 아니라, 여러 파일을 순차적으로 읽어서 본문, 표, 글 상자 등 따로 Parsing해서 자동으로 DB나 혹은 Nosql이나 하둡에코시스템에 넣는 방법을 알고 싶습니다.
추가로 제약사항도 알고 싶습니다. 예를 들어 한글버전 X이전은 안된다 든지…
별도 협의가 필요하시면 말씀해주시기 바랍니다.
감사합니다.