일반 텍스트와 표가 함께 작성된 한글문서가 있습니다.
이때 일반텍스트와 표 안의 텍스트 데이터를 구분해서 가져오고 싶습니다.
특히 표 안의 텍스트는 데이터로 활용할 수도 있겠지요.
표는 서식이 정해져 있지는 않습니다. 셀에 필드명 등도 지정되어 있지 않습니다.
제공되는 API로 가능한지, 또 다른 방법이 있는지 궁금합니다.
안녕하세요.
오토메이션 API를 통해 데이터를 추출하고자 한다면
가장 간단한 방법은 문서를 HTML 형식으로 저장해서 HTML을 파싱하는 방법이 될 것 같습니다.
지정된 파일을 불러와서 HTML로 저장하는 예제(C++)
hwpObject.Open("원본.hwp", "", "");
hwpObject.SaveAs("대상.html", "HTML", "");
// TODO : 대상.html 파싱
감사합니다.
1개의 좋아요