표에 대한 글자 텍스트 데이터 추출에 관해 문의드립니다.

user254 · 6월 13, 2024, 6:05오전

일반 텍스트와 표가 함께 작성된 한글문서가 있습니다.
이때 일반텍스트와 표 안의 텍스트 데이터를 구분해서 가져오고 싶습니다.
특히 표 안의 텍스트는 데이터로 활용할 수도 있겠지요.
표는 서식이 정해져 있지는 않습니다. 셀에 필드명 등도 지정되어 있지 않습니다.
제공되는 API로 가능한지, 또 다른 방법이 있는지 궁금합니다.

jhbang · 6월 13, 2024, 6:39오전

안녕하세요.

오토메이션 API를 통해 데이터를 추출하고자 한다면
가장 간단한 방법은 문서를 HTML 형식으로 저장해서 HTML을 파싱하는 방법이 될 것 같습니다.

지정된 파일을 불러와서 HTML로 저장하는 예제(C++)

hwpObject.Open("원본.hwp", "", "");
hwpObject.SaveAs("대상.html", "HTML", "");

// TODO : 대상.html 파싱

감사합니다.

글		댓글	조회수
한글 문서에서 문장, 테이블, 이미지 파싱하기 한컴 통합문서뷰어	1	718	2월 6, 2025
웹한글기안기 GetTextFile API 결과물 표 누락 문의 웹한글 기안기	3	179	9월 22, 2025
한글문서를 데이터화 하고 싶습니다. 한글 오토메이션	1	406	4월 23, 2024
hml 파일에서 표데이터 추출 한컴 통합문서뷰어	2	177	7월 16, 2024
Preview/PrvText.txt 질문좀 드립니다 한글 오토메이션	1	62	10월 19, 2025

표에 대한 글자 텍스트 데이터 추출에 관해 문의드립니다.

Related topics