한글 문서에서 문장, 테이블, 이미지 파싱하기

이 범주에서는 한컴 통합문서뷰어에 대한 다른 사용자의 기술 지원을 제공받을 수 있습니다.

  1. 한컴 통합문서뷰어의 API 사용/연동은 개발 가이드를 참조하세요.
  2. 일반 문의는 한글과컴퓨터 웹사이트의 고객 지원을 이용하세요.
  3. 개인정보가 포함되지 않도록 유의하세요. 게시글 또는 댓글에 개인정보가 포함된 내용이 있을 경우 게시물이 숨김처리 될 수 있습니다.

한글 문서에서 특정 데이터를 파싱하는 방법에 대해 문의드립니다.

  1. 파싱이 필요한 데이터 유형
  • 문장: 마침표(.)로 끝나는 개별 문장 단위로 데이터를 추출해야 합니다.
  • 이미지: 문서 내 포함된 모든 이미지를 파싱해야 합니다.
  • 이미지 제목: 이미지에 제목이 있는 경우, 해당 제목도 함께 추출해야 합니다.
  • 테이블:
    • 테이블을 HTML 형태로 변환하여 추출해야 합니다.
    • 테이블을 이미지 형태로도 추출할 수 있어야 합니다.
  1. 파싱한 데이터에 포함해야 할 정보
  • 해당 데이터의 문서 내 위치 정보:
    • 쪽 번호(Page Number)
    • 라인 번호(Line Number)
  1. 문의 사항
  • 위와 같은 방식으로 한글 문서에서 데이터를 파싱하는 것이 가능한지 확인 요청드립니다.
  • 가능하다면, 이를 구현하는 방법 및 필요한 라이브러리에 대한 정보가 필요합니다.
  • 오픈소스 또는 상용 라이브러리가 필요할 경우, 해당 라이브러리에 대한 정보도 함께 제공해 주시면 감사하겠습니다.
1개의 좋아요

HWP/OWPML 형식
해당 사이트에서 HWP, HWPX포맷에 대한 정보를 얻을 수 있습니다.

언급하셨던 1번정보 (문장, 이미지, 이미지 제목, 표)를 위 문서를 토대로 파서를 만들어 추출가능합니다.
다만 2번정보는 포맷팅이 이루어져야 알 수 있는 정보로 추출이 불가능합니다.

저희가 따로 제공하는 라이브러리는 없어서 오픈소스나 상용 라이브러리는 직접 찾아보셔야 할 듯 합니다.

감사합니다.

1개의 좋아요