Loading...
동질 영역을 이용한 문서 구조의 분석 방법
구분
특허/실용/디자인/상표
특허등록일자 2015-11-19
취득구분 등록
기술분류 전기/전자
지식재산유형 국내출원
등록번호(특허) 10-1571681
출원(등록)번호 2014-12-29
출원형태
발명자수 1
DOI 값
주요내용
본 발명은 동질 영역을 이용한 문서 구조의 분석 방법에 관한 것으로서, 본 발명에 따른 동질 영역을 이용한 문서 구조의 분석 방법은 문서 이미지를 분석하여 문서 이미지를 흑백으로 이진화하는 단계, 문서 이미지를 이진화하여 형성된 백색 라인의 폭 및 흑색 라인의 폭에 기초하여 백색 라인 중 적어도 일부를 기준으로 문서 이미지를 분할함으로써 동질 영역 (homogeneous region) 을 추출하는 단계, 동질 영역에 포함된 연결된 컴포넌트 (connected component) 를 분석하여 연결된 컴포넌트를 텍스트 컴포넌트 및 비-텍스트 (non-text) 컴포넌트로 분류하고, 텍스트 컴포넌트가 포함된 텍스트 문서 및 비-텍스트 컴포넌트가 포함된 비-텍스트 문서를 획득하는 단계, 텍스트 컴포넌트 간의 거리에 기초하여 텍스트 문서를 분할하는 단계 및 비-텍스트 컴포넌트의 특성값에 기초하여 비-텍스트 문서에 포함된 비-텍스트 컴포넌트를 분류하는 단계를 포함하고, 동질 영역에 기초하여 연결된 컴포넌트를 분석함으로써, 연결된 컴포넌트를 텍스트 컴포넌트 및 비-텍스트 컴포넌트로 분류하는 정확성을 향상시킬 수 있는 효과가 있다.
발명자 정보
| 이름 | 소속 |
|---|---|
| 김수형 | 전남대학교 인공지능학부 |