Loading...
2005
문서 영상 내 테이블 영역에서의 단어 추출
Word Extraction form Table Regions in Document Images
한국정보처리학회
정창부, 김수형
논문정보
- Publisher
- 정보처리학회논문지B
- Issue Date
- 2005-08-01
- Keywords
- -
- Citation
- -
- Source
- -
- Journal Title
- -
- Volume
- 12
- Number
- 4
- Start Page
- 369
- End Page
- 378
- DOI
- ISSN
- 1598284X
Abstract
문서 영상은 문서 구조 분석을 통하여 텍스트, 그림, 테이블 등의 세부 영역으로 분할 및 분류되는데, 테이블 영역에 있는 단어는 다른 영역의 단어보다 의미가 있기 때문에 주제어 검색과 같은 응용 분야에서 중요한 역할을 한다. 본 논문에서는 문서 영상의 테이블 영역에 존재하는 문자 성분을 단어단위로 추출하는 방법을 제안한다. 테이블 영역에서의 단어 추출은 실질적으로 테이블을 구성하는 셀 영역에서 단어를 추출하는 것이기 때문에 정확한 셀 추출 과정이 필요하다. 셀 추출은 연결 요소를 분석하여 테이블 프레임을 찾아내고, 교차점 검출은 전체가 아닌 테이블 프레임에 대해서만 수행한다. 잘못 검출된 교차점은 이웃하는 교차점과의 관계를 이용하여 수정하고, 최종 교차점 정보를 이용하여 셀을 추출한다. 추출된 셀 내부에 있는 텍스트 영역은 셀 추출 과정에서 분석한 문자성분의 연결 요소 정보를 재사용하여 결정하고, 결정된 텍스트 영역은 투영 프로파일을 분석하여 문자열로 분리된다. 마지막으로 분리된 문자열에 대하여 갭 군집화와 특수 기호 검출을 수행함으로써 단어 분리를 수행한다. 제안 방법의 성능 평가를 위하여 한글 논문 영상으로부터 추출한 총 100개의 테이블 영상에 대해 실험한 결과, 99.16%의 단어 추출 성공률을 얻을 수 있었다.
- 전남대학교
- KCI
- 정보처리학회논문지B
저자 정보
| 이름 | 소속 |
|---|---|
| 정창부 | 전산학과 |
| 김수형 | 인공지능학부 |