Loading...
2018
대규모 웹 문서의 실시간 자연어 처리를 위한 데이터 수집·저장 시스템 설계 및 구현
Design and Implementation of Data Collection and Storage System for Real-Time Natural Language Processing of Large-Scale Web Documents
한국정보과학회
현일성, 윤재연, 최병서, 이익훈, 이상구
논문정보
- Publisher
- 데이타베이스연구
- Issue Date
- 2018-08-01
- Keywords
- -
- Citation
- -
- Source
- -
- Journal Title
- -
- Volume
- 34
- Number
- 2
- Start Page
- 59
- End Page
- 73
- DOI
- ISSN
- 1598-9798
Abstract
빅데이터 시대에 빅데이터 시스템 구축 및 활용을 위해 데이터를 수집하고 저장 및 처리하는 일은 가장 기본적이면서도 핵심적인 일이다. 인터넷 텍스트 데이터는 대표적인 빅데이터이고, 대용량의 텍스트 데이터 수집 및 처리와 자연어 처리에 대한 수요는 지속적으로 증가하고 있다. 본 논문에서는 대규모 웹 문서의 텍스트 데이터를 수집하고 저장하는 시스템을 설계하고 구현한다. 데이터 수집 부분에서는 API가 제공되지 않는 다양한 웹 사이트로부터 텍스트 데이터를 수집할 수 있는 설계를 제안한다. 또한 데이터를 빠르고 효율적으로 수집하기 위한 병렬화 방법을 제안한다. 저장 시스템은 다양한 자연어 처리 모듈에 적용할 수 있고 실시간 자연어 처리를 지원하기 위해 인메모리 데이터베이스 관리 시스템을 사용함으로써 실행 속도를 향상시켰다. 본 논문의 실험에서는 실제로 웹 문서의 대규모 텍스트 데이터를 수집하고 처리하는 실험을 통해 시스템의 유효성을 확인하였다.
- 광주대학교
- KCI
- 데이타베이스연구
저자 정보
| 이름 | 소속 | ||
|---|---|---|---|
| 등록된 데이터가 없습니다. | |||