Research Hub

대학 자원

대학 인프라와 자원을 공유해 공동 연구와 기술 활용을 지원합니다.

Loading...

논문 리스트

2018
대규모 웹 문서의 실시간 자연어 처리를 위한 데이터 수집·저장 시스템 설계 및 구현 Design and Implementation of Data Collection and Storage System for Real-Time Natural Language Processing of Large-Scale Web Documents
한국정보과학회
현일성, 윤재연, 최병서, 이익훈, 이상구
논문정보
Publisher
데이타베이스연구
Issue Date
2018-08-01
Keywords
-
Citation
-
Source
-
Journal Title
-
Volume
34
Number
2
Start Page
59
End Page
73
DOI
ISSN
1598-9798
Abstract
빅데이터 시대에 빅데이터 시스템 구축 및 활용을 위해 데이터를 수집하고 저장 및 처리하는 일은 가장 기본적이면서도 핵심적인 일이다. 인터넷 텍스트 데이터는 대표적인 빅데이터이고, 대용량의 텍스트 데이터 수집 및 처리와 자연어 처리에 대한 수요는 지속적으로 증가하고 있다. 본 논문에서는 대규모 웹 문서의 텍스트 데이터를 수집하고 저장하는 시스템을 설계하고 구현한다. 데이터 수집 부분에서는 API가 제공되지 않는 다양한 웹 사이트로부터 텍스트 데이터를 수집할 수 있는 설계를 제안한다. 또한 데이터를 빠르고 효율적으로 수집하기 위한 병렬화 방법을 제안한다. 저장 시스템은 다양한 자연어 처리 모듈에 적용할 수 있고 실시간 자연어 처리를 지원하기 위해 인메모리 데이터베이스 관리 시스템을 사용함으로써 실행 속도를 향상시켰다. 본 논문의 실험에서는 실제로 웹 문서의 대규모 텍스트 데이터를 수집하고 처리하는 실험을 통해 시스템의 유효성을 확인하였다.

저자 정보

이름 소속
등록된 데이터가 없습니다.