Loading...
2020
신조어 및 띄어쓰기 오류에 강인한 시퀀스-투-시퀀스 기반 한국어 형태소 분석기
Korean Morphological Analyzer for Neologism and Spacing Error based on Sequence-to-Sequence
한국정보과학회
최병서, 이익훈, 이상구
논문정보
- Publisher
- 정보과학회논문지
- Issue Date
- 2020-01-01
- Keywords
- -
- Citation
- -
- Source
- -
- Journal Title
- -
- Volume
- 47
- Number
- 1
- Start Page
- 70
- End Page
- 77
- ISSN
- 2383-630X
Abstract
한국어 커뮤니티 등에서 수집되는 인터넷 텍스트 데이터를 형태소 분석하기 위해서는, 띄어쓰기 오류가 있는 문장에서도 정확히 형태소 분석을 해내야 하고, 신조어 등의 사전 외 어휘 입력에 대한 원형복원 성능이 충분해야 한다. 그러나 기존 한국어 형태소분석기는 원형복원에 사전 또는 규칙 기반 알고리즘을 사용하는 경우가 많다. 본 논문에서는 시퀀스-투-시퀀스 모델을 기반으로 띄어쓰기 문제와 신조어 문제를 효과적으로 처리할 수 있는 한국어 형태소 분석기 모델을 제안한다. 본 모델은 사전을 사용하지 않고, 규칙 기반 전처리를 최소화한다. 일반적으로 사용하는 음절 외에도 음절 바이그램과 자소를 입력 자질로 같이 사용하며, 공백을 제거한 데이터를 학습 데이터로 같이 사용한다. 제안 모델은 세종 말뭉치를 이용한 실험에서 사전을 사용하지 않는 기존 형태소 분석기에 비해 뛰어난 성능이 나왔다. 띄어쓰기가 없는 데이터셋 및 인터넷에서 직접 수집한 데이터셋에 대해서도 높은 성능이 나오는 것을 확인하였다.
- 광주대학교
- KCI
- 정보과학회논문지
저자 정보
| 이름 | 소속 | ||
|---|---|---|---|
| 등록된 데이터가 없습니다. | |||