광주RISE 정보·자원 공유 플랫폼

Research Hub

대학 자원

대학 인프라와 자원을 공유해 공동 연구와 기술 활용을 지원합니다.

대학 자원
- 대학 자원
- 소개
- 채용정보
- 기업정보
- 대학 자원
- 공유마루
- 정보마당
논문 리스트
- 논문 리스트
- 공동활용 연구장비
- 연구 인재풀
- R&D 참여현황
- 논문 리스트
- 서적 리스트
- 특허 리스트

논문 리스트

2020

신조어 및 띄어쓰기 오류에 강인한 시퀀스-투-시퀀스 기반 한국어 형태소 분석기 Korean Morphological Analyzer for Neologism and Spacing Error based on Sequence-to-Sequence

한국정보과학회

최병서, 이익훈, 이상구

논문정보

Publisher: 정보과학회논문지

Issue Date: 2020-01-01

Keywords: -

Citation: -

Source: -

Journal Title: -

Volume: 47

Number: 1

Start Page: 70

End Page: 77

DOI: https://doi.org/10.5626/JOK.2020.47.1.70

ISSN: 2383-630X

Abstract

한국어 커뮤니티 등에서 수집되는 인터넷 텍스트 데이터를 형태소 분석하기 위해서는, 띄어쓰기 오류가 있는 문장에서도 정확히 형태소 분석을 해내야 하고, 신조어 등의 사전 외 어휘 입력에 대한 원형복원 성능이 충분해야 한다. 그러나 기존 한국어 형태소분석기는 원형복원에 사전 또는 규칙 기반 알고리즘을 사용하는 경우가 많다. 본 논문에서는 시퀀스-투-시퀀스 모델을 기반으로 띄어쓰기 문제와 신조어 문제를 효과적으로 처리할 수 있는 한국어 형태소 분석기 모델을 제안한다. 본 모델은 사전을 사용하지 않고, 규칙 기반 전처리를 최소화한다. 일반적으로 사용하는 음절 외에도 음절 바이그램과 자소를 입력 자질로 같이 사용하며, 공백을 제거한 데이터를 학습 데이터로 같이 사용한다. 제안 모델은 세종 말뭉치를 이용한 실험에서 사전을 사용하지 않는 기존 형태소 분석기에 비해 뛰어난 성능이 나왔다. 띄어쓰기가 없는 데이터셋 및 인터넷에서 직접 수집한 데이터셋에 대해서도 높은 성능이 나오는 것을 확인하였다.

광주대학교
KCI
정보과학회논문지

저자 정보

이름	소속
등록된 데이터가 없습니다.

목록보기