KOMORAN 문서 - KOMORAN 3.3.4 documentation

형태소
- 의미를 지닌 최소 언어 단위 ⇒ 더 이상 분석(분리)하면 의미가 사라짐
- 독립성 유무에 따라
- 자립 형태소 : 홀로 자립하여 사용 가능한 형태소 ⇒ 체언(명사), 수식언(관형사, 부사), 독립언(감탄사)
- 의존 형태소 : 홀로 자립하여 사용이 불가능한 형태소 ⇒ 어간, 어미, 접사, 조사
- 의미와 기능에 따라
- 실질 형태소 : 구체적인 대상이나 동작, 상태를 표시하는 형태소
- 형식 형태소 : 실질 형태소에 붙어 단어의 문법적 관계를 표시하는 형태소(문법형태소)
품사
- 단어를 기능, 형태, 의미에 따라 나눈 갈래
- 명사, 대명사, 수사, 조사, 동사, 형용사, 관형사, 부사, 감탄사로 분류
⇒ 형태소로 문장을 분석 ⇒ 형태소가 어떤 품사인지 구분
⇒ 텍스트 분석을 하기 전에 불필요한 품사들을 제거하는 전처리
⇒ 이 과정을 API가 진행
한국어 형태소 분석기
한국어를 형태소 단위로 분리하여 품사별로 분석하는 Open API
ex)
- Komoran(코모란)
- Kkma(꼬꼬마)
- 개발언어 : java
- 띄어쓰기 오류에 덜 민감
- OKT(Open Korean Text)
- 개발언어 : Scala, java
- 정규화, 토큰화, 어근화, 어구 추출 등을 지원
- KoNLPy : OKT를 활용하여 Python에서 활용할 수 있게 만든 패키지
품사표 (Pos Table)