Hidden Markov Model for Part-Of-Speech Tagging
1. Hidden Markov Model의 개요히든 마르코프 모델은 관찰 가능한 데이터와 숨겨진 상태 간의 관계를 모델링하는 확률적 모델이다.주로 시계열 데이터나 단어 시퀀스 데이터에 사용되며, 각각의 상태가 '현재 상태는 오직 이전 상태에만 의존하는 특성(마르코프 성질)'을 가지고 있다.$P(q_{i}|q_{1}, ..., q_{i-1})=P(q_{i}|q_{i-1})$ (마르코프 성질) 2. Notation 1) $Q=q_0, q_1, q_2, ..., q_n, q_F$ (State set)$q_0$는 시작 상태, $q_F$는 종료 상태, n은 상태의 개수 2) $A$ (Transition Probability Matrix)$n \times n$. $a_{ij}$는 $i$번째 상태에서 $j$번째로 ..
2024. 7. 17.
Text Processing - Introduction
NLP자연어 처리(NLP, Natural Language Processing)는 인간의 언어를 컴퓨터가 이해하고 해석하며 생성할 수 있도록 하는 기술 분야로 언어학, 컴퓨터 사이언스, AI 분야를 결합해 텍스트 및 음성 데이터에서 의미 있는 정보를 추출하고 처리한다. NLP 구성 요소구성 요소정의예시Tokenization텍스트를 의미 있는 단위(단어, 문장)로 나누는 과정"자연어 처리는 흥미롭다." → ["자연어", "처리", "는", "흥미롭다", "."]Morphological Analysis단어의 형태를 분석하여 어근, 접두사, 접미사 등을 추출"흥미롭다" → "흥미/롭다"POS Tagging(Part-of-Speech Tagging)각 단어에 품사 태그(명사, 동사, 형용사 등)를 할당"자연어/..
2024. 7. 14.