본문 바로가기

Artificial Intelligence/NLP7

Text Representation - 2 1. Word2VecWord2Vec은 단어를 고정된 차원의 벡터 공간에 매핑해서 유사한 의미를 가진 단어들이 벡터 공간에 가깝게 위치하도록 학습한다.단순히 단어의 빈도나 위치 정보를 넘어 단어 간의 의미적 관계를 벡터 연산을 통해 직접 반영할 수 있다. 1) 아이디어단어의 의미가 문맥에 의해 결정특정 단어가 어떤 단어들과 자주 함께 등장하는지 학습해 단어 간의 의미적 유사성을 반영하는 벡터를 학습한다. 2) Word2Vec 모델Word2Vec은 대규모 Corpus를 사용해 학습하고, 이 과정에서 각 단어는 고정된 차원의 실수 벡터(Embedding Vector)로 표현된다.임베딩 벡터는 학습을 통해 조정되며, 단어의 의미를 내포해 유사한 의미를 가진 단어들은 벡터 공간에서 가깝게 위치한다.Word2Vec.. 2024. 8. 20.
Text Representation 1. Text RepresentationText Representation은 NLP에서 텍스트 데이터를 컴퓨터가 이해 및 처리할 수 있는 형식으로 변환하는 기법을 말한다.텍스트는 원래 비정형 데이터기 때문에, 정형 데이터로 변환해야 머신 러닝 모델이나 다른 알고리즘에 사용할 수 있다.  1) Text Representation의 중요성텍스트를 어떻게 표현하냐에 따라서 모델의 성능이 크게 좌우 된다. 좋은 텍스트 표현 방식은 텍스트의 의미와 문맥을 잘 유지하면서 계산 효율이 높아야 한다.  2) 주요 Text Representation 기법기법개념장점단점One-Hot Encoding각 단어를 고유한 백터로 표현하는 방법으로 벡커의 크기는 단어 집합의 크기와 같다.단어가 존재하는 위치에만 1, 나머지는 0으.. 2024. 8. 19.
구문 분석(Syntax Analysis) 구문 분석NLP에서 구문 분석은 문장의 문법적 구조를 분석하고 각 구성 요소 간의 관계를 파악하는 과정 구문 분석의 목표1. 문법적 구조 파악문장이 주어진 문법 규칙에 맞게 구성되었는지 확인 2. 구성 요소의 관계 식별문장의 각 단어가 문법적으로 어떻게 연결되었는지 파악 3. 구문 트리 생성문장의 구조를 시각적으로 표현하는 구문 트리 생성  파스 트리 (Parse Tree)문장의 모든 문법 규칙을 포함하여, 문장의 전체 구조를 자세히 나타낸다.노드는 문법 범주(예: 명사구(NP), 동사구(VP))를 나타내며, 리프 노드는 실제 단어를 나타낸다.  구문 분석 방법1. 의존 구문 분석 (Dependency Parsing)단어의 직접적인 관계를 파악해 각 단어 간의 종속 관계를 분석한다.  2. 구성 구문 분.. 2024. 7. 30.
Hidden Markov Model for Part-Of-Speech Tagging 1. Hidden Markov Model의 개요히든 마르코프 모델은 관찰 가능한 데이터와 숨겨진 상태 간의 관계를 모델링하는 확률적 모델이다.주로 시계열 데이터나 단어 시퀀스 데이터에 사용되며, 각각의 상태가 '현재 상태는 오직 이전 상태에만 의존하는 특성(마르코프 성질)'을 가지고 있다.$P(q_{i}|q_{1}, ..., q_{i-1})=P(q_{i}|q_{i-1})$ (마르코프 성질)  2. Notation 1) $Q=q_0, q_1, q_2, ..., q_n, q_F$ (State set)$q_0$는 시작 상태, $q_F$는 종료 상태, n은 상태의 개수 2) $A$ (Transition Probability Matrix)$n \times n$. $a_{ij}$는 $i$번째 상태에서 $j$번째로 .. 2024. 7. 17.
Maximum Entropy Model (MEM) for Part-Of-Speech Tagging Maximum Entropy Model (MEM) for Part-Of-Speech Tagging 1. Maximum Entropy Model 개요1) Maximum Entropy Model의 원리주어진 제약 조건을 만족하면서 정보 엔트로피를 최대화하는 분포는 선택하는 것으로, 이는 가용 정보 외에 불필요한 가정을 하지 않기 위해서이다. 2) Maximum Entropy Model (최대 엔트로피 모델)최대 엔트로피 모델에서 조건부 확률 $P(y|x)$는 입력 $x$(문맥, 단어 등) 주어진 상황에서 출력 $y$(품사 태그)의 확률을 나타내며 수식은 아래와 같다. $P(y|x) = \frac{1}{Z(x)}exp(\sum_{i}\lambda_{i}f_{i}(x, y))$  - $f_{i}(x,y)$는 특.. 2024. 7. 16.
Text Processing - Lexical Analysis Lexical Analysis어휘 분석은 텍스트 데이터를 전처리하는 단계로 문자 시퀀스를 의미 있는 단위인 토큰으로 변환하는 과정이다. 1. Sentence SplittingSentence Splitting, Sentence Boundary detection, Sentence Segmentation연속된 텍스트를 개별 문장으로 나누는 작업1) Importance분석 단위 : NLP 작업은 문장을 기본 단위로 분석하고 올바른 문장 분리는 텍스트를 정확하고 효과적으로 처리할 수 있도록 한다.맥락 보존 : 텍스트를 문장으로 세분화함으로써 정보의 맥락적 일관성을 유지할 수 있으며, 이는 의미와 관계를 이해하는데 중요오류 감소 : 적절한 문장 분리는 이후 처리 단계에서 오류를 줄여 POS-tagging, Synt.. 2024. 7. 15.
Text Processing - Introduction NLP자연어 처리(NLP, Natural Language Processing)는 인간의 언어를 컴퓨터가 이해하고 해석하며 생성할 수 있도록 하는 기술 분야로 언어학, 컴퓨터 사이언스, AI 분야를 결합해 텍스트 및 음성 데이터에서 의미 있는 정보를 추출하고 처리한다.  NLP 구성 요소구성 요소정의예시Tokenization텍스트를 의미 있는 단위(단어, 문장)로 나누는 과정"자연어 처리는 흥미롭다." → ["자연어", "처리", "는", "흥미롭다", "."]Morphological Analysis단어의 형태를 분석하여 어근, 접두사, 접미사 등을 추출"흥미롭다" → "흥미/롭다"POS Tagging(Part-of-Speech Tagging)각 단어에 품사 태그(명사, 동사, 형용사 등)를 할당"자연어/.. 2024. 7. 14.