구문 분석
- NLP에서 구문 분석은 문장의 문법적 구조를 분석하고 각 구성 요소 간의 관계를 파악하는 과정
구문 분석의 목표
1. 문법적 구조 파악
- 문장이 주어진 문법 규칙에 맞게 구성되었는지 확인
2. 구성 요소의 관계 식별
- 문장의 각 단어가 문법적으로 어떻게 연결되었는지 파악
3. 구문 트리 생성
- 문장의 구조를 시각적으로 표현하는 구문 트리 생성
파스 트리 (Parse Tree)
문장의 모든 문법 규칙을 포함하여, 문장의 전체 구조를 자세히 나타낸다.
노드는 문법 범주(예: 명사구(NP), 동사구(VP))를 나타내며, 리프 노드는 실제 단어를 나타낸다.
구문 분석 방법
1. 의존 구문 분석 (Dependency Parsing)
- 단어의 직접적인 관계를 파악해 각 단어 간의 종속 관계를 분석한다.
2. 구성 구문 분석 (Constituency Parsing)
- 문장을 여러 개의 구문 단위(구성 요소)로 나누고 각 구성 요소의 내부 구조를 파악한다. 트리 구조로 표현되며 각 노드는 구문 단위를 나타낸다.
구문 분석에서의 모호성
품사 태그
명사(Nouns)
- NN: 단수 명사 (singular noun) 예: "dog", "car"
- NNS: 복수 명사 (plural noun) 예: "dogs", "cars"
- NNP: 단수 고유명사 (singular proper noun) 예: "John", "Microsoft"
- NNPS: 복수 고유명사 (plural proper noun) 예: "Smiths", "Microsofts"
대명사(Pronouns)
- PRP: 인칭 대명사 (personal pronoun) 예: "I", "he", "she"
- PRP$: 소유 대명사 (possessive pronoun) 예: "my", "his", "her"
- WP: 의문 대명사 (wh-pronoun) 예: "who", "what"
- WP$: 소유 의문 대명사 (possessive wh-pronoun) 예: "whose"
형용사(Adjectives)
- JJ: 형용사 (adjective) 예: "big", "blue"
- JJR: 비교급 형용사 (comparative adjective) 예: "bigger", "bluer"
- JJS: 최상급 형용사 (superlative adjective) 예: "biggest", "bluest"
동사(Verbs)
- VB: 동사 원형 (base form verb) 예: "run", "eat"
- VBD: 과거형 동사 (past tense verb) 예: "ran", "ate"
- VBG: 현재분사형 동사 (gerund or present participle verb) 예: "running", "eating"
- VBN: 과거분사형 동사 (past participle verb) 예: "run", "eaten"
- VBP: 현재형 동사, 3인칭 단수 제외 (non-3rd person singular present verb) 예: "run", "eat"
- VBZ: 현재형 동사, 3인칭 단수 (3rd person singular present verb) 예: "runs", "eats"
부사(Adverbs)
- RB: 부사 (adverb) 예: "quickly", "softly"
- RBR: 비교급 부사 (comparative adverb) 예: "faster", "harder"
- RBS: 최상급 부사 (superlative adverb) 예: "fastest", "hardest"
- WRB: 의문 부사 (wh-adverb) 예: "where", "when"
한정사(Determiners)
- DT: 한정사 (determiner) 예: "the", "a"
- PDT: 전치 한정사 (predeterminer) 예: "all", "both"
- WDT: 의문 한정사 (wh-determiner) 예: "which", "that"
전치사(Prepositions) 및 접속사(Conjunctions)
- IN: 전치사 또는 종속 접속사 (preposition or subordinating conjunction) 예: "in", "on", "because"
- CC: 등위 접속사 (coordinating conjunction) 예: "and", "but"
숫자(Numerals)
- CD: 기수 또는 서수 (cardinal number) 예: "one", "two", "second"
감탄사(Interjections)
- UH: 감탄사 (interjection) 예: "oh", "wow"
소유격(Possessives)
- POS: 소유격 (possessive ending) 예: "'s"
조동사(Modals)
- MD: 조동사 (modal) 예: "can", "will"
존재구(Present Existentials)
- EX: 존재구 (existential there) 예: "there" (문장에서 존재를 나타낼 때 사용되는 경우)
문장 부호(Punctuation)
- .: 마침표 (sentence-final punctuation) 예: "."
- ,: 쉼표 (comma) 예: ","
- :: 콜론 (colon) 예: ":"
- ;: 세미콜론 (semicolon) 예: ";"
- ': 따옴표 (quotation mark) 예: "''"
- ****: 시작 따옴표 (opening quotation mark) 예: ""
- (-RRB-): 오른쪽 괄호 (right round bracket) 예: ")"
- (-LRB-): 왼쪽 괄호 (left round bracket) 예: "("
기타(Other)
- SYM: 기호 (symbol) 예: "+", "%", "&"
- FW: 외국어 (foreign word) 예: "bonjour", "Schönen"
'Artificial Intelligence > NLP' 카테고리의 다른 글
Text Representation - 2 (0) | 2024.08.20 |
---|---|
Text Representation (0) | 2024.08.19 |
Hidden Markov Model for Part-Of-Speech Tagging (0) | 2024.07.17 |
Maximum Entropy Model (MEM) for Part-Of-Speech Tagging (0) | 2024.07.16 |
Text Processing - Lexical Analysis (0) | 2024.07.15 |
댓글