본문 바로가기
Artificial Intelligence/NLP

구문 분석(Syntax Analysis)

by 테리는당근을좋아해 2024. 7. 30.

구문 분석

  • NLP에서 구문 분석은 문장의 문법적 구조를 분석하고 각 구성 요소 간의 관계를 파악하는 과정

 

구문 분석의 목표

1. 문법적 구조 파악

  • 문장이 주어진 문법 규칙에 맞게 구성되었는지 확인

 

2. 구성 요소의 관계 식별

  • 문장의 각 단어가 문법적으로 어떻게 연결되었는지 파악

 

3. 구문 트리 생성

  • 문장의 구조를 시각적으로 표현하는 구문 트리 생성

 

 

파스 트리 (Parse Tree)

문장의 모든 문법 규칙을 포함하여, 문장의 전체 구조를 자세히 나타낸다.

노드는 문법 범주(예: 명사구(NP), 동사구(VP))를 나타내며, 리프 노드는 실제 단어를 나타낸다.

 

 

구문 분석 방법

1. 의존 구문 분석 (Dependency Parsing)

  • 단어의 직접적인 관계를 파악해 각 단어 간의 종속 관계를 분석한다. 

 

2. 구성 구문 분석 (Constituency Parsing)

  • 문장을 여러 개의 구문 단위(구성 요소)로 나누고 각 구성 요소의 내부 구조를 파악한다. 트리 구조로 표현되며 각 노드는 구문 단위를 나타낸다.

 

 

구문 분석에서의 모호성

 

 

품사 태그

명사(Nouns)

  • NN: 단수 명사 (singular noun) 예: "dog", "car"
  • NNS: 복수 명사 (plural noun) 예: "dogs", "cars"
  • NNP: 단수 고유명사 (singular proper noun) 예: "John", "Microsoft"
  • NNPS: 복수 고유명사 (plural proper noun) 예: "Smiths", "Microsofts"

대명사(Pronouns)

  • PRP: 인칭 대명사 (personal pronoun) 예: "I", "he", "she"
  • PRP$: 소유 대명사 (possessive pronoun) 예: "my", "his", "her"
  • WP: 의문 대명사 (wh-pronoun) 예: "who", "what"
  • WP$: 소유 의문 대명사 (possessive wh-pronoun) 예: "whose"

형용사(Adjectives)

  • JJ: 형용사 (adjective) 예: "big", "blue"
  • JJR: 비교급 형용사 (comparative adjective) 예: "bigger", "bluer"
  • JJS: 최상급 형용사 (superlative adjective) 예: "biggest", "bluest"

동사(Verbs)

  • VB: 동사 원형 (base form verb) 예: "run", "eat"
  • VBD: 과거형 동사 (past tense verb) 예: "ran", "ate"
  • VBG: 현재분사형 동사 (gerund or present participle verb) 예: "running", "eating"
  • VBN: 과거분사형 동사 (past participle verb) 예: "run", "eaten"
  • VBP: 현재형 동사, 3인칭 단수 제외 (non-3rd person singular present verb) 예: "run", "eat"
  • VBZ: 현재형 동사, 3인칭 단수 (3rd person singular present verb) 예: "runs", "eats"

부사(Adverbs)

  • RB: 부사 (adverb) 예: "quickly", "softly"
  • RBR: 비교급 부사 (comparative adverb) 예: "faster", "harder"
  • RBS: 최상급 부사 (superlative adverb) 예: "fastest", "hardest"
  • WRB: 의문 부사 (wh-adverb) 예: "where", "when"

한정사(Determiners)

  • DT: 한정사 (determiner) 예: "the", "a"
  • PDT: 전치 한정사 (predeterminer) 예: "all", "both"
  • WDT: 의문 한정사 (wh-determiner) 예: "which", "that"

전치사(Prepositions) 및 접속사(Conjunctions)

  • IN: 전치사 또는 종속 접속사 (preposition or subordinating conjunction) 예: "in", "on", "because"
  • CC: 등위 접속사 (coordinating conjunction) 예: "and", "but"

숫자(Numerals)

  • CD: 기수 또는 서수 (cardinal number) 예: "one", "two", "second"

감탄사(Interjections)

  • UH: 감탄사 (interjection) 예: "oh", "wow"

소유격(Possessives)

  • POS: 소유격 (possessive ending) 예: "'s"

조동사(Modals)

  • MD: 조동사 (modal) 예: "can", "will"

존재구(Present Existentials)

  • EX: 존재구 (existential there) 예: "there" (문장에서 존재를 나타낼 때 사용되는 경우)

문장 부호(Punctuation)

  • .: 마침표 (sentence-final punctuation) 예: "."
  • ,: 쉼표 (comma) 예: ","
  • :: 콜론 (colon) 예: ":"
  • ;: 세미콜론 (semicolon) 예: ";"
  • ': 따옴표 (quotation mark) 예: "''"
  • ****: 시작 따옴표 (opening quotation mark) 예: ""
  • (-RRB-): 오른쪽 괄호 (right round bracket) 예: ")"
  • (-LRB-): 왼쪽 괄호 (left round bracket) 예: "("

기타(Other)

  • SYM: 기호 (symbol) 예: "+", "%", "&"
  • FW: 외국어 (foreign word) 예: "bonjour", "Schönen"

 

댓글