Post

NLP에서 영어와 한글의 차이

NLP 시리즈

NLP는 어떤 것인가?

NLP_1 자연어 처리
NLP_2 자연어 처리-챗봇
NLP_3 NLP에서 영어와 한글의 차이
NLP_4 영어 in NLP
NLP_5 한글 in NLP

NLP에서 영어와 한글 비교

사람은 어떤 언어에 대해 배울 때, 언어의 특징을 분석하며 언어에 맞게 이해하며 습득합니다.
컴퓨터도 마찬가지로 언어에 대해 학습하고 분석할 때, 그 언어에 맞는 처리를 해야합니다.
한글과 가장 많이 쓰이는 언어인 영어는 각자의 성격과 특징을 가지고 있습니다.
따라서 대조적인 영어와 한글이 자연어 처리에서는 어떻게 다른지, 언어 특성과 토큰화 단위 관점으로 나누어 비교하였습니다.

언어 특성에 따른 차이점

영어는 고립어로, 어순에 따라 단어의 문법적 기능이 정해집니다.
고립어는 단어 그 자체로 문법적 기능을 나타내지 않기 때문에, 어순을 통해서 문법적 기능을 파악해야 합니다.
반면에 한글은 교착어로, 어간에 접미사가 붙어 단어를 이루게 된 후 의미와 문법적 기능이 정해집니다.
즉, 단어 자체가 변화하고, 그러면서 의미도 같이 변하기 때문에 단어 자체를 분리하는 것은 의미가 없습니다.
어순이 중요하지 않아, 어순이 바뀌거나 주어를 생략해도 의미 전달에 문제가 없습니다.
(이 특징 때문에 언어 모델이 제대로 다음 단어를 예측하기가 어렵습니다.)

ko 어순을 마음대로 바꿨을 때도 의미는 절달할 수 있음

따라서 형태소 분석을 위해서 이러한 부분에 대한 처리가 필요합니다.

en_ko_1

토큰화 단위의 차이

단위는 쉽게 말해 의미를 가지는가를 말합니다.
토큰화는 텍스트를 개별 단위로 분할하는 과정으로, 의미를 가지는 단위로 토큰을 정의합니다.
영어는 띄어쓰기 단위가 독립적인 단어입니다. 따라서 띄어쓰기와 같은 의미인 단어(word)를 기준으로 토큰화합니다.
하지만 한글은 단어가 독립적이지 않고 조사와 같은 무언가가 붙어있는 경우가 많아 형태소 분석을 통해 이같은 경우를 전부 분리해줘야 하는 등 토큰을 분리할 때 기준이 필요합니다.

en_ko_2

또 한글은 띄어쓰기가 제대로 지켜지지 않아도 의미를 이해할 수 있습니다.

no_space 띄어쓰기가 없을 때, 영어와 한글의 차이

그리고 띄어쓰기 규칙 또한 상대적으로 까다로운 언어이므로, 한국어 코퍼스는 띄어쓰기가 제대로 지켜지지 않는 경우가 많습니다. 그러므로 단어를 음절로 전부 분리해줘야 하는 등의 형태소 분석을 요구합니다.

음절은 하나의 덩어리로 여겨지는 가장 작은 발화의 단위로,
한글은 한글자(초성-자음, 중성-모음, 종성-자음)를 의미한다.

en_ko_22

영어와 한글의 차이점

위에서 설명하였듯, 영어와 한글은 언어의 종류도, 특성도 다르며, 그에 따른 전처리 과정도 다릅니다.
한글은 영어와 근본적으로 차이가 있고, 이러한 점들을 잘 식별하고 처리할 수 있어야하며, 토큰화 과정에서도 추가적인 절차가 필요합니다.
그렇기 때문에 자연어 처리에서 영어와 한글은 다른 아키텍처를 가져야합니다\

en_ko NLP에서 영어와 한글의 차이 정리

This post is licensed under CC BY 4.0 by the author.

Comments powered by Disqus.

© minjung. Some rights reserved.