본문 바로가기
Data_Analysis/MachineLearning

[Machine Learning] NLP - 텍스트처리(Tokenize)

by Classic! 2020. 10. 31.

1. Tockenize란?

: 자연어 분석의 초기 단계에 텍스트를 분석에 필요한 단어/의미 등의 단위로 쪼개는 과정을 말합니다.

 

2. Tockenize 기준

텍스트를 구분하는 절대적인 기준은 없습니다. 단어, 어간, 공백 등으로 자를 수 있습니다.

1) 단어

: 분리하여 자립적으로 쓸 수 있는 말이나 이에 준하는 말. 또는 그 말의 뒤에 붙어서 문법적 기능을 나타내는 말.

“철수가 영희의 일기를 읽은 것 같다.”에서 자립적으로 쓸 수 있는 ‘철수’, ‘영희’, ‘일기’, ‘읽은’, ‘같다’와 조사 ‘가’, ‘의’, ‘를’, 의존 명사 ‘것’ 따위이다. [출처] : https://ko.dict.naver.com/#/search?query=%EB%8B%A8%EC%96%B4

 

단어로 자를 경우 품사에 유의해야 한다. 영어의 품사 종류는 다음과 같습니다.

여기서 마지막 2개, 관사와 대명사는 대체로 분석에서 큰 의미가 없어 생략하는 경우가 많습니다. 

Tockenize과정에서 각 단어마다 품사를 배정할 수도 있습니다.

- 명사(noun)

- 동사(verb)

- 형용사(adjective)

- 부사(adverb)

- 전치사(preposition)

- 접속사(conjunction)

- 관사(article)

- 대명사(pronoun)

 

 

2) 어간으로 분리

: 용언 활용할 때 변하지 않는 부분. 동사, 형용사와 같은 용언은 어간과 어미로 이루어져 문장에서 쓰일 때 그 형태가 변하는데 이를 활용이라고 하고, 활용할 때 변하지 않는 부분을 어간이라고 한다. 예를 들어 "경신이는 예쁘다."라는 문장에서 용언은 형용사인 '예쁘다'는' 예쁘-'가 어간이다. [출처] https://terms.naver.com/entry.nhn?docId=921649&cid=47319&categoryId=47319

 

영어는 형태론적으로 nominat + ate(v) / ion(n) /ival(adj) 처럼 쪼갤 수 있습니다.

 

 

3) 형태소

: 뜻을 가진 가장 작은 말의 단위. 예를 들어 책가방 = 책/가방으로 분리했을 때 책과 가방 모두 각각의 의미를 가지는 단어입니다.

따라서 책을 담는 가방이라는 단어인 책가방은 책과 가방으로 분리될 수 있고, 분리된 단어는 더이상 뜻을 가진 더 작은 단위로 쪼갤 수 없기 때문에 이를 형태소라고 합니다.

https://terms.naver.com/entry.nhn?docId=3403477&cid=47319&categoryId=47319

 

4) 그 외 방법

위의 기준으로 텍스트를 분리하는 것 외에 불필요한 부분을 삭제, 치환 등의 방법도 있습니다.

- 공백, 숫자, 's, 't, 특수문자 등. 다만, '$', '/'는 통화나 날짜를 나타내는 단위로 쓰이기도 하므로 삭제할 때 주의가 필요합니다.

- 대소문자(->소문자화)

- 불용어 처리(관사(영어), 고유 대명사, 조사, 어미 등)

- 비슷한 단어는 동의어 처리

 

댓글