본문 바로가기

KT Aivle 스쿨

KT AIVLE SCHOOL 9주차 언어지능 딥러닝 (3.27 ~ 3.31)

언어지능 딥러닝!

 

간단하게 말하자면 텍스트를 형태소단위로 분리하여 모델 학습을 시키는것!!

 

현재 가장 핫하고 내가 유용하게 쓰는 Chat GPT도 언어지능 딥러닝이라고 한다!

 

chatgpt와의 인터뷰 결과 확실하다!

언어지능에서 데이터 전처리는 굉장히 중요하다..!

사용하는 목적에 따라 데이터 전처리를 다르게 해주어야하기 때문에 전처럼 무지성으로 할 수 없다 ㅠㅠ

 

우선적으로 토큰화를 해주어야하는데 영어와 다르게 한국어는 형태소라는 개념을 이해해야한다고 한다.

 

자립형태소
◈ 명사
◈ 대명사
◈ 수사
◈ 관형사
◈ 부사
◈ 감탄사

 

의존형태소
◈ 접사
◈ 어미
◈ 조사
◈ 어간

등이 있다고 한다..! 이를 품사 태깅을 사용하여 자연어 처리를 해야한다!

 

한국어 자연어 처리는 KoNLPy라는 패키지를 이용해서 할 수 있는데

 

◈ Okt (Open Korea Text)
◈ Mecab
◈ Komoran
◈ Hannanum
◈ Kkma

 

등이 있다!

 

사실 이를 다 써보았는데 Komoran은 성능도 안나오고 시간은 댑따 오래걸려서 걸렀고..

주로 Mecab , Okt , Kkma를 돌렸던 것같다.

 

그중에서도 Mecab은 진짜 다른거에 비해 무진~~~~장 빨랐고 Kkma는 추후 있을 미프에서 좀 오래걸려도 성능이 좋게나와서 자주 사용했던 것 같다.

 

pip install konlpy
from konlpy.tag import Okt, Hannanum, Kkma,
from eunjeon import Mecab

등등으로 사용하면 된다!

 

 

메소드 종류
morphs : 형태소를 추출하는 메소드
pos: 품사 태깅하는 메소드
nouns : 명사 추출하는 메소드

 

나도 이제 챗봇 만들면서 놀 수 있을까?!?!