본문 바로가기
연구/경현 - 총무

[201007] 형태소 분석

by 알 수 없는 사용자 2020. 10. 7.
반응형

'견학대상자는 한국외대 창업관련 우수활동 학생 8명, 교직원 2명, 교수 1명 등 총 11명입니다.'

'선형대수학 이론은 회로해석, 신호 처리, 통신 네트워크, 인공지능, 컴퓨터그래픽, 동역학 등 공학 분야뿐만 아니라 자연과학이나 경제학 등에도 응용이 되는 매우 중요한 수학의 분야이다.'

 

두 문장을 예시로 돌렸을 때 화면과 같은 결과로 출력되는 걸 볼 수 있다.

 

함수를 조금 더 효율적으로 짜고 싶지만 지금 어떤 걸 쓰고 어떤 걸 지워야 할 지 판단이 안되기 때문에 함수 다듬는 건 나중에 하고 우선 코드를 만지려면 태그를 알고 있어야 한다.

 

우선 지금 ntags=22라고 했기 때문에 이걸 기준으로 본다.

NC 보통명사 II 감탄사
NQ 고유명사 JC 격조사
NB 의존명사 JX 보조사
NN 수사 JP 서술격 조사
NP 대명사 EP 선어말어미
PV 동사 EF 종결 어미
PA 형용사 EC 연결 어미
PX 보조 용언 ET 전성 어미
MM 관형사 XP 접두사
MA 부사 XS 접미사

+) S로 시작하는 건 기호 (SF는 '.' SP는 ',' 등) F는 외국어

 

1. '견학대상자는 한국외대 창업관련 우수활동 학생 8명, 교직원 2명, 교수 1명 등 총 11명입니다.'

[('견학대상자', 'NC'), ('는', 'JX'), ('한국외대', 'NC'), ('창업관련', 'NC'), ('우수활동', 'NC'), ('학생', 'NC'), ('8', 'NN'), ('명', 'NB'), (',', 'SP'), ('교직원', 'NC'), ('2', 'NN'), ('명', 'NB'), (',', 'SP'), ('교수', 'NC'), ('1', 'NN'), ('명', 'NB'), ('등', 'NB'), ('총', 'MM'), ('11', 'NN'), ('명', 'NB'), ('이', 'JP'), ('ㅂ니
다', 'EF'), ('.', 'SF')]

=> 살리는 것 : NC(보통명사), NN(수사), NB(의존명사), MM(관형사)

'다'를 붙여서 살리는 것 : JP(서술격 조사)

버리는 것 : JX(보조사), SP(기호), EF(종결 어미), SF(기호)

NC 보통명사 II 감탄사
NQ 고유명사 JC 격조사
NB 의존명사 JX 보조사
NN 수사 JP 서술격 조사
NP 대명사 EP 선어말어미
PV 동사 EF 종결 어미
PA 형용사 EC 연결 어미
PX 보조 용언 ET 전성 어미
MM 관형사 XP 접두사
MA 부사 XS 접미사

 

2. '선형대수학 이론은 회로해석, 신호 처리, 통신 네트워크, 인공지능, 컴퓨터그래픽, 동역학 등 공학 분야뿐만 아니라 자연과학이나 경제학 등에도 응용이 되는 매우 중요한 수학의 분야이다.'

[('선형대수학', 'NC'), ('이론', 'NC'), ('은', 'JX'), ('회로해석', 'NC'), (',', 'SP'), ('신호', 'NC'), ('처리', 'NC'), (',', 'SP'), ('통신', 'NC'), ('네트워크', 'NC'), (',', 'SP'), ('인공지능', 'NC'), (',', 'SP'), ('컴퓨터그래픽', 'NC'), (',', 'SP'), ('동역학', 'NC'), ('등', 'NB'), ('공학', 'NC'), ('분야', 'NC'), ('뿐만', 'JX'), 
('아니', 'PA'), ('라', 'EC'), ('자연과학', 'NC'), ('이나', 'JC'), ('경제학', 'NC'), ('등', 'NB'), ('에', 'JC'), ('도', 'JX'), ('응용', 'NC'), ('이', 'JC'), ('되', 'PV'), ('는', 'ET'), ('매우', 'MA'), ('중요', 'NC'), ('하', 'XS'), ('ㄴ', 'ET'), ('수학', 'NC'), ('의', 'JC'), ('분야', 'NC'), ('이', 'JP'), ('다', 'EF'), ('.', 'SF')]

=> 살리는 것 : NC(보통명사), NB(의존명사), MA(부사)

'다'를 붙여서 살리는 것 : PA(형용사), PV(동사), JP(서술격 조사)

버리는 것 : JX(보조사), SP(기호), EC(연결 어미), JC(격조사), ET(전성 어미), XS(접미사), EF(종결 어미), SF(기호)

NC 보통명사 II 감탄사
NQ 고유명사 JC 격조사
NB 의존명사 JX 보조사
NN 수사 JP 서술격조사
NP 대명사 EP 선어말어미
PV 동사 EF 종결 어미
PA 형용사 EC 연결 어미
PX 보조 용언 ET 전성 어미
MM 관형사 XP 접두사
MA 부사 XS 접미사

 

* 테이블에서 볼드 처리된 건 그대로 가져오는 단어, 볼드+기울인 건 "다"를 붙여서 가져오는 단어, 취소선 그인 건 없애는 단어입니다.

 

내가 잘못 분류했다고 생각하거나 괜찮은 다른 예시 문장 있으면 피드백 주세요. 코드 필요하면 말하구!

반응형