본문 바로가기

머신러닝/[딥러닝을 이용한 자연어 처리]

(23)
Questions 질문 1. 단어 임베딩에서 다의어(Polysemy)문제는 어떻게 해결하나요? 자, Polysemy problem, 사실 뭐 단어가 단 하나의 뜻만을 가지지는 않죠. 대부분 여러가지의 뜻이 있고, 그러면 우리는 이걸 어떻게 해결하냐. 사실 Context를 보면 되는 거죠. (이는 즉 다의어와 다른 토큰간의 관계 정보를 잃지 않으면 된다는 말같습니다.) 2가지를 생각해봐야합니다. Token representation으로 돌아가서, 우리는 각각의 Token들을 벡터로 만들었단 말이에요. 이게 굉장히 High dimentional합니다. 그 뜻은 뭐냐. 그 단어들, 그 단어들간의 관계가 굉장히 여러 가지가 될 수 있다는 거죠. 그러니까 한 토큰의 이웃들이 엄청나게 많아질 수 있다는 겁니다. 그러다 보니까, 의미..
Summary 학습목표 지금까지 배운 '텍스트 분류문제'와 '문장표현'에 대해서 다시 한번 정리하고 복습합니다 핵심키워드 Text Classification Sentence Representation 학습하기 지금까지 CBow, RN, CNN, Self-attention, RNN 이렇게, Sentence를 Representation을 하는 방법론 5가지를 살펴봤습니다. CBoW를 빼면 (이건 무조건 Average같은 Merging 작업이 필요했죠) 나머지는 문장이 주어졌을 때, 벡터 하나만 주어지는게 아니라, 사실 각 토큰별로, 토큰 위치별로 벡터들이 쭉 나오는 형상이죠. 그러니까.. '나는 커피 주문을 했다' 뭐 이런게 CBoW를 통해서는 그냥 뭐 '0.221' 이런식으로 Representation이 나온다면, 나머..
Self Attention & RNN 학습목표 문장을 표현하는 방법중 Self Attention과 RNN에 대해서 알아봅시다. 핵심키워드 Self Attention Recurrent Neural Network 학습하기 자 CBoW, RN(Skip-bigram), CNN까지 봤었는데, CNN도 이제 단점이 있죠. 아주 긴 문장을 학습하려면, Conv layer를 굉장히 많이 쌓아야지 처음 등장한 단어랑 마지막에 등장한 단어의 관계를 학습시킬 수 있겠죠. RN의 경우에는 너무 많은 계산을 하게 될거구요. 그럼 이 두 개를 잘 합쳐서 일반화시켜보자 이겁니다. 필요하면 연결해서 보고, 필요없으면 안보고. 그걸 위해 Self Attention이 나왔습니다. 그 이전에 RN과 CNN을 다시 한 번 위의 그림으로 확인해봅시다. RN은 전체 토큰과 다 페..
CBoW & RN & CNN 학습목표 문장을 표현하는 방법중 CBoW, RN, CNN에 대해서 알아봅니다. 핵심키워드 Sentence representation Continuous bag-of-words Relation Network Convolution Neural Network 학습하기 문장을 Representation하는 첫번째 방법이 Continuous Bag of Words, CBoW입니다. 이건 문장 속 토큰들의 순서를 고려하지 않아요. 그냥 어떤 가방에 해당 토큰에 해당하는 벡터를 막 넣어서, 그것들의 평균값(벡터)를 문장의 Representation으로 쓰자는 거죠. 같은 방식으로 Bag of n-gram도 가능하겠죠? 재밌는건, 이게 문장 속 토큰들의 순서를 무시하는 방법론인데도 불구하고, Text classific..
How to represent sentence & token? 학습목표 문장을 어떻게 컴퓨터 언어로 표현할지 배웁니다. 핵심키워드 Tokens Vocabulary Encoding Continuous vector space 학습하기 자연어 처리에서 중요한건, 문장을 어떻게 처리할 것이냐 하는 거겠죠. 이미지나 신호 데이터와 자연어 데이터가 다른 점은, 이 토큰들이 굉장히 Arbitrary하다는 점입니다. 인간 언어라는게, 그렇습니다. 고양이는 Cat이고 개는 Dog인데 그게 왜 그렇게 이름이 붙었는지, 사실 뭐 모르죠. 개(Dog)랑 비슷한게 늑대(Wolf)인데 이름에서는 전혀 비슷함을 찾아볼 수가 없죠. 이렇게 단어들이 굉장히 Arbitrary한 Assignment를 갖다보니, 어떤 처리를 해야할지가 좀 막막합니다. 일단 Sentence만 생각해봅시다. 뭐 사실 단..
Overview 학습목표 자연어 처리에서 텍스트 분류 문제를 다뤄봅니다. 핵심키워드 Text Classification Sentence Representation 학습하기 지금부터는 텍스트 분류에 대해 알아보겠습니다. 먼저 인풋과 아웃풋을 생각해보죠. 인풋은, 어떤 자연어입니다. 문장이 될 수도 있고, 문단이 될 수도 있고. 아웃풋은 뭘까요. 내 목적성에 맞게 설정한 어떤 상수 개의 카테고리입니다. 예제를 보시면 이해가 확 될겁니다. 첫번째는, 영화 리뷰가 긍정적이냐 부정적이냐 따위를 판단하는 경우가 있겠죠. 다른 말로는 감성 분류. 두번째는, 해당 기사가 어떤 카테고리에 속하느냐를 판단하는 경우. 이게 스포츠 섹션인지, 연예 섹션인지 뭐 등등. 카테고리 분류겠지요. 세번째는 어떤 질문이, 뭐 중국 식당에 대해 묻는 건..
시작에 앞서 해당 카테고리의 글들은 edwith에서 진행되는 조경현 교수님의 "딥러닝을 이용한 자연어 처리" 강의에 대한 내용을 기록합니다. 저는 단순히 교수님의 말씀을 타이핑하거나, 제 이해도에 맞게 약간의 첨언을 덧붙여 글이 완성될 예정입니다.