본문 바로가기

분류 전체보기

(125)
N-Gram Language Models 학습목표 신경망 이전에 사용했던 언어 모델인 n-gram 언어 모델을 학습하고, 어떤 문제점이 있는지 살펴봅니다. 핵심키워드 n-gram Language Model 최대우도추정(Maximum Likelihood Estimation) 데이터 희소성(Data Sparsity) 장기의존성(Long-Term Dependencies) 학습하기 자 앞에서, Language modeling이 결국 스코어링의 개념이란는 걸 알았는데요. 그럼 정확히 어떻게 스코어링을 하는가에 대해서 알아야겠죠? 그리고 그걸위해서는, 딥러닝이 있기 이전에 어떤 방법론을 사용했었는지 파악할 필요가 있습니다. 이걸 알고나면, 왜 딥러닝을 쓰고싶어지는지 알 수 있습니다. 33년 전, IBM에서 Speech recognition을 건들기 시작하..
Autoregressive language modeling 학습목표 자가회귀 언어 모델링 방법에 대해서 학습합니다. 핵심키워드 자가회귀 언어 모델링(Autoregressive language modeling) 학습하기 이제 자가회귀 언어 모델링을 보죠. 이건 시퀀스가 주어졌을 때, 이것을 어떻게 스코어링 할 것인가. 어떻게 확률 분포를 계산할 것인가. 에 대한 문제입니다. 위 계산식을 보시면, 조건 확률 분포와 정확하게 같죠. 이렇게 모델링하게 되면 앞에서 봤던 Language modeling이, 감독학습이 되는거에요. 왜냐하면, 한 문장안의 토큰들의 확률을(y) 이전 단어들의 확률로(X) 계산하게 됬으니까요. 그러니까 한 문장안에 많은 Text classification이 필요하게된 것. 그 뿐인거죠. 그래서, 똑같습니다. 1번부터 t-1번 토큰들을 앞의 5가..
Overview: Language Modeling 학습목표 자연어 처리에서 언어 모델링 문제를 다뤄봅니다. 핵심키워드 언어 모델링(Language Modeling) 학습하기 자 앞서서 Text classification들을 몇 개 봤는데요. 이걸 먼저 말했던 이유가, 이런 문제는 실질적으로 CBoW, n-gram 쓰면 정말 굉장히 잘 되거든요. 그런데도 불구하고 얘기를 많이 했던게, Sentence representation을 이해하는데 도움이 되기 때문이었죠. 그런데 Natural Language Processing, NLP에서 큰 파트가 Text classification이나 Text understanding도 있지만, Generating 도 있죠. 지금부터 말한 Language Modeling이 엄밀히 말해서 Generating은 아니지만 먼저 봅..
Questions 질문 1. 단어 임베딩에서 다의어(Polysemy)문제는 어떻게 해결하나요? 자, Polysemy problem, 사실 뭐 단어가 단 하나의 뜻만을 가지지는 않죠. 대부분 여러가지의 뜻이 있고, 그러면 우리는 이걸 어떻게 해결하냐. 사실 Context를 보면 되는 거죠. (이는 즉 다의어와 다른 토큰간의 관계 정보를 잃지 않으면 된다는 말같습니다.) 2가지를 생각해봐야합니다. Token representation으로 돌아가서, 우리는 각각의 Token들을 벡터로 만들었단 말이에요. 이게 굉장히 High dimentional합니다. 그 뜻은 뭐냐. 그 단어들, 그 단어들간의 관계가 굉장히 여러 가지가 될 수 있다는 거죠. 그러니까 한 토큰의 이웃들이 엄청나게 많아질 수 있다는 겁니다. 그러다 보니까, 의미..
Summary 학습목표 지금까지 배운 '텍스트 분류문제'와 '문장표현'에 대해서 다시 한번 정리하고 복습합니다 핵심키워드 Text Classification Sentence Representation 학습하기 지금까지 CBow, RN, CNN, Self-attention, RNN 이렇게, Sentence를 Representation을 하는 방법론 5가지를 살펴봤습니다. CBoW를 빼면 (이건 무조건 Average같은 Merging 작업이 필요했죠) 나머지는 문장이 주어졌을 때, 벡터 하나만 주어지는게 아니라, 사실 각 토큰별로, 토큰 위치별로 벡터들이 쭉 나오는 형상이죠. 그러니까.. '나는 커피 주문을 했다' 뭐 이런게 CBoW를 통해서는 그냥 뭐 '0.221' 이런식으로 Representation이 나온다면, 나머..
Self Attention & RNN 학습목표 문장을 표현하는 방법중 Self Attention과 RNN에 대해서 알아봅시다. 핵심키워드 Self Attention Recurrent Neural Network 학습하기 자 CBoW, RN(Skip-bigram), CNN까지 봤었는데, CNN도 이제 단점이 있죠. 아주 긴 문장을 학습하려면, Conv layer를 굉장히 많이 쌓아야지 처음 등장한 단어랑 마지막에 등장한 단어의 관계를 학습시킬 수 있겠죠. RN의 경우에는 너무 많은 계산을 하게 될거구요. 그럼 이 두 개를 잘 합쳐서 일반화시켜보자 이겁니다. 필요하면 연결해서 보고, 필요없으면 안보고. 그걸 위해 Self Attention이 나왔습니다. 그 이전에 RN과 CNN을 다시 한 번 위의 그림으로 확인해봅시다. RN은 전체 토큰과 다 페..
CBoW & RN & CNN 학습목표 문장을 표현하는 방법중 CBoW, RN, CNN에 대해서 알아봅니다. 핵심키워드 Sentence representation Continuous bag-of-words Relation Network Convolution Neural Network 학습하기 문장을 Representation하는 첫번째 방법이 Continuous Bag of Words, CBoW입니다. 이건 문장 속 토큰들의 순서를 고려하지 않아요. 그냥 어떤 가방에 해당 토큰에 해당하는 벡터를 막 넣어서, 그것들의 평균값(벡터)를 문장의 Representation으로 쓰자는 거죠. 같은 방식으로 Bag of n-gram도 가능하겠죠? 재밌는건, 이게 문장 속 토큰들의 순서를 무시하는 방법론인데도 불구하고, Text classific..
How to represent sentence & token? 학습목표 문장을 어떻게 컴퓨터 언어로 표현할지 배웁니다. 핵심키워드 Tokens Vocabulary Encoding Continuous vector space 학습하기 자연어 처리에서 중요한건, 문장을 어떻게 처리할 것이냐 하는 거겠죠. 이미지나 신호 데이터와 자연어 데이터가 다른 점은, 이 토큰들이 굉장히 Arbitrary하다는 점입니다. 인간 언어라는게, 그렇습니다. 고양이는 Cat이고 개는 Dog인데 그게 왜 그렇게 이름이 붙었는지, 사실 뭐 모르죠. 개(Dog)랑 비슷한게 늑대(Wolf)인데 이름에서는 전혀 비슷함을 찾아볼 수가 없죠. 이렇게 단어들이 굉장히 Arbitrary한 Assignment를 갖다보니, 어떤 처리를 해야할지가 좀 막막합니다. 일단 Sentence만 생각해봅시다. 뭐 사실 단..