본문 바로가기

머신러닝/[기타]

Senna's Embedding / Gazetteer feature?

Bidirectional LSTM-CRF Model for Sequence Tagging이라는 논문을 읽다가 Senna's embedding, Gazetteer feature이라는 단어가 등장했습니다. 이게 뭔가 했는데 SENNA라는게 NLP Software네요.(...) 그리고 Gazetteer feature는 그냥 지명 사전..? 혹시나 저와 같은 고민을 하시는 분들이 있을까 그냥 간단하게만 정리해보겠습니다.

Semantic/syntactic Extraction using a Neural Network Architecture

 위 링크를 따라가시면 SENNA가 뭐하는 친구인지 나와있습니다. 간단하게 번역하면 다양한 NLP Task(POS tags, Chunking, NER 등)를 처리할 수 있는 소프트웨어이며, 간단한 구조로 빠르고, 정확하고, ... 등등 여기서 우리가 보고 싶은 내용은 'We now include our original word embeddings, used to trained each task' (각각의 Task에 맞춰진 word embedding을 포함한다.) 이 말이 되겠네요.

SENNA's embedding

 아래 글은 'The Expressive Power of Word Embeddings' 이라는 논문에서 발췌한 내용입니다.

SENNA’s embeddings (Collobert, 2011) are generated using a model that is discriminating and nonprobabilistic. In each training update, we read an n-gram from the corpus, concatenating the learned embeddings of these n words. Then a corrupted ngram is used by replacing the word in the middle with a random one from the vocabulary. On top of the two phrases, the model learns a scoring function that scores the original phrases lower than the corrupted one. The loss function used for training is hinge loss. (Collobert et al., 2011) shows that embeddings are able to perform well on several NLP tasks in the absence of any other features. The NLP tasks considered by SENNA all consist of sequence labeling, which imply that the model might learn from sequence dependencies. Our work enriches the discussion by focusing on term classification problems. - 'The Expressive Power of Word Embeddings 중'

 줄줄히 번역해보면... SENNA's embedding은 discriminating and non-probabilistic model을 사용한다. Update마다, 각 말뭉치를 n-gram으로 읽고, 이러한 n-words들의 학습된 Embeddings를 병합한다. 중간 중간의 불완전한 n-gram의 경우 Vocabulary에서 랜덤하게 뽑아낸 단어의 중간으로 대체한다. 이러한 Embedding은 Hinge loss를 사용해 학습시켰으며, 몇 가지 Feature들이 없더라도 다양한 NLP tasks를 꽤나 잘 수행한다. SENNA가 진행한 NLP tasks는 모두 Sequence labeling이 되어있기 때문에, 해당 모델은 Sequence depedency를 학습 가능성이 있다....

 사실 이렇게보면 n-gram과 Neural network를 이용해 Word embedding을 진행했다... 그래서 Word2vec 이전 세대의 모델같은 느낌인데, 전문을 읽지 않아 잘 모르겠습니다. 추후 알게되면 다시 기록하도록 하겠습니다.

'머신러닝 > [기타]' 카테고리의 다른 글

Universal Approximation Theorem, UAT  (0) 2020.06.17
Ordinary Least Squares, OLS  (0) 2020.06.10
Sigmoid, Logit and Softmax  (0) 2020.06.01
비유동적 데이터(Stationary data)  (0) 2020.03.26
L1, L2 Norm, Loss, Regularization?  (1) 2020.03.25