Distributed Representations of Words and Phrases and their Compositionality
논문 용어 정리
- NLP
Natural Language Processing, 자연어처리는 텍스트에서 의미있는 정보를 분석, 추출하고 이해하는 일련의 기술집합이다.
(응용 사례: 텍스트 용약, 자동 질의응답 시스템, 대화 시스템, 기계 번역)
- dense matrix multiplication
nxn dense를 가진 matrix A와 B를 multiple 하면 C = A x B. Complexity는 이다. matrix의 multiplication은 비용이 높다.
- Softmax
Logistic regression classifier의 multiple class 에 대한 일반화 개념. Binary class가 아니라 K-class문제의 경우에 사용된다. softmax는 데이터를 2개 이상의 그룹으로 나누기 위해 binary classification을 확장한 모델이다.
(bayes-theorem과-sigmoid와-softmax사이의-관계 : https://taeoh-kim.github.io/blog/bayes-theorem%EA%B3%BC-sigmoid%EC%99%80-softmax%EC%82%AC%EC%9D%B4%EC%9D%98-%EA%B4%80%EA%B3%84/)
- Negative Sampling, Positive Sampling, Sub Sampling
word2vec에서 Positive Sampling이 word의 주변 단어, 의미가 가까운 단어들을 나타내면 Negative Sampling은 word와 가깝지 않은 엉뚱한 위치의 인덱스를 가진 단어들을 나타낸다. 이 논문에서는 Negative Sampling도 학습을 시킨다. Sub Sampling은 말 그대로 word의 몇몇 sample인가 .,..?
- Noise Contrastive Estimation(NCE)
k개의 단어에 대해서만 softmax함수를 사용하여 멀리떨어진 단어는 낮은 확률로, 가까운 단어들은 높은 확률을 부여하여 k개의 대비되는 단어들의
noise distribution을 구한다.
- vector representation
Vectors can be graphically represented by directed line segments.
- data-driven approach
컴퓨터에게 예제를 주고 학습할 수 있는 알고리즘을 개발하는 것
- analogical reasoning task
With deductive reasoning and inductive reasoning, it constitutes the three basic tools of thinking.
- Skip-gram model
단어 하나를 사용해서 주변 단어들의 발생을 유추하는 모델.
멀리 떨어진 단어를 낮은 확률로 선택하는 방법 사용.
(출처 : https://korea7030.github.io/Study13/)
- Hierarchical softmax
Skip-gram모델 구조 자체를 트리구조로 바꿔버린다. 빈번하지 않는 단어들에 유리하다.
계산량이 많은 softmax함수를 빠르게 계산 가능한 함수로 대체 (multinomial distribution)
- Unigram
가장 단순한 언어모델인 유니그램 언어모델. 각 단어가 서로 독립이라고 가정한다. n개의 단어가 동시에 나타날 확률은 다음과 같다.
- bigram
단어의 활용이 바로 전 단어에만 의존한다면 확률은 다음과 같다. 마코프 모형이라고 한다.
- continuous bag-of-words(CBOW)모델
context의 개념을 적용한 모델. 주변 단어에 대한(w(c-1), w(c-2), w(c+1), w(c+2)) 중심 단어 w(c)를 뽑아주는 모델이다. 예를들어 {"the", "cat", "over", "the", "puddle"}이라는 context가 있으면 jumped를 뽑아준다.
출처: http://dalpo0814.tistory.com/4?category=232263 [deeep]