NLP/NLP 기초

[NLP] 자연어 처리를 위한 수학

데이터 세상 2021. 4. 11. 14:44
728x90
반응형

확률의 기초

확률

  • 어떠한 사건(event)이 발생할 수 있는 가능성을 수치로 나타낸 것

 

표본 공간

  • 사건에서 발생할 수 있는 모든 경우

 

확률 변수

  • 어떠한 사건을 실수 표현으로 매칭시키는 일종의 함수
  • P(X=사건)=확률

 

이산 확률 변수(discrete random variables)

  • 확률 변수가 취할 수 있는 값들이 이산적으로 셀 수 있는 경우
  • 공장에서 발생하는 불량품의 개수, 한해 동안 발생하 교통사고 횟수 등

 

확률 분포(probability distribution)

  • 확률 변수가 특정한 값을 가질 확률을 나타내는 함수

 

이산 확률 분포(discrete probability distribution)

  • 확률 변수가 이산 확률 변수인 경우

 

확률 질량 함수(probability mass function)

  • 이산 확률 변수 X가 임의의 실수 x값을 취할 확률을 나타내는 함수
  • fx(x) = P(X=x)

 

연속 확률 변수(continuous random variable)

  • 확률 변수 X가 취할 수 있는 값들이 어떤 범위로 주어지는 경우를 의미
  • 사람의 키, 체중, 수명 등

 

연속 확률 분포(continuous probability distribution)

  • 확률 변수가 연속 확률 변수인 경우

 

확률 밀도 함수(probability density function)

  • x에서의 확률이 아니라 상대적인 밀도를 나타내는 것
  • 확률의 특성을 가지고 있어야 하기 때문에 모든 확률 변수에 대한 확률의 합이 1이 되어야 함

 

조건부 확률(conditional probabilty)

  • 어떤 사상 A가 일어났다고 가정한 상태에서 사상 B가 일어날 확률
  • P(B|A) = P(A∩B) / P(A)
  • Chain Rule
    • P(A∩B) = P(A)P(B|A) = P(B)P(A|B)
      • 자연어 처리에서 A는 B의 확률을 계산하기 위하여 주어진 히스토리, 문맥, 지식이라고 볼 수 있음
    • A, B가 독립이라면
      • P(B|A) = P(B)
      • P(A∩B) = P(A)P(B)

 

베이즈 정리(Bayes Theorem)

  • 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리

 

기댓값

  • 가중평균(weighted average)
  • 어떤 정확한 값이 아니라 나오게 될 숫자에 대한 예상

 

분산(variance)

  • 확률 분포에서 확률 변수들의 퍼져있는 정도
  • 각각의 값이 그 평균값에서 얼마나 떨어져 있는지(편차)를 보여주는 것

 

표준편차(standard deviation)

  • 분산의 제곱근

 

정규분포(Normal Distribution)

  • 연속 확률 분포중 하나, 가우시안 분포(Gaussian Distribution)라고도 불림

 

MLE(Maximum Likelihood Estimation)

  • 오직 주어진 Observation, 혹은 데이터들 만을 토대로 parameter estimation을 하는 방법

 

MAP(Maximum a Posteriori Estimation)

  • MLE의 단점을 해결하기 위해 MAP이라는 방법을 사용하
  • θ가 주어지고, 그 θ에 대한 데이터들의 확률을 최대화하는 것이 아니라, 주어진 데이터에 대해 최대 확률을 가지는 θ를 찾는 것

 

정보이론과 엔트로피

정보이론

  • 1948년 Claude Shannon이 처음 제안
  • 임의의 정보에 대해 데이터 압축률과 전송률을 최대화할 수 있는 수학적 모델을 제시하고자 함

 

정보량 표현

중요성(significance)

  • 어떤 사건이 발생할 가능성이 낮을수록 그 사건은 많은 정보를 지닌다

 

가법성(additivity)

  • 독립적인 두 정보량은 더하고 뺄 수 있다

 

엔트로피(Entropy)

  • 확률 변수 X의 표본공간에서 나타나는 모든 사상들의 정보량의 평균적인 기댓값을 의미
  • 어떠한 정보의 불확실성이 높은지 낮은지 평가하는 지표로 사용
  • 엔트로피 값이 높을수록 불확실성이 높다고 판단

 

결합 엔트로피(Joint Entropy)

  • 두 개의 확률 변수에 대한 엔트로피

References

728x90
반응형

'NLP > NLP 기초' 카테고리의 다른 글

[NLP] NLP Dataset  (0) 2021.06.11
[NLP] Gensim  (0) 2021.04.11
[NLP] Semantic Analysis  (0) 2021.04.05
[NLP] Syntactic Analysis  (0) 2021.04.05
[NLP] Lexical Analysis  (0) 2021.04.05