DeepLearning

Deep Learning - CH3.1 Probability and Information Theory

jiheek 2021. 10. 24. 23:27

Deep Learning - Ian Goodfellow

 

Deep Learning에서 확률이 왜 사용되는가?에 대한 답을 얻기 위해서 CH3을 정독하고 있다.

 

CH3.1 Why Probability?

 

Probability theory는 불확실한 어떤 것을 설명하기 위한 수학적인 프레임워크이다.

이는 수치화 된 불확실성의 평균과, 새로운 불확실성을 띈 것을 유도하기 위한 공리(axioms)를 제공한다.

 

AI에서 probability theory는 크게 두 가지의 이유로 사용된다.

 

1. It tells us how AI systems should reason, so we design our algorithms to compute or approximate various expressions derived using probability theory.
이는 AI 시스템이 어떻게 추론하는지 알려주어, 확률 이론을 사용하며 파생된 여러 표현들을 계산하거나 근사하도록 알고리즘을 설계할 수 있게 해준다.

2. We can use probability and statistics to theoretically analyze the behavior of the proposed AI system.
제안 된 AI 시스템의 동작을 이론적으로 분석할 때 확률과 통계를 사용할 수 있다.

 

다른 소프트웨어 분야나 컴퓨터 연구자들이 비교적 명확하고 특정 된 환경에서 일하는 것에 비해, ML은 확률 이론을 매우 중요하게 다루고 있다. 이는 ML이 항상 불명확한 수치(uncertain quantities), 확률론 적인 수치(Stochastic, non-deterministic)를 다루기 때문이다.

 

이미 1980년대부터 불확실성을 확률을 사용해서 수치화하는 설득력 있는 연구들이 진행되어왔다.


많은 경우에서 간단하지만 불확실한 규칙이 복잡하지만 확실한 규칙보다 사용하기 실용적이다. 실제 규칙이 결정론적이고 우리의 모델링 시스템이 복잡한 규칙을 수용할 수 있을지라도 실용적이다.

 

예를 들어, "대부분의 새는 난다" 라는 develop하기 쉽고 범용적으로 사용될 수 있는 간단한 규칙이 있다.

반면, "아직 나는 법을 배우지 못한 어린 새, 날 수 없는 아프거나 다친 새, 날지 못하는 종의 새들 ... 을 제외한 새들은 난다" 라는 규칙은 develop하기 어렵고, 유지/소통하기 힘들다.

 

==> uncertainty를 표현하고 추론할 수단이 필요하다.

 


 

그렇다면 Probability theory가 정말로 AI에서 필요한 모든 것을 충족하나?

 

원래 probability theory는 사건의 빈도를 분석하기 위해 개발되었다.

하지만 여기서 말하는 사건은 대부분 반복 가능하다. (e.g. 주사위 게임, 카드 게임)

결과가 p의 확률로 일어난다고 할 때, 매우 많은 실험을 했을 때 p의 비율은 해당 결과가 나온다는 뜻이다. -- (1)

 

하지만 이런 추론은 반복 가능하지 않은 명제에 대해서는 바로 적용하기 힘들어 보인다. 만약 의사가 환자에게 40%의 flu에 걸릴 확률을 가지고 있다고 말한다면, 이는 완전히 다른 상황이다. 우린 그 환자를 복제해서 실험을 할 수 없다.

 

이 상황에서는 확률을 믿음의 정도(degree of belief)를 표현하는데 사용한다. 1은 환자가 확실히 flu에 걸린 것이고, 0은 확실히 걸리지 않았다는 것이다. -- (2)

 

(1)과 같이 사건이 일어날 비율과 관련된 확률을 Frequentist probability,

(2)와 같이 certainty의 수치화와 관련된 확률을 Bayesian probability라고 한다.


불확실성에 대한 상식적인 추론을 하기 위한 유일한 방법은 Bayesian probability를 Frequentist probability와 정확히 동일하게 행동하는 것으로 취급하는 것이다.

 

예를 들어, "플레이어가 특정 카드를 가지고 있을 때 게임을 이길 확률"을 구할 때, 우리는 "환자가 특정 증상을 보일 때 병에 걸렸을 확률"을 계산하는 방식과 완벽히 같은 방식을 사용한다.

 

확률은 불확실성을 다루는 논리의 연장선이다.

논리는 일부 다른 명제 세트가 참 또는 거짓이라는 가정을 감안할 때, 어떤 명제가 참 또는 거짓으로 암시되는 지를 결정하기 위한 일련의 공식 규칙을 제공한다.

확률 이론은 다른 명제의 가능성이 주어졌을 때 명제가 참일 가능성을 결정하기 위한 일련의 공식 규칙을 제공한다.

 

 

 

CH3.1 끝!