1 minute read

상태

상태의 개념은 단순하다. 상태는 무엇이 어떤 시점에 어디에 위치해 있는지를 나타낸다. 나는 농부가 될 수도 있다라는 문장을 생각해보자. 여기에는 두 가지의 상태를 포함한다. 하나는 농부가 되지 못한 나의 현재 상태이며 다른 하나는 농부가 된 미래의 나의 상태이다.

예측

나는 나의 현 상태가 어떤 상태인지 짐작해보고싶다. 스스로 나를 평가하기 위해서는 과거의 나를 비추어 현 상태를 파악할 수도 있고, 미래의 나를 비추어 현 상태를 파악해 볼 수도 있다. 강화학습에서는 “미래”에 초점을 맞춰 상태를 평가한다. 강화학습은 미래의 내가 어떤 사람이 될 지를 현 시점에서 예측해보았을 때, 얼마나 나의 이상과 비슷한지를 평가하는 방식으로 나를 평가한다.

다음 두 문장을 보자.

  1. 나는 농부가 될 수도 있다.
  2. 나는 대통령이 될 수도 있다.

현 시점의 나는 농부도 어부도 되지 못한 상태이다. 그러나 미래의 나는 농부가 된 상태 혹은 대통령이 된 상태로 존재할 수 있다. 그러나 대통령이 된 상태는 나의 현 상태에서는 너무 멀게 느껴질 수 있다. 만약 다음 상태가 비현실적이라면, 현 상태는 다음 상태와 연결될 수 없다. 반면, 농부는 대통령보다는 더 가까워 보이므로 연결될 수 있는것 처럼 느껴진다.

이와 같은 맥락에서 강화학습은 이전 상태가 다음 상태가 얼마나 연결될 수 있는지를 고려하여 현 상태를 평가한다. 이 연결을 Policy라고 하며, 현 상태가 평가된 값을 Value라고 한다. 현 상태의 Value는 여러 가지로 존재할 수 있는 미래의 Value를 가지고 계산되며, 각 미래의 Value는 얼마나 상태간의 이동이 그럴듯 한지와 같이 평가되어진다. 수식으로 표현하자면, Policy와 미래의 Value를 곱한 것으로 나타내어진다.

강화학습에서 Policy를 바라보는 관점

앞서 나는 상태간의 이동이 얼마나 그럴듯 한지를 평가하는 것이 Policy라고 했다. 그러나, 이는 엄밀히 강화학습의 관점과는 다르다. 강화학습은 Policy를 얼마나 큰 보상을 얻을 수 있는지를 기준으로 선택해나간다. 다시 말해, “현실적”이 아니라 “큰 보상”을 얻을 수 있는 상태를 연결짓는다.

Updated:

Comments