1 minute read

강화학습에서 탐험(Exploration)과 활용(Exploitation)이 균형(Trade-off) 관계에 있다는 이론이 있다. 이를 우리의 삶에 적용하여 설명해보려고 한다.

강화학습에서 Agent는 환경(Environment)에 의하여 보상을 받는다. Agent는 이 환경이 주는 보상을 최대화하기 위한 목적으로 어떠한 행동을 한다. 예를 들어, 밥을 먹는다는 보상이 5라고 하고 밥과 고기를 먹는 보상이 7이라고 한다면, Agent는 보상을 기준으로 행동을 택하여 밥과 고기를 먹는 행동을 하게 될것이다. 이렇듯 Agent는 환경이 주는 보상을 최대화하기 위하여 행동을 하게 되는데, 한번에 하나의 행동밖에 할 수 없으며 어떤 행동이 어떤 보상을 낳을지 알 수 없는 상태라고 하자. 이때 Agent는 고민에 빠질것이다. 어떤 행동을 해야 내가 가장 큰 보상을 얻게 될 것 인가?

우리의 삶은 이러한 고민의 연속이다. 내가 좋아하는 것이 무엇인지 모르며, 내가 좋아하고 있다고 생각하는 것도 더 좋은 다른 것에 의해 대체될 수 있다. 내가 좋아하는 일을 찾고자 하는 것이 탐험(Exploration)이다. 내게 주어진 시간에 연극을 볼 수도 있고, 영화를 볼 수도 있고, 친구들과 만나서 수다를 떨 수도 있으며 지금까지 경험해보지 못한 새로운 자극을 찾아나설수도 있다. 탐험을 많이 자주 할 수록 내가 좋아하는 일을 찾게 될 가능성이 커질 것이다.

하지만 우리는 여러가지 일을 동시에 할 수는 없다. 연극을 보면서 영화를 볼 수는 없는 노릇이며 그 와중에 지금까지 경험해보지 못했던 새로운 것을 찾아 나설수 없다. 그렇기에 우리는 지금까지 해왔던 행동 중에서 최선의 행동을 하기도 한다. 이를 활용(Exploitation)이라 한다. 연극을 본 적이 있고 영화를 본 적이 있고 친구들과 수다를 떤 적이 있다고 했을때, 지금까지 해왔던 것들 중 어떤 것이 가장 큰 보상인지 선택한다. 이렇게 지난 경험을 통해 최선의 보상을 얻을 수도 있다. 그렇다면 활용(Exploitation)을 한다고 해서 최대의 보상을 얻을 수 있을까? 아니다. 내가 지금까지 해왔던 것들 보다 더 좋은 선택지가 있을 수 있을 것이다. 그럼 탐험(Exploration)만 하면 되는가? 그렇지 않다. 왜냐하면 새로운 것을 찾는 노력에도 시간과 비용이 들 수 있으며 새로운 것 자체가 기존에 해왔던 것들 보다 보상이 적을 수 있다. 이렇기 때문에 딜레마에 빠진다.

우리의 시간은 한정되어 있기 때문에 탐험(Exploration)과 활용(Exploitation) 중 하나를 선택해야 한다. 이를 균형(Trade-off)라고 한다. 계속 탐험(Exploration)을 해도 좋지 않으며 활용(Exploitation)을 해도 좋지 않을 수 있다. 결국 하나를 얻으면 하나를 잃어야만 한다. 우리의 삶과 비슷한것 같다.

Updated:

Comments