ML Lecture 23-1: Deep Reinforcement Learning



Deep Reinforcement Learning = Deep Learning + Reinforcement Learning

Scenario of Reinforcement Learning

在RL裡,有兩個角色:Agent(機器)與Environment(環境)

Agent負責觀察環境,叫做observation或state(環境的狀態)

Agent會做一些事情,會影響環境,影響了環境之後會得到 Reward,告訴機器他的影響是好的還是不好的

舉例來說:

  1. 機器(agent)觀察到了環境中有一杯水(observation/state),機器打翻這杯水(做事情影響環境),並得到一個負面的Reward,此時機器知道他做錯了
  2. 接著,機器觀察到了環境中有一杯被打翻的水,機器清理他,並得到一個正面的Reward,此時機器知道他做對了

機器的目標是,學習去採取「可以Maximize Reward」的Action

Learning to play Go

若以alpha go 為例,環境就是棋盤,可以看成一個19*19的矩陣,action就是落子

不過大多數的情況reward都是0,贏了才是1,輸了是-1