ML Lecture 23-1: Deep Reinforcement Learning
Deep Reinforcement Learning = Deep Learning + Reinforcement Learning
在RL裡,有兩個角色:Agent(機器)與Environment(環境)
Agent負責觀察環境,叫做observation或state(環境的狀態)
Agent會做一些事情,會影響環境,影響了環境之後會得到 Reward,告訴機器他的影響是好的還是不好的
舉例來說:
機器的目標是,學習去採取「可以Maximize Reward」的Action
若以alpha go 為例,環境就是棋盤,可以看成一個19*19的矩陣,action就是落子
不過大多數的情況reward都是0,贏了才是1,輸了是-1