Gradient Descent Algorithm & RNN

這邊我們希望把熟悉的gradient descent當作一個LSTM，也就是說，LSTM train下去，就可以得到gradient descent algorithm

其實這整個gradient descent algorithm可以看成一個RNN

每個parameter update的step，就像RNN的一個timestamp：RNN每個 timestamp會吃一個一個sequence，Gradient descent 演算法每個timestamp會吃一個batch的data進來算gradient
每個timestamp輸出的參數$\theta$可以看作是RNN的memory，下一個timestamp拿出來用

Review RNN

這部分可以參考RNN筆記

有一個function $f$ 輸入h, x 輸出 h', y：$f(h,x)=h',y$

每一個timestamp都有一個x作為input，舉例來說一個sequence、一個詞彙等等