強化學習的簡介及其應用情境與高效訓練法

強化學習（Reinforcement Learning, RL）屬於機器學習中的一個領域，探討智能體（agent）應如何基於環境（environment）而決定所該採取的行動（action），以取得最大化的獎勵（reward）。為了找出一個能獲得最多獎勵的最佳化策略（policy），智能體必須沙盤推演於採取不同行動策略下，所獲得不同的獎勵值，並揀選能於環境所具有的狀態（state）中獲得最大獎勵的行動策略來訓練（training）出神經網路中的權重（weight）。往後於推論（inference）的過程中，便能藉此權重來決定於所身處的環境狀態中應採取何種行動，方可獲得最大化的獎勵。然而一切冗長的訓練過程並非一定得要在現實世界中執行，可以藉由強大的電腦設備將現實世界中長時間的訓練過程，壓縮於模擬環境中高速進行運作。因此在訓練的過程中，外表似乎看似平靜的智能體，內心深處實則早已波濤洶湧。