Reinforcment Learning - State Action Reward

State Action dan Reward adalah istilah yang digunakan pada Reinforcement Learning.

Untuk entitas yang melakukan proses belajar disebut Agent. Agent berinteraksi dengan Environment, disebut Action. Dan berdasarkan Action, Environment akan memberi respon berupa State dan Reward. Berikut diagram hubungan Agent dan Environment.



Proses Interaksi Agent dan Environment
Agent menerima Environment State (S0)
Berdasarkan obersevasi, Agent akan memilih sebuah Action (A0)
Konsekuensi dari piihan agent (A0) dan State enviroment sebelumnya (S0), Environment akan bertransisi ke state baru, S1 dan memberikan reward (R1).
Agent akan melakukan action baru yaitu A1.
Pada timestep berikutnya, proses akan berlanjut dimana environment memberikan reward (R2) dan state (S2), kemudian agent akan merespon dengan action (A2). Dan selanjutnya.
Interaksi menunjukan sequence dari States, Actions dan Rewards.

Tujuan dari agent adalah untuk memaksimumkan expected cumulative reward. Agent akan mencari strategi untuk memilih acation dengan cumulative reward yang tinggi.

Agent dapat mencapai ini hanya dengan berinteraksi dengan environment, karena environment menentukan berapa besar reward yang akan diperoleh agent. Dengan kata lain, agent harus bermain dengan aturan yang diberikan environment. Melalui interaksi, agent dapat memahami rules terebut dan dapat memilih actions yang tepat untuk mencapai goal.

Dan semuanya dapat dirumuskan dalam model matematis, dan dapat digunakan untuk menyelesaikan masalah di dunia nyata.
Reinforcment Learning - State Action Reward Reinforcment Learning - State Action Reward Reviewed by noname needed on July 16, 2019 Rating: 5

No comments:

Powered by Blogger.