Penjelasan Reward pada Reinforcement Learning

Reward pada reinforcement learning akan berusaha dicapai setinggi mungkin oleh agent. Karena framework dari RL sendiri mengharuskan Agent untuk mencapai maximum cumulative reward.

Tetapi apa yang dimaksud dengan reward? Misalnya dalam konteks robot yang belajar berjalan.

Agar lebih jelas, akan kita bahas research dari Google yaitu Google DeepMind, sebuah riset untuk melatih robot humanoid berjalan. Mari kita bahas dari actions, environment hingga reward pada riset ini.

Actions, action pada robot adalah gaya yang terjadi pada persendian saat robot berjalan. Robot dapat menentukan seberapa besar gaya setiap satuan waktu agar bisa berjalan maju.

States, Pada kasus ini, states pada satuan waktu tertentu adalah

Posisi dan kecepatan dari persendian.
Perhitungan tentang kondisi tanah, apakah datar, menanjak atau menurun atau lainnya.
Peneliti dari Google DeepMind juga menambahkan sensor untuk mengetahui apakah robot masih dalam kondisi berjalan atau sudah jatuh.

Jadi berdasarkan informasi dari states, agent harus menentukan action, jika jalan menanjak tentu diperlukan jenis gerakan yang berbeda dengan jalan datar.

Reward, Reward ditentukan dalam model matematika (dapat dilihat pada Google DeepMind paper bagian apendix).

Forumula ini menunjukan reward yang dapat diperoleh dalam setiap satuan waktu ketika action dilakukan.

Jika robot berjalan maju dengan cepat, dan tetap lurus, tidak keluar dari track, tidak menggunakan gaya yang besar, dan tentu saja tidak jatuh, maka robot akan mendapatkan reward yang besar.

Dari formula reward diatas, agent tidak dapat memilih untuk fokus pada aturan tertentu saja, misal hanya fokus berjalan cepat kedepan, atau berjalan maju tapi tidak usah cepat, atau jalan selama mungkin tanpa jatuh tanpa memperdulikan kecepatan.

Setiap komponen dari formula diatas harus seimbang untuk mendapatkan maximum cumulative reward.

Maximum Cumulative Reward

Seperti yang sudah disebutkan sebelumnya, agent harus mencapai maximum cumulative reward. Agar bisa tercapai, agent tidak bisa hanya fokus pada current timestep, tetapi harus memperhatikan juga dengan all timestep.

Action akan memiliki konsekuensi jangka pendek dan jangka panjang, dan agent harus mendapatkan pemahaman akan efek dari action tersebut. Hal ini dapat diformulasikan seperti berikut.