Reinforcement Learning

Tom_

Hi,

hat sich schon mal jemand von euch mit Reinforcement Learning beschäftigt. Mir stellt sich nämlich gerade eine Frage zu diesem Thema

Und zwar geht es um folgende Ausführung der Bellman Gleichung (3.10):
http://www.univ.kiev.ua/~yawd/books/AI/3/node8.html

Was soll dieses \sum_{a} \pi(s,a) bedeuten bzw. welchen Wert liefert \pi(s,a)!?

Vielen Dank, Thomas.

Plantschkuh!

Zweiter Absatz: "the probability pi(s,a) of taking action a when in state s".

Tom_

Uh -- wie konnte ich überlesen, dass das explizit drinnen steht :cool:
Naja, war eigentlich auch relativ naheliegen --- aber so ausgelegt war und ist mir der Unterschied zur transision properbility (Pss') nicht klar....

LG, Tom.

stormcrow

also \pi(s,a) gibt an mit welcher wahrscheinlichkeit die aktion a im state s ausgefuehrt wird. P(ss') gibt an mit welcher wahrscheinlichkeit du vom state s in den state s' kommst.

Tom_

hehe - danke!

Reinforcement Learning

Jetzt mitmachen!

Benutzer online in diesem Thema