Skip to content

즉각적인 보상 term에 관련하여 #147

@yanagi7393

Description

@yanagi7393

안녕하세요, 책 유익하게 읽었습니다. 즉각적인 보상term에 관련하여 질문이 있어 issue에 게재합니다.
r = memory_reward[-1] - reward로 정의가 되어있는데,
episode 마지막시점에서의 PL - 현재시점에서의 PL로서 정의가 되어있는데, 이 경우에 즉각적인 보상이 아니라, r이 현재시점으로부터 미래의 행동에 대해 받는 미래의보상으로 정의가 되어있는것이 아닌지 의문이 들어 질문드립니다.
괜찮으시다면 이렇게 정의하신 연유를 여쭈어도 될까요?

또한, 즉각적인 보상term에 관련하여 r = 이전시점pl - 행동에 대해 변화된 현재시점pl 으로서 정의하는것에대해 혹여나 의견을 받을 수 있으면 정말 감사할 것 같습니다.

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions