慕鸢 (@user792)AI red teamer (人工智能红队)系列14- 人工智能基础 – SARSA算法 中发帖

AI red teamer (人工智能红队)系列14- 人工智能基础 - SARSA算法
SARSA算法 是机器学习领域的一种强化学习算法,得名于“状态-动作-奖励-状态-动作”(S tate–A ction–R eward–S tate–A ction)的英文首字母缩写。
[SARSA GridWorld: 5x5 grid with blue start at (0,0), orange goal at (4,4), black blocked cells at (1,2) and (3,2), green best path from start to goal.]
SARSA 是一种无模型强化学习 算法,它通过直接的环境交互来学习最优策略。Q-learning 根据下一状态的最大 Q 值 更新其 Q 值 ,而 SARSA 则根据下一状态的 Q 值 和在该状态下采取的实际行动更...