慕鸢 (@user792) 在 AI red teamer (人工智能红队)系列13 - 人工智能基础 - Q学习算法 中发帖
AI red teamer (人工智能红队)系列13 - 人工智能基础 - Q学习算法
Q-学习(英语:Q-learning)
Q-learning 是一种无模型的强化学习算法,它通过估计 Q 值来学习最优策略。Q 值代表一个智能体在给定状态下采取特定行动并在之后遵循最优策略所能获得的预期累积奖励。之所以称其为 “无模型”,是因为智能体在学习时不需要先验的环境模型;它直接通过试错、与环境互动和观察结果来学习。
想象一下,一辆自动驾驶汽车正在学习如何在城市中导航。开始时,它对道路、交通信号灯或人行横道一无所知。通过 Q-learning,汽车在城市中探索,采取各种行动(加速、刹车、转弯),并获得奖励(快速安全到达目的地)或惩罚(碰撞或违反交通规则)。随着时间的推移,汽车会逐渐了解在不同情况下哪些操作会带来更高的奖励,最终掌握在该城市驾驶的技巧。
Q-Table
Q-learning 的核...