输入一个热词,快速查看术语含义、常见场景和相关概念。
集中展示常见热词解释,方便按概念和场景继续浏览。
GRPO(Group Relative Policy Optimization)是一种用于训练大语言模型的强化学习算法,通过对比同一问题下多个回答的相对优劣来更新策略,无需依赖独立的评论模型,显著降低算力消耗。它被用于 DeepSeek-R1 等推理模型,是当前开源社区关注的热点。
近期常被查询的 AI 概念。