输入一个热词,快速查看术语含义、常见场景和相关概念。
集中展示常见热词解释,方便按概念和场景继续浏览。
安全对齐是指通过技术手段确保AI系统的行为、输出与人类的意图、价值观、伦理规范保持一致,避免生成有害、偏见或危险内容。它主要通过RLHF(基于人类反馈的强化学习)、规则约束、红队测试等方法实现,是大模型从实验室走向实际应用前的关键安全步骤。
近期常被查询的 AI 概念。