输入一个热词,快速查看术语含义、常见场景和相关概念。
集中展示常见热词解释,方便按概念和场景继续浏览。
SWE-bench是一个专门评估大语言模型(LLM)解决真实软件工程任务能力的基准测试,它要求模型读取GitHub Issue,理解代码库,并生成可合并的补丁。相比传统代码生成题目,它更贴近程序员日常工作,正在成为衡量AI编程助手真实水平的关键指标。
近期常被查询的 AI 概念。