首页 游戏 软件 资讯 排行榜 专题
首页
业界动态
One-Eval - 北大开源的自动化大模型评测框架

One-Eval - 北大开源的自动化大模型评测框架

热心网友
77
转载
2026-04-29

One-Eval是什么

想快速、准确地评估一个大模型的能力,但又被繁琐的数据准备、脚本编写和结果分析搞得头疼?或许,你可以了解一下One-Eval。这个由北京大学OpenDCAI团队开源的项目,本质上是一个自动化、Agent驱动的评测框架。它的核心卖点,用一个词概括就是“NL2Eval”——你只需用最自然的语言描述评测目标,剩下的,交给它就好。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

从基准推荐、数据下载,到模型推理、答案评分,再到最终的多维度报告生成,整个链条一气呵成。它基于DataFlow与LangGraph构建,目标就是实现从需求到报告的全链路自动化,把开发者从重复劳动中解放出来。

One-Eval的主要功能

  • NL2Eval 智能解析:这可以说是它的“大脑”。你输入一句“帮我测测这个模型的数学推理能力”,背后的Agent就能理解你的意图,并自动规划出完整的评测路径。
  • Bench Gallery 基准库:框架内置了一个丰富的基准库,像GSM8K、MATH、MMLU、C-Eval、IFEval、HumanEval这些主流评测集,其元信息都已管理妥当,随时待命。
  • 端到端自动执行:这是承诺的落地。一句话触发后,系统会自动串联起数据下载、模型调用、答案评分、统计分析所有环节,最终呈上一份完整的报告。
  • 人机协同干预:自动化不等于黑盒。你可以在关键节点中断流程,审查中间结果,甚至编辑调整后再重跑,实现了自动化与可控性的平衡。
  • 异构数据统一接口:不同数据集格式千差万别怎么办?其底层的DataFlow引擎负责将它们标准化,提供统一的接入和转换接口。

One-Eval的技术原理

  • Agent 图编排架构:整个评测流程被抽象成一个状态机工作流,基于LangGraph构建。简单来说,它把复杂任务拆解为“自然语言转基准推荐”、“基准解析与准备”、“指标匹配与报告生成”三大清晰阶段。
  • DataFlow 算子系统:所有脏活累活由它承包。这个底层引擎负责处理数据准备和流式计算,正是它实现了对不同格式数据集的统一接入与高效转换。
  • Local-first + HuggingFace 双源解析:系统很聪明,会优先加载本地预置的配置。如果本地没有,它会自动调用HuggingFace的工具去搜索、下载,并把数据集信息结构化,补充进自己的知识库。
  • 可追踪状态管理:评测过程步步留痕。每一步的执行状态都会被持久化,这意味着支持断点恢复、回溯重跑,甚至对失败案例进行专门分析。

如何使用One-Eval

  • 环境准备:首先,用Conda或uv创建一个干净的Python虚拟环境,然后通过pip install -e .安装所有项目依赖。
  • 启动后端:运行uvicorn one_eval.server.app:app --host 0.0.0.0 --port 8000命令,启动核心的FastAPI服务。
  • 启动前端:进入one-eval-web目录,依次执行npm install && npm run dev。完成后,在浏览器访问localhost:5173即可看到操作界面。
  • 配置参数:在Web界面中,需要配置几个关键参数:调用模型所需的API Key、目标模型信息以及用于下载数据的HuggingFace Token。保存后,就可以开始交互式评测了。
  • 发起评测:在输入框里,直接用自然语言写下你的需求,比如“评测一下这个模型在数学推理任务上的表现”。点击执行,Agent便会自动工作并生成报告。
  • 开发者模式:如果你更喜欢命令行,可以直接运行python -m one_eval.graph.workflow_all "评测目标"来触发完整的工作流。

One-Eval的关键信息和使用要求

  • 开发团队:来自北京大学OpenDCAI实验室,背景扎实。
  • 开源协议:项目完全开源,代码托管于GitHub,可以直接获取、研究和复用。
  • 技术栈:后端基于Python 3.11和FastAPI,前端采用React + Vite构建。核心工作流依赖LangGraph进行图编排,底层数据处理则由DataFlow算子系统驱动。
  • 支持模型:兼容性很广,只要模型服务提供OpenAI标准格式的接口即可接入。这意味着无论是OpenRouter、硅基流动、火山引擎这样的服务商,还是自己用vLLM部署的模型,都能支持。
  • 硬件要求:运行One-Eval框架本身对本地机器配置要求不高,常规开发机即可。真正的计算和Token消耗发生在推理阶段,而这完全取决于你选择调用的外部模型API。
  • 使用门槛:需要提前准备两样东西:一是有效的模型API Key,用于实际调用大模型;二是HuggingFace Token,用于下载和加载部分评测数据集。

One-Eval的核心优势

  • 零脚本评测:最大的亮点。告别手动下载数据集、编写配置文件的时代,用一句话就能发起全链路评测,效率提升显著。
  • 可扩展架构:基于DataFlow算子和LangGraph状态管理的设计,让框架具备了良好的扩展性。你想接入私有数据集或自定义评价指标?流程会清晰很多。
  • 人机闭环:不是一味追求全自动,而是在关键节点保留了人工审查和干预的入口,兼顾了自动化效率与结果可控性。
  • 多维度报告:生成的报告不止一个总分。它会提供详细的分数统计、模型排名对比、典型失败案例分析,甚至给出可操作的建议,洞察力更强。
  • 全链路追踪:整个过程透明、可审计。每个节点的输入、输出和状态变更都有记录,方便回溯问题或复现实验。

One-Eval的项目地址

  • GitHub仓库:https://github.com/OpenDCAI/One-Eval
  • arXiv技术论文:https://arxiv.org/pdf/2603.09821

One-Eval的同类竞品对比

为了更清晰地定位One-Eval,我们将其与业界两个知名的评测框架进行对比:

对比维度 One-Eval OpenCompass EleutherAI LM Harness
开发团队 北京大学 OpenDCAI 实验室 上海人工智能实验室 EleutherAI 社区
核心定位 Agent 驱动、NL2Eval 自动化评测 中文社区主流、配置驱动评测 海外老牌、脚本化评测工具
使用方式 自然语言描述 + Web UI 交互 + 代码调用 YAML 配置文件 + 命令行脚本 Python 脚本 + CLI 命令行
上手门槛 低,一句话即可发起评测 中,需编写配置文件 中,需编写代码与脚本
人机协同 支持,关键节点可中断、审查与干预 不支持,纯自动化执行 不支持,纯自动化执行
前端界面 内置 React + Vite 可视化工作流 有结果展示页面,无交互式前端 无前端界面
中文生态 原生支持 C-Eval、CMMLU 等 极强,中文基准覆盖完善 较弱,需自行配置中文数据集
异构数据支持 DataFlow 算子系统统一接入 较完善 较完善,但配置复杂度较高
Agent/Sandbox 评测 规划中(未来支持 SWE-bench 等) 部分支持 不支持
适用场景 快速选型、工程验收、学术实验 深度定制、大规模批量评测 英文基准研究、代码级灵活定制

One-Eval的应用场景

  • 模型选型初筛:当你需要在多个候选模型中快速做出初步选择时,可以用它一键对比它们在数学、推理、代码、指令遵循等多个维度的表现。
  • 私有化模型验收:对于自己部署或微调后的模型,这是一个进行标准化能力验收和回归测试的便捷工具。
  • 基准调研:通过其内置的Bench Gallery,可以快速检索和了解哪些评测集最适合你想要评估的任务类型。
  • 学术研究:为论文中的实验部分提供一套可复现、每一步都可追踪的自动化评测流水线,增强研究的严谨性。
  • Agent 能力评估:未来,框架计划支持对LLM在工具调用、规划与复杂任务执行(如SWE-bench场景)中的表现进行评测,潜力可观。
来源:https://ai-bot.cn/one-eval/
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

智能问答系统技术方案:构建基于大模型与RAG的企业知识大
业界动态
智能问答系统技术方案:构建基于大模型与RAG的企业知识大

企业智能问答系统:从沉睡的知识到流动的生产力 数字化转型推进到今天,不少企业都陷入了一个熟悉的困境:一边是堆积如山的知识文档,另一边却是员工“找不到、用不上”的无奈。知识被割裂在各个角落,数据在孤岛里沉睡。传统的检索方式,死死依赖着关键词匹配,对于稍微复杂一点的业务意图,就显得力不从心。这种局面,是

热心网友
04.29
token怎么产生的?大模型与网络鉴权底层生成机制解析
业界动态
token怎么产生的?大模型与网络鉴权底层生成机制解析

本文大纲 一、大模型领域:自然语言的词表切分(Tokenization):如何将句子变成可计算模型? 二、大模型领域:BPE算法与字节对编码:统计学视角的切词与数字映射 三、网络安全领域:身份令牌的动态签发(Sign):如何将用户信息加密成凭证? 四、网络安全领域:哈希与防篡改机制:保障服务端信任的

热心网友
04.29
openclaw怎么接入mimov2大模型?OpenCl
业界动态
openclaw怎么接入mimov2大模型?OpenCl

本文大纲 将强大的云端模型与本地执行框架结合,能让电脑真正听懂并执行你的指令。今天,我们就来详细走一遍这个流程,把一个强大的云端“大脑”——小米的MiMo-V2大模型,接入到开源的本地智能体框架OpenClaw中。整个过程可以分解为四个核心步骤: 一、获取小米 MiMo 算力凭证:注册平台并生成专属

热心网友
04.29
多模态大模型业务流程落地:企业下一代IT架构演进与选型指
业界动态
多模态大模型业务流程落地:企业下一代IT架构演进与选型指

眼下,企业数字化转型已步入深水区。一个愈发明显的共识是:单纯依赖过去那套基于规则的自动化技术,已经很难应对海量非结构化数据和复杂跨系统交互的挑战。于是,当大语言模型遇上视觉技术,多模态大模型如何在业务流程中真正落地,就成了众多CIO和IT架构师面前的一道核心考题。问题的关键在哪里?或许是如何在不推倒

热心网友
04.29
TARS大模型重构RPA流程:下一代超自动化架构解析与选
业界动态
TARS大模型重构RPA流程:下一代超自动化架构解析与选

一、宏观架构痛点:传统RPA的“脆性”与维护黑洞 企业数字化转型走到今天,不少CIO开始面临一个棘手的现实:那些曾经立下汗马功劳的传统自动化工具,似乎有点“力不从心”了。业务系统三天两头更新,非结构化数据层出不穷,过去指望固定规则脚本一劳永逸的想法,如今看来更像是一厢情愿。结果呢?一个庞大的自动化资

热心网友
04.29

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

白领丽人职场友谊大忌
礼仪与书信
白领丽人职场友谊大忌

你一直认为自己是个无与伦比的职工 不迟到、不早退、准时完成工作,对单位里的大小文具从不顺手牵羊——这当然是职业素养的基石。不过,衡量工作成绩的优劣,有时并不仅仅看个人表现,与周围环境的协调能力同样是重要的考察维度。一味地严于律己固然好,但若与同事龃龉过多,这些不经意间埋下的“暗礁”,很可能成为阻碍你

热心网友
04.29
Pharos Network主网上线:首条EVM兼容公链引领Web3金融新纪元
web3.0
Pharos Network主网上线:首条EVM兼容公链引领Web3金融新纪元

Pharos Network公共主网正式上线:一条聚焦合规与互操作性的新公链启航 Web3市场的发展一日千里,用户对既高效又合规的金融基础设施的渴求,从未像今天这样迫切。正是在这样的背景下,基于权益证明机制、兼容EVM的第一层区块链——Pharos Network,于今日正式向公众敞开了大门。通过一

热心网友
04.29
职业女性着装全攻略
礼仪与书信
职业女性着装全攻略

基本原则 职业女性的着装,从来不是一件小事。它像一张无声的名片,必须精准地传达出你的个性、体态特征、职位角色,更要与你所处的企业文化、办公环境乃至个人志趣相契合。 这里有个常见的误区:认为展现权威就得向男同事的着装看齐。其实恰恰相反,真正的“女强人”魅力,源于“做女人真好”的自信心态。充分发挥女性特

热心网友
04.29
职场中的中性概念
礼仪与书信
职场中的中性概念

现代社会中,智慧与才华成为职业生涯的决定因素 工业化和高科技的浪潮,正悄然改变着职场的力量格局。一个显著的趋势是,男性的体力优势在众多领域逐渐变得不那么关键,这为女性更广泛、更深入地参与社会财富创造打开了大门。如今在工作中,“人”的属性越来越超越性别属性。那句广为流传的宣言——“没有专门只给男人或者

热心网友
04.29
办公室生存陷阱
礼仪与书信
办公室生存陷阱

在办公室里,同事每天见面的时间最长,谈话可能涉及到工作以外的各种事情,讲错话常常会给你带来不必要的麻烦。同事与同事间的谈话,如何掌握分寸就成了人际沟通中不可忽视的一环。 办公室里最好不要辩论 职场里总有些人,似乎天生就喜欢争论,凡事都要争个高低对错才肯罢休。如果你恰好也具备这种“才华”,那么真心建议

热心网友
04.29