2025年9月25日,三星电子正式发布革命性的人工智能测评工具——可信真实场景使用评估基准(TRUEBench)。这一创新性产品的推出,展现了三星在智能手机AI技术快速迭代布局中的又一里程碑。自全面引入人工智能功能以来,三星始终坚持每半年对AI技术方案进行一次系统性升级。
这款由三星研究院精心打造的基准测试工具,旨在突破现有AI评估体系的种种限制。官方指出,当前主流测评方法普遍存在语言局限性、过度依赖英语测试数据等短板,且测试场景往往仅限于单回合问答模式,难以真实反映AI在日常使用中的实际表现。
TRUEBench的开发凝聚了三星在企业级AI应用领域的丰富案例经验,重点针对10大类高频商务场景进行优化。测试内容横跨创意生成、数据洞察、文档精要和多语言转换等核心应用维度。评测系统包含2485组专业样本,构建起覆盖10个主类目、46个子类目的完整体系,更支持12种全球主流语言测试,为多语言环境下的AI表现提供客观评估。
测试任务设计充分考虑现实场景的复杂性,输入长度从简短指令到20000余字的专业文档不等,能精准评估AI模型在各类实际任务中的表现差异。为确保评测公正性,TRUEBench采用自主研发的人机协同评分系统,通过优化算法与专家评审相结合的方式,建立起业内领先的可靠性评估机制。
目前,该基准测试的完整数据集及实时性能排行已在Hugging Face平台开源发布。开发者可同时对比测试最多五种AI模型,全面考察其在生产效能方面的综合表现。
三星电子DX部门首席技术官Paul(Kyungwhoon)Cheun强调,凭借在真实商用场景积累的丰富AI部署经验,三星研究院已构建起独特的技术优势。他期待TRUEBench能发展成为衡量生产型AI系统的黄金标准,进一步巩固三星在智能科技领域的领导地位。
