CIO警示招聘AI黑箱风险算法录用逻辑不透明或成隐患

首页

热心网友

转载

2026-05-18

越来越多的企业开始用AI给候选人打分，但真正的问题或许不在于“它准不准”，而在于“它到底在评什么”。如果系统依赖的是语气、表情这类模糊指标，不仅难以解释，还可能放大偏见，带来实实在在的合规风险。

想象一下，在你的招聘流程中，可能正有一个AI系统在默默地为应聘者打分。如果你是负责评估或批准这套系统的管理者，那么有一个问题必须想清楚：一旦有应聘者、内部审计或监管机构对某个评分提出质疑，你的团队能否清晰地解释，这个分数究竟是怎么来的？

答案不能是“供应商说它很准”，也不能是“模型基于历史数据训练”。你需要的是具体、有据可查的解释：评估了哪些标准、应聘者在这些标准上的表现如何，以及为什么这些标准与工作相关。遗憾的是，对于许多正在使用AI视频面试评分工具的企业来说，诚实的答案往往是“不能”。而随着针对就业AI的监管从指导原则转向强制执行，这个“不能”将构成巨大的风险。

系统实际优化的目标是什么

在追问AI评分系统是否准确之前，一个更根本的问题是：它到底在优化什么？

许多视频面试评分平台会评估应聘者的语调、语速、眼神交流、面部表情和流利程度。在某些情况下，这些评估甚至会取代对应聘者回答内容的分析。其背后的假设是，这些行为信号与工作表现或文化契合度相关。然而，支撑这一假设的证据相当薄弱。相反，有更有力的证据表明，测量这些信号会引入系统性的、甚至具有法律意义的偏见。

事实上，该领域几家主要企业已经在监管压力和公众监督下，移除了面部表情分析功能。这一举动本身就是一个承认：那些曾被宣传为客观的标准，既不可靠，也不公平。这引出了一个更尖锐的问题：如果这些标准已经投入使用，并且直到外部压力出现才被发现有问题，那么还有哪些本不该被测量的东西，至今仍在被测量？

这绝非危言耸听。美国平等就业机会委员会已明确表示，根据《民权法案》第七章，雇主需对AI招聘工具产生的歧视性结果负责，无论工具是自研还是采购。纽约市《第144号地方法》则要求对自动化就业决策工具进行年度独立偏见审计，并公开披露结果。伊利诺伊州规定，使用AI分析视频面试前必须通知应聘者并获得同意。而将于今年8月全面生效的欧盟《AI法案》，更是直接将就业AI归类为“高风险”系统，对其透明度、可解释性和人工监督提出了强制性要求。

所有这些监管动向的共同点是什么？那就是：你必须能够解释AI在测量什么，并且能够证明它测量的是正确的东西。

高管层面的问责问题

对于技术管理者而言，问题到这里就变得非常具体了。

设想这样一个场景：招聘决策受到了应聘者、内部审计或监管机构的质疑。核心问题是决策是如何做出的。此时，“AI给他打了低分”在任何情况下都不是一个站得住脚的回答。它无法追溯到具体、与工作相关的标准，无法向应聘者解释，也无法满足审计员的要求。更棘手的是，如果系统的逻辑是专有且不透明的“黑箱”，那么即使企业想解释，也根本无从下手。

采用这类“黑箱”工具的企业，初衷往往是好的：减少人为偏见，创造更一致的流程。这些目标本身合理。但问题在于，一个内部逻辑无法被质疑、解释或审计的系统，只会掩盖偏见，而非消除它。当偏见变得难以察觉时，要解决它反而更加困难。

这其实是一种熟悉的模式。当一个系统产生的结果看似合理，却隐藏着不易察觉的错误时，这种失败会不断累积。而事后补救的成本，几乎总是远高于一开始就把它做对的成本。

可辩护架构的样子

用AI给面试评分，与以可解释、可辩护的方式用AI评分，两者之间存在显著差异。这种差异是结构性的。

一套可辩护的评分系统，在应聘者开始录制回答之前就已经启动了。它始于工作本身：这个职位到底需要哪些核心能力？针对每一种能力，表现优异的具体标准又是什么？基于这些答案，制定出明确的评分标准，清晰描述在每个评估维度上，高质量、合格以及薄弱回答分别是什么样子。在评分开始前，招聘团队需要审查并批准这些标准。

当收到应聘者的回答后，AI评估的是回答的实际内容，而非语调、语速或面部表情。评估的依据，正是招聘团队事先设定并可解释的那些标准。依据标准得出的各维度评分，再汇总为整体评估。最重要的是，这个过程的每一个环节都应该是可见且可审计的。

这种架构还有一个关键优势：它确保了人类始终切实参与其中。AI可以从职位描述中识别相关能力并起草评分标准初稿，但最终的标准必须由负责招聘的人员来制定和确认。如果招聘经理无法查看评分标准，并解释评估内容和原因，那么这个标准就不应该被部署。这不是给工具增加负担，而是负责任地使用它的最低条件。

治理对话中的四个问题

对于正在评估或监督AI视频面试工具的管理者来说，有四个问题几乎涵盖了所有关键考量：

• 系统具体在评估什么？要求供应商提供明确的评估标准清单。如果答案中包含了应聘者回答内容之外的任何指标（如表情、语调），就必须要求对方提供将这些指标与工作表现结果关联起来的验证数据。

• 评估标准是否源自职位要求？一套统一适用于所有职位的通用评分标准，创造的只是标准化评估，而非结构化评估。这两者截然不同。合理的评分必须始于特定职位所需的特定能力。

• 在开始评分之前，评估标准是否可以审查、修改和批准？如果评分标准是固定且不透明的，那么企业就等于放弃了对自身评估标准的控制权，这是一个巨大的治理漏洞。

• 能否向应聘者或监管机构解释任何一个评分？这是最终的问责测试。如果解释需要依赖“因为AI是这么说的”，而不是指向具体、有记录的标准以及应聘者在这些标准上的表现，那么整个过程将无法经受任何审查。

设计良好的系统会直接、清晰地回答这些问题。而无法回答的系统，则恰恰暴露了其创建者在设计时所做的取舍。

为何此刻至关重要

欧盟《AI法案》的生效日期定在八月，这迫使有全球业务或在欧盟有应聘者的企业必须立即评估自身技术。但正确处理这个问题，远不止是为了合规。

当招聘团队能够确切知道评分是如何产生的时候，他们才会信任并使用它。当他们无法理解时，就会选择覆盖或绕过它，所谓的效率提升也就荡然无存。能够在企业招聘流程中持久发挥作用的工具，必然是那些决策过程足够透明，以至于负责决策的人愿意信任它的工具。

这其实不是一个很高的标准，但它要求你必须精确地了解：你用的AI系统，究竟在测量什么？并且，你必须诚实地面对：这真的是你想测量的东西吗？

来源:https://www.51cto.com/article/841510.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：1500万参数模型实现物理交互具身智能迎来新突破下一篇：Excel多条件平均值计算一句话快速完成