AI助手不了解自身仪器会怎样

时间：2026-07-02 10:18

2026年6月，一篇编号为arXiv:2606 26519的预印本论文，向整个脑电图领域提出了一个看似简单、实则棘手的问题：当AI成为科学仪器的“嘴替”，它怎么知道自己能说什么、不能说什么？想象一下这个场景：你拿着只有后置摄像头的手机，问AI助手如何优化自拍照片的光线。AI并不清楚硬件配置，于是煞有

2026年6月，一篇编号为arXiv:2606.26519的预印本论文，向整个脑电图领域提出了一个看似简单、实则棘手的问题：当AI成为科学仪器的“嘴替”，它怎么知道自己能说什么、不能说什么？

想象一下这个场景：你拿着只有后置摄像头的手机，问AI助手如何优化自拍照片的光线。AI并不清楚硬件配置，于是煞有介事地分析了一通，全是纸上谈兵。这不是笑话，而是上海脉元智能科技有限公司（NeuraDock）团队在做脑电图（EEG）设备时遇到的真实困境。

脑电图技术并不神秘——在头皮上贴几个传感器，记录微弱的电信号，就能研究大脑活动。它对于分析注意力、疲劳程度、视觉处理等非常有价值。但传统脑电设备又贵又难用，需要专业人士操作。NeuraDock开发的轻量级干电极脑电图设备只有七个传感器，本意是降低门槛，让更多研究者和开发者用得上。

麻烦随之而来：他们想让大语言模型（类似ChatGPT）帮用户理解设备、分析数据，结果发现AI会“越界”——在设备实际能力范围之外夸夸其谈。AI确实对脑电图领域“懂很多”，但它不知道这台设备只有七个传感器、只放在头部后方，也不知道当前软件实现了什么功能，更不清楚某个分析结果能支持什么、不能支持什么。于是，它就像一个不知道手机没有前置摄像头的助手，说着听起来很专业、实际上完全不对的话。

为此，NeuraDock团队设计了一套名为“NeuraDock Agent”的系统架构，并进行了一系列严格的评测。最终，他们想向行业展示一个核心命题：如何在科学仪器辅助领域，让AI既有用、又不瞎说。

一、这台脑电仪到底能看到什么，AI凭什么说它懂

要理解这套系统，得先摸清这台设备的能力边界——它能做什么、不能做什么，是后续所有设计的起点。

NeuraDock的七个传感器严格排列，分别是CP5、CP6、PO3、PO4、O1、Oz、O2。对于不熟悉脑电图的人来说，这些字母和数字就是电极在头皮上的坐标：CP5和CP6在大致头顶偏后两侧，PO3和PO4更靠后，O1、Oz、O2则集中在后脑勺枕部。这意味着什么呢？这台设备只能捕捉到大脑后部的电活动，那里主要负责视觉信息处理。

这是一个关键的物理限制。大脑前额叶管情绪和决策，颞叶管语言和听觉，而这七个传感器完全没覆盖这些区域。如果有人问“这台设备能分析情绪倾向吗”，正确答案是“不能，因为情绪相关的额叶根本不在传感器覆盖范围内”。但一个不了解设备布局的AI，完全可能滔滔不绝地给出看起来很专业的情绪分析——那些建议从物理上就站不住脚。

设备以每秒250个采样点记录信号，单位是微伏（一微伏是一伏特的百万分之一，脑电信号极其微弱）。系统内置了信号质量检测规则：如果某个一秒片段里，49到51赫兹的干扰功率超过10，或者信号幅度超过100微伏，或者超过两个采样点越过阈值，这个片段就会被标记为有问题并排除。这些数值都是工程上审查过的具体参数，不是随口说的，更不是AI能自行“发明”的。

明白了设备的物理限制，才能理解为什么团队要花大力气建立“边界意识”——让AI清楚地知道自己感知的边界在哪里。

二、AI在科学仪器领域的四种“越界”方式

NeuraDock团队把AI可能犯的错误归为四类，每类对应一种不同性质的边界。就像一个厨师可能在四个层面上犯错：误判了厨房有哪些锅具、以为某道菜谱已经开发好了其实没有、误读了菜谱的具体步骤、或者过度宣称某道菜能治病。

第一种是“物理边界”错误。AI搞不清楚设备的传感器能感知什么。比如有人问能不能做额叶阿尔法不对称情绪识别，但传感器根本不在额叶——这个请求从物理上就无法完成。不了解设备布局的AI可能不知道这个限制，给出错误的肯定答复。

第二种是“实现边界”错误。AI搞不清楚当前软件里实现了哪些功能。脑电图有很多理论可行的分析方法，但不是每种都在当前版本软件里实现。比如独立成分分析（一种去除眼动干扰的技术）和稳态视觉诱发电位分类器理论上可以做，但当前版本里根本没有写代码。AI如果不知道，就会告诉用户“运行这个命令就能做到”，结果用户根本找不到这个命令。

第三种是“结果边界”错误。AI搞不清楚某个计算结果字段的真实含义。举个例子，系统会给出一个“视觉认知负荷”分类（低、中、高），但这个分类是在当次录制内部相对比较得出的百分位排名，不能拿来和另一个人比谁的负荷更高。分类在一次录制内部有意义，跨录制则没有可比性。

第四种是“科学边界”错误，这是最难把握的。即便前三种边界都没越过，AI也可能在科学推断上走得太远。比如信号质量检查通过了，不等于可以说“这个人当时非常专注”；后脑枕区的阿尔法波不对称，不等于和情绪相关的额叶阿尔法不对称是一回事。观察到现象，和现象证明了某个结论，是两码事。

这四种边界相互关联但不能互相替代——这正是问题的复杂所在。

三、系统的核心设计：让AI只接触“精简版摘要”

理解了这四种边界，就明白了NeuraDock Agent的核心设计思想：把数学计算和语言表达彻底分开，让AI永远只看到经过严格筛选的摘要信息，而不是原始数据。

系统分成两个隔离的部分。左边是本地确定性科学核心，负责所有真正的计算：解析录制文件、执行质量检查、运行审查过的分析流程、生成结果文件和图表。这部分完全在用户电脑上运行，是数值真相的唯一来源。AI无法修改计算逻辑，无法更改滤波器参数，无法改写统计方法。

右边是语言层，也就是大模型。但AI看到的不是原始脑电数据，而是经过“白名单”严格筛选的精简摘要。团队专门定义了每种分析流程允许传递给AI的字段清单。以视觉认知负荷工作流为例，允许传递的内容包括：状态和警告标志、质量对象（信号保留率、被排除的片段数量、坏道候选等）、分析用的通道名称、阿尔法频段范围、窗口参数、分类元数据、窗口计数、各类别的计数和比例、早期和晚期的趋势汇总、前二十个时间段标签，以及解释限制说明。

与此同时，以下内容被明确排除在外：原始采样数据、每个试次的信号、完整的功率谱密度数组、完整的窗口记录数组、本地文件路径。团队还在摘要里设置了标志位，明确声明“raw_eeg_included=false”，方便审计时快速确认。

为了验证边界真正起作用，团队做了实验：让系统分析一段包含649040个脑电采样值的录制文件，然后抓取实际发送给AI的请求内容，检查里面有没有原始数据。结果显示，原始录制文件大小为8145499字节，而发给AI规划模块的请求只有10612字节，发给AI解释模块的请求是23295字节。团队还从原始录制中随机取样140个数值作为“探针”，确认这140个数值在发出的请求里完全不存在，文件路径也不在请求里，任何密集数组的键名都没有出现。这从实验角度证明，边界在应用层面上确实起到了作用。

四、万一AI服务崩了，本地计算结果会不会丢失

系统设计的另一个重要原则是：语言层是可选的附加服务，绝对不能影响本地计算结果的完整性。这个原则听起来简单，实现起来需要仔细的系统设计。

团队专门做了一组故障注入实验来验证。他们依次模拟了三种AI服务失败场景：HTTP 400错误（服务器拒绝请求）、输出格式错误（AI返回了无法解析的内容）、连接被拒绝（根本连不上AI服务）。在这三种情况下，系统都会继续保存本地的结果文件results.json、分析报告report.md、运行追踪记录agent_trace.json，以及标记了“解释失败”状态的说明文件。

换句话说，AI能正常工作时负责解释结果、回答问题、提供建议；AI挂掉时，用户的数据分析结果仍然完整，完全不受影响，只是少了自然语言解释这个附加功能。科学计算的正确性和语言服务的可用性，是两个独立的事情，互不干扰。

这个设计选择背后还有隐私考量：脑电图数据可能包含个人隐私。已有研究证明，脑信号在某些情况下可以用于用户身份验证，也可能在特定刺激设计下泄露私人信息。减少发送给外部AI服务的数据量，是一种应用层面的隐私保护措施。不过团队也明确指出，这只是应用端的数据暴露减少，不等于符合HIPAA或GDPR等法规要求。真正的合规需要部署层面的合同、访问控制、数据保留策略等一整套机制，远超应用层设计的范围。

五、系统实际能做哪些分析，每种分析有什么限制

知道了边界在哪里，还得知道边界里面有什么。当前版本的NeuraDock Agent包含六种经过审查的分析流程，每种都有明确的输入要求和输出限制。

信号质量分析是最基础的流程，负责检查录制文件的完整性，输出每个时间片段的质量评分、问题类型统计、空间分布警告，以及质量通过后的干净数据文件。这个流程是其他所有分析的前提——如果信号质量很差，后续分析的结果就需要谨慎对待。

功率谱密度和频段功率分析是一种传感器层面的频率描述工具，能告诉你各个频段（从低频的δ波到高频的γ波）的相对能量，以及枕区阿尔法波的峰值频率。这里的关键限制是：这是传感器层面的描述，不是皮层源定位。你可以说“枕区8到13赫兹的功率比较高”，但不能说“大脑视觉皮层V1区的阿尔法活动增强了”，因为从头皮传感器到具体皮层区域的推断需要完全不同的数学工具，当前软件里没有实现。

视觉认知负荷分析是最复杂也最需要理解其限制的流程。它的工作原理是把录制分成四秒一个的窗口（每次前进一秒），每个窗口里计算三个特征：后枕区O1、O2、Oz、PO3、PO4五个通道的平均阿尔法功率（取对数）、阿尔法峰值频率，以及左右两侧的不对称性（右侧减左侧除以总和）。然后用这三个特征合成一个分数，权重分别是0.65、0.15、0.20，其中阿尔法功率占了大头——研究普遍发现执行视觉任务时阿尔法功率会下降。得分越高表示相对负荷越高，最后按照分数的三等分位点把所有有效窗口分成低、中、高三类。

这里有一个极易被忽视的限制：这个分类是在同一次录制内部的相对排名，不是绝对量表。团队在论文里特别强调，三类窗口的数量几乎相等，不是因为大脑恰好有三种清晰的认知状态，而是因为分类算法本身就是按三等分位点来切割的，数学上必然产生接近均等的分组。把这个结果解读为“三种外部验证的认知状态”是错误的。更不能用这个结果来诊断视觉疲劳、注意力障碍或任何临床状况。

Rest/Task对比分析是一个成对比较工具。给定同一个人在休息状态和任务状态下的两段录制，比较枕区对数阿尔法功率、峰值频率、不对称性以及信号保留率的差异。这个流程支持的说法是“任务状态下的枕区阿尔法中位数比休息状态低”，不支持的说法是“这个人在任务中更专注”或者“这个效应会出现在所有人身上”。

设备诊断流程是一个短时TCP数据流抓取和诊断工具，检查数据包和时间戳，产生可重现的文字报告，主要用于确认硬件连接和数据传输是否正常。演示流程则是一个完全无需真实硬件的合成数据演示，用于开发者在没有设备的情况下测试软件功能，它产生的结果不代表任何真实的人类脑电数据。

2026年6月24日的公开发布版本还新增了一个阿尔法动态分析工作流，专门分析强/弱后枕阿尔法周期、阿尔法抑制、峰值频率和后枕不对称性，同时新增了本地实时API接口和浏览器仪表盘，支持应用层的质量门控交互。发布版还包含三个应用示例：视觉搜索、自适应车载人机交互和认知负荷游戏。这三个示例都遵循同一个核心规则：只有当质量状态通过时，应用才能进行适应性调整；如果质量不通过，应用应该保持当前状态并显示质量警告。

六、重要的反面结果：哪些东西系统检测不到

科学研究里，知道什么不能做，有时候和知道什么能做同样重要，甚至更重要。NeuraDock团队在论文里没有回避这台设备质量检测系统的局限性，而是用一组控制实验把局限性量化出来。

实验使用合成生成的20秒七通道信号，在PO3通道的一个固定一秒目标片段里注入四种不同类型的干扰，每种干扰做20次重复，评估检测的一致性。

对于50赫兹的工频干扰（电源线泄漏的电磁干扰），5微伏幅度时完全检测不到，10微伏及以上时100%检测到——被检测到的片段会被排除，同时整体录制的平均样本保留率约为95%。30赫兹的高频干扰也呈现类似的阈值特征。高幅度脉冲（就像电极突然抖动产生的短暂大幅波动）即使只有一个，也能被检测到。不过团队提醒，滤波处理可以把一个尖锐的脉冲扩散到相邻的多个采样点，所以“注入了一个脉冲”不等于“只有一个采样点超过阈值”。

最重要的反面结果来自平线测试：当一个通道的信号完全变成了直线（从1秒到15秒不等），当前的质量检测流程完全没有检测到这种情况。这是一个明确的缺陷：当前用的一秒片段质量检测器没有针对低方差或平线的显式指标，而录制层面的空间一致性检查也没能捕捉到这个问题。团队在论文里明确表示，“该系统能完整检测所有伪迹”这种说法不成立——平线这种故障模式就不在当前的检测能力之内，需要在未来版本中专门添加。

七、边界意识基准测试：36道题、四种条件、两个模型

最能直接回答“给AI提供设备特定的上下文信息有没有用”这个问题的，是团队设计的边界意识基准测试。这组测试就像一场考试，专门考察AI在被问到各种请求时，能不能准确判断：这个请求该支持吗？有条件支持？不支持？还是当前未实现？

测试包含36个预先设计的案例，均匀分布在六个类别里：传感器能观测什么、软件实现了什么、结果字段的含义是什么、质量问题如何诊断、科学推断的边界在哪里，以及工作流怎么集成。36个案例里大约有9个应该回答“可以支持”，8个“有条件支持”，9个“不支持”，10个“当前未实现”。其中有些案例是正常合理请求，有些是特意设计的对抗性问题——比如引用不存在的字段名、声称某个通道是参考通道（实际上不是），或者要求做超出科学证据支持范围的结论。

每个案例在四种不同的上下文条件下各测试一次。第一种是通用条件，只给AI一个“你是脑电图助手”的通用指令，完全没有NeuraDock相关的具体信息；第二种是硬件条件，只提供七通道设备的正式硬件规格文档；第三种是硬件加实现条件，在硬件文档基础上再加上工作流目录、结果字段说明和实现模块映射；第四种是完整上下文，在前者基础上再加上系统政策、科学边界说明和审查过的参考案例。两个AI模型（qwen3.7-max和kimi-k2.6）分别在这四种条件下各回答一次，共产生288个输出。

每个输出需要遵循结构化JSON格式，包含决策类型、约束来源标签、答案文本、证据说明和替代建议。主要评分指标是四分类决策的精确率，次要指标包括必要事实的覆盖率、接受了不该接受的请求的比例、拒绝了本来可以支持的请求的比例，以及一个严格的“安全回应”综合指标（要求同时满足：决策精确、覆盖三分之二以上必要事实、没有错误断言）。

结果显示，汇总四分类决策精确率从通用条件的58.3%逐步提升到硬件条件的70.8%、硬件加实现条件的76.4%，最终到完整上下文的79.2%。这是一个单调递增的关系，表明每层上下文信息都有独立的贡献。

更值得关注的是可行请求的拒绝率变化。通用条件下，AI在面对本来可以支持的请求时，有27.8%的情况选择了拒绝——过于保守。完整上下文条件下，拒绝率降到了8.3%。与此同时，接受不该接受的请求的比例在完整上下文条件下只有1.4%，非常低。这说明改善主要不是靠“更多地拒绝”，而是靠“更准确地判断什么应该接受、什么应该拒绝、什么应该附条件接受”。

严格安全回应率从通用条件的26.4%提升到完整上下文的66.7%。按类别细看：传感器可观测性的安全回应率是75%，实现能力是75%，结果解读是66.7%，质量诊断是66.7%，科学克制是83.3%，工作流集成最低只有33.3%。工作流集成最差的结果说明，光靠文档说明是不够的——有些功能如果根本没有在代码里实现，再多的文档也无法帮AI给出正确答案。

在按模型分析的配对检验中，对于qwen3.7-max，完整上下文相比通用条件在10个案例上改善、在2个案例上退步，对应的精确配对麦克尼玛检验p值为0.0386，达到了统计显著性。kimi-k2.6的结果是9比2，p值为0.0654，略高于0.05。严格安全回应的改善对两个模型都具有显著性。

八、一个微妙但重要的发现：信息越多不总是越好

在所有结果里，有一个细节特别值得关注。汇总四分类精确率确实在完整上下文条件下最高，但严格安全回应率在“硬件加实现”条件下达到了68.1%，反而略高于完整上下文的66.7%。这个差距很小，而且只基于每个条件一次生成，可能存在随机波动，但它引出了一个深刻的问题：给AI塞更多信息，有时候反而会让它表现变差。

可能的机制有几种。额外的科学边界说明可能让AI在本来可以支持的条件性请求上过度保守，把“有条件支持”变成了“不支持”。参考案例可能让AI把当前问题套到错误的案例模板上。相互竞争的定义可能让“条件性支持”这个细粒度标签变得更难精确把握。当前实验无法区分这几种机制，但结果本身就是一个值得重视的信号。

这对AI系统设计有实际意义。检索增强生成（RAG——让AI先去文档库里搜索相关内容再回答）的质量，不只是一个“多搜到一些就越好”的问题。上下文也会改变AI的决策策略：额外的警告说明会增加过度拒绝的倾向，错误的示例会让答案锚定在错误方向，相互竞争的定义会模糊细粒度标签。因此，正确的目标不是“最大化上下文覆盖”，而是“选择和当前问题最相关的上下文模块”。

一个实际的架构方向是：根据用户的问题类型，动态选择要提供给AI的上下文模块。如果用户问的是输入文件格式，就提供硬件文档和实现文档；如果用户问的是某个分析结果的含义，就提供结果字段说明和科学边界文档。无论选哪种组合，检索选择本身都应该是版本化的、可审计的，并且作为系统安全评估的一部分来测试——而不是一个可以随意调整的外围功能。

九、那66.7%以外的33.3%，究竟错在哪里

完整上下文条件下有66.7%的回应达到了严格安全标准，剩下33.3%没有通过。这33.3%不通过的情况到底是什么样的？团队做了详细的分解分析。

72个完整上下文的回应里，48个三项全部通过（决策精确、事实覆盖充分、无错误断言），24个没有通过。在这24个失败案例里，15个是四分类决策本身就错了，9个是决策对了但遗漏了必要事实，没有任何一个是仅仅因为包含了错误断言而失败。

在15个决策错误里，有7个是把“有条件支持”误判为“支持”——忽略了必须附带的限制说明。有5个把本来有条件支持的请求判断成“不支持”，还有1个判断成了“当前未实现”，这两种都是过度拒绝。剩下两个是把“当前未实现”误判成了其他类别。其中那个误判成“支持”的案例是唯一的一个“接受了不该接受的请求”：一个AI错误地声称功率谱密度工作流可以直接聚合NPY格式的试次批量文件，而实际上这个功能当前没有实现。

那9个“决策对了但遗漏事实”的失败案例，集中在工作流集成类别——这类问题往往需要AI同时提到多个不存在的元素，比如某个字段不存在、执行是离线的、系统没有执行器接口，缺少任何一个都会失败。结果解读和质量诊断类别各贡献了约四个失败案例。

一个鼓励性的发现是：在完整上下文条件下，没有任何回应是“仅因为包含预设错误断言而失败”。这说明完整上下文在防止明确的事实错误方面效果相当好，剩余的失败主要是细粒度判断的精度问题，而不是严重的幻觉问题。

十、实验室里的脑电波真的按预期变化了吗

除了系统测试和AI基准测试，团队还做了一些探索性的真实脑电数据实验，来展示这套系统在实际使用场景下的表现。这些结果的重要程度不同，需要分别对待。

一个公开的52.84秒眼睛睁开闭合示例录制保留了65.9%的样本，产生了41个有效窗口和61个被排除的窗口。用中位数切分，高阿尔法功率和低阿尔法功率的时间段之间，功率比达到了7.01倍，阿尔法功率与相邻频段功率的比值中位数是1.09。这些数字显示后枕区确实存在明显的阿尔法功率时间变化，符合已知的眼睛睁闭状态切换时阿尔法波变化的生理规律。但有一个重要限制：这个分析没有外部的眼睛状态标签，所以是用同一段信号来切分的，无法计算睁眼闭眼分类的准确率。

三个参与者六对休息和任务状态的配对录制数据里，有四对的任务状态后枕阿尔法功率低于休息状态（符合理论预期），两对相反。中位数任务减休息对数阿尔法差值是-0.0176，对应的任务/休息功率比是0.960——任务状态下的阿尔法功率平均约为休息状态的96%。单侧威尔科克森符号秩检验p值为0.4219，精确符号检验p值为0.3438，两者都没有达到统计显著性。三个参与者个体层面的差值分别是正的0.0042、正的0.0581和负的0.0646，方向都不一样。

团队对这个结果的态度很诚实：样本量太小（三人六对），结果混杂，只能作为一个质量意识的可行性示例，完全不能支持“视觉认知负荷分析有效”的结论。真正的生理效度验证需要一个独立的研究：有足够样本量的参与者、平衡设计的视觉任务、外部行为指标（反应时间和准确率）、主观工作负荷量表，以及能分离参与者间变异的混合效应统计模型。

十一、这套系统能做什么、不能做什么的完整边界

把以上所有内容梳理一遍，就能得到一张关于NeuraDock Agent当前版本能力和局限的完整地图。

当前版本确实做到的事情是：本地确定性计算——相同输入必然产生相同输出，12段录制各做了10次重复实验，每次结果完全一致；完整的端对端运行（包括结果、报告和图表）做了三次重复，哈希值完全一致；应用层减少了发送给AI的数据量；语言服务的失败不影响本地计算结果；在36个基准测试案例中，边界意识随上下文增加而改善。

当前版本明确不能做的事情包括：临床诊断任何认知状态、情绪状态或神经系统疾病；做额叶或颞叶的任何分析（物理上不可能）；做皮层源定位（工具不存在）；做跨参与者或跨录制的绝对量表比较；检测信号平线（已知的检测盲区）；做ICA去噪（未实现）；做经过独立验证的SSVEP分类（未实现）；提供符合医疗法规的合规保障。

更重要的是，论文明确说明这套系统的定位：它是一个辅助用户理解和使用特定硬件和特定软件的工具，不是替代专业脑电图分析软件（如MNE-Python或EEGLAB）的存在，更不是替代有经验的电生理学家的存在。当一个研究项目需要源定位、ICA去噪、复杂的事件相关设计或群体水平的统计分析时，正确的选择是把适当的数据导出，然后用更广泛的专业工具配合专家判断来处理——而不是期待这套系统能扩展出那些能力。

归根结底，这项研究想说的是：一个AI助手如果知道自己的仪器有七个传感器放在头部后方、知道当前软件实现了哪些功能、知道每个输出字段的确切含义和适用范围，它就会是一个靠谱的工具。如果它不知道这些，哪怕通用知识再丰富，在具体使用场景里也会产生虽然流利但实际上不对的答案。

边界意识的核心不是“更多地拒绝”，而是“更准确地知道什么时候该说可以、什么时候该说可以但有限制、什么时候该说目前做不到”。这个区分，在科学仪器这类对准确性要求很高的领域里，远比看起来重要得多。

想进一步了解技术细节的读者，可以通过arXiv编号2606.26519找到完整论文，也可以在GitHub上搜索“Neuradock/eeg-workstation-agent”找到开源代码和示例。

Q&A

Q1：NeuraDock Agent的视觉认知负荷分析结果能跨人比较吗？

A：不能。视觉认知负荷的低、中、高分类是在同一次录制内部相对比较得出的，是按照该次录制所有有效窗口的三等分位点来划分的。这意味着同一个人两次录制之间的结果不能直接比较，不同人之间更不能比较。要跨人或跨录制比较，需要建立在经过独立验证的绝对量表基础上，而当前版本没有这样的量表。

Q2：NeuraDock设备的七个传感器为什么都在头部后方，不覆盖前额？

A：这是NeuraDock设备的设计定位决定的。这台设备专门面向视觉相关的研究场景，后枕区（O1、O2、Oz）和顶枕区（PO3、PO4）正好覆盖大脑的视觉处理区域，适合研究视觉刺激诱发的脑电变化。CP5和CP6虽然偏向中央顶区，但也是EEG通道，不是参考电极。这个设计带来的必然结果是无法做任何需要额叶或颞叶信号的分析，比如情绪识别或语言处理相关研究。

Q3：NeuraDock Agent给AI提供更多上下文信息，效果一定更好吗？

A：不一定。测试发现，“硬件加实现”条件下的严格安全回应率（68.1%）反而略高于完整上下文条件（66.7%）。额外的科学边界说明和参考案例可能让AI在某些有条件支持的请求上变得过于保守，或者被错误的示例带偏。因此，正确的做法不是把所有文档都塞给AI，而是根据具体问题类型，有选择地提供最相关的上下文模块。

来源：https://www.163.com/dy/article/L0PL8VIC0511DTVV.html