这项由中国人民大学高岭人工智能学院主导的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.29861v1。有意深入了解技术细节的读者,可凭该编号检索原文,获取完整的系统设计与实验数据。
试想这样的场景:你向人工智能提问,期待它给出如同专业咨询公司报告一般图文并茂、论证严谨的深度研究成果。然而,大多数现有AI工具只会输出一大段冗长的纯文字内容。图表在哪里?支撑论点的数据可视化去哪了?关键的截图和示意图又为何缺失?更令人困扰的是,AI所引用的信息是否有可靠来源?这正是本项研究致力于解决的核心痛点。
研究团队提出的系统被命名为PTAH——其灵感源自埃及神话中的创造之神、工匠的守护者,寓意明确:将零散的文字与视觉素材精心整合成完整的作品。PTAH的目标十分直接:基于用户的一句简短指令,最终生成一份能在浏览器中直接浏览、图文交织且每条引用均有据可查的网页版深度研究报告。同时,研究团队配套开发了评估体系PTAHEval,专门衡量这类多模态报告的质量,填补了现有评估工具仅能评判文字内容、对图片评估无能为力的空白。
为什么AI撰写报告这件事,远比你想象中困难
谈到“让AI帮你查资料写报告”,脑海中或许会浮现这样一个画面:一个超级高效的助手,几分钟内浏览数十个网页,提炼关键信息,再组织成一篇条理清晰的长文。这类系统在学术界被称为“深度研究”(Deep Research),有别于仅回答单一具体问题的“深度搜索”(Deep Search)。
深度搜索类似在图书馆查一个词条——你问“珠穆朗玛峰有多高”,它回答“8848.86米”,答案正确与否一秒钟即可验证。而深度研究更像撰写一篇综述论文:没有唯一正确答案,需要综合多方来源,判断哪些信息关键、哪些相互矛盾,再以清晰且有说服力的方式呈现出来。
这带来了两个特别棘手的挑战。第一,缺乏标准答案。深度研究报告不同于数学题,质量难以用单一指标衡量;一旦前期收集的信息出错,后续所有内容都会被污染。第二,图文配合问题。一份真正专业的报告绝不仅靠文字支撑——它会用趋势折线图说明某项技术的发展走势,用架构示意图帮助读者理解复杂系统的运作原理,用原始文献截图作为论据支撑。但当前AI系统大多把图片当作报告写完后的装饰性点缀,与文字内容的关联十分松散,甚至出现配图与正文完全无关的尴尬状况。
研究团队将这两个挑战比喻为“深度研究面临的两道坎”,而PTAH的设计核心就是同时跨越这两道坎。
PTAH如何运作:一个分工明确的协作团队
理解PTAH最直观的方式,是把它想象成一个正在执行咨询项目的专业团队。团队中包含项目经理、多名独立调研员、一名主笔撰稿人,以及一位随时待命、专门纠错的质控审核员。
第一步由“规划师”完成。规划师收到用户问题后,并不会立即开始查资料,而是先进行前期探索,然后输出一份详尽的研究计划书。这份计划书不仅列出报告所需的章节结构,还明确说明了每个章节需要配什么类型的图——是需要数据图表展示趋势,还是需要架构图解释原理,或是需要实物截图提供佐证。把视觉需求写入计划书,是PTAH区别于大多数现有系统的重要特征之一。
计划完成后,会经过“审核员”的第一轮检查。审核员采用两种方式判断计划是否合格:一是机械式规则检查,比如格式是否正确、工具调用是否符合规范;二是让另一个语言模型判断这份计划是否真正覆盖了用户问题的方方面面,各章节逻辑是否连贯,视觉需求与文字论述是否匹配。若审核不通过,规划师需要修改甚至重新搜索资料后再提交。
通过审核后,多名“调研员”同时并行工作,每人负责一个章节的深入调研。每位调研员搜索网页、阅读资料、整理发现,产出结构化的研究包,内含关键发现、支持论据、数据表格、引用来源及对后续撰稿人的写作建议。
与此同时,调研员还会系统性地从访问过的网页中提取图片,建立该章节专属的“视觉工作记忆”。这个工作记忆好比调研员随手建立的图片素材库,但并非随意堆叠——每张图片都附带来源网址、所属章节以及在报告中应扮演的角色。素材库中的图片在进入下一步之前,会先经过规则筛选(剔除分辨率过低、比例极端、明显不相关的图片),再交由视觉语言模型根据规划阶段设定的图片需求进行更细致的相关性评估,决定哪些保留、哪些舍弃。
每个调研员提交的研究包同样要接受审核员审查——本次重点检查引用的URL是否真实有效,数字数据是否前后一致,图片与章节内容的相关性是否达标。不合格的研究包会被退回给相应调研员,要求补充或修正。
从素材到报告:撰稿人如何编织图文交织的完整作品
调研完成后,撰稿人拿到的资料包括:一份全局研究计划、所有章节经审核的研究包,以及各章节对应的视觉工作记忆素材库。
撰稿人并非先写完所有文字,再回头思考“这里放一张什么图好”。相反,它采用一种“声明式多模态写作”策略:在撰写文字内容的同时,在应当出现图片的位置嵌入图片指令标签,说明该位置需要什么类型的图、图片的作用是什么、应通过何种方式获取。
图片获取有三条路径。优先级最高的是从视觉工作记忆中直接复用调研阶段已收集并筛选过的原始网页图片,因为这类图片本身源自与正文内容直接相关的来源,一致性最高。若现有素材库中没有合适的,便会启动额外的图片搜索,从网络上检索相关图片。若报告需要的是原创性可视化内容——例如根据数据绘制的趋势图,或解释某个抽象概念的示意图——则可以调用代码执行工具生成图表,或调用图像生成模型创作插图。
初稿完成后,PTAH并不急于交差,而是启动一个名为“测试时优化”的六步精炼流程。第一步:章节精炼,逐章检查文字清晰度、证据覆盖情况和引用准确性。第二步:图片精炼,对每张图片做出“保留、删除或编辑”的判断,需要调整的图片执行具体编辑指令。第三步:整体精炼,从全局视角审视各章节间的一致性,以及图片与文字在整体上是否协调呼应。第四步:生成HTML文档,将精炼后的报告转换为带有布局和样式设计的网页格式。第五步:HTML精炼,进一步调整网页排版细节、间距和视觉呈现。第六步:最终渲染,在浏览器中生成可直接阅读的用户端多模态报告。
这六步精炼的意义远不止“改改错别字”,更关键的是确保最终呈现给用户的报告不仅内容正确,而且在视觉上易于阅读;图片的放置位置和方式真正服务于理解,而非堆砌装饰。
如何衡量一份图文报告的好坏:PTAHEval评估体系
现有的深度研究基准测试,如DeepResearch Bench和DeepConsult,主要评估报告的文字质量——内容是否全面、分析是否深入、是否符合指令要求、文字是否流畅。这些维度对于纯文字报告完全够用,但对于图文交织的多模态报告,却无法评价图片部分的质量。
PTAHEval的设计思路是在保留原有文字评估维度的基础上,新增两个专门针对多模态内容的评估维度。
第一个维度被称为“图片内容质量”(ICQ),用于评估报告里每张具体图片的质量。评估时,将包含图片和周围文字的内容一起送入视觉语言模型进行判断。具体而言,ICQ从四个角度打分:图片本身是否清晰易读(视觉清晰度);图片的语义内容是否与周围文字一致、放置位置是否合理(跨模态对齐);图片是否传递了文字难以单独表达的有价值信息(信息互补性);图片是否为正文中的论点或结论提供了佐证(证据支撑性)。每个角度采用1至5分的五级量表。
第二个维度叫作“多模态呈现质量”(MPQ),评估整份报告渲染成网页后,读者实际看到的界面质量。评估时,将报告网页渲染出来,截取宽1000像素、高2000像素的首屏截图送入视觉语言模型打分。MPQ同样从四个角度评估:信息密度与视觉清晰度的平衡(密度可读性平衡);关键信息和结构要素是否通过视觉层次感得到有效突出(信息显著性);是否使用了表格、图标、图表、示意图等多种视觉形式辅助理解(视觉编码多样性);排版间距、视觉节奏、对齐方式是否降低了阅读负担(视觉工效)。
这种将“内容对不对”与“呈现好不好”分开评估的思路,使PTAHEval能够从多个维度全面衡量一份多模态报告的实际质量。
实验结果:PTAH在各项评估中的表现
研究团队在DeepResearch Bench(100道博士级研究任务,覆盖22个领域,中英文各50道)和DeepConsult(102道商业咨询类问题)两个基准上进行了评测,并与多个基线系统进行对比。参与比较的系统包括:直接让语言模型生成报告(不做任何搜索)、三种单智能体文字搜索系统(ReAct、Search-o1、WebThinker),以及一种能够生成多模态内容的智能体方法LLM-I。
在文字质量方面,PTAH在DeepResearch Bench上的综合评分为45.16,是所有参与系统中最高的,尤其在分析深度和报告可读性两个维度上表现突出。在DeepConsult上,PTAH的平均分为16.18,比第二名WebThinker(7.35)高出一倍有余,在指令遵循、完整性和写作质量上的提升最为显著。
在图片质量方面,PTAH在ICQ的四个维度上全面领先,其中跨模态对齐的得分尤其接近满分。这背后有两个原因:一是从真实网页提取的图片本身就与网页内容高度相关,二是测试时优化机制进一步强化了图文的一致性。相比之下,LLM-I的ICQ平均得分仅为1.97,与PTAH的4.39相差悬殊,说明缺乏系统性验证机制的多模态生成,其图片质量远不稳定。
在报告可信度方面,PTAH的引用准确率达到87.53%,平均每篇报告包含9.64条有效引用,搜索工具调用次数(12.82次)也明显多于其他系统。对照组实验发现,在没有审核员模块的情况下,ReAct和Search-o1等基线系统频繁生成无效甚至虚构的URL,而PTAH的审核员机制有效保证了每一条引用都指向真实可访问的来源。
人工评估进一步验证了自动评估的可靠性。研究团队从DeepResearch Bench中随机抽取25道题,由四名标注员(两名AI博士生和两名本科生)以匿名对比的方式比较PTAH与基线系统的报告质量。标注员在图片内容质量上对PTAH的支持率达到88%-96%,在多模态呈现质量上对PTAH的支持率达到80%-100%,结果与自动评估高度吻合。
此外,研究团队专门围绕审核员的作用进行了消融实验。去掉审核员后,100道题中有14道在规划阶段因格式错误或工具调用失败而无法继续,剩余86道中又有18道在调研阶段失败,最终只有68道能完整生成报告,说明审核员对整个流程的稳定性至关重要。对于成功生成的68份报告,引用准确率从87.53%骤降至30.29%,充分说明审核员在事实可信度方面的关键作用。
测试时优化机制的效果同样经过了单独验证。去掉这个六步精炼流程后,报告的综合文字得分下降3.03分,ICQ平均分从4.39降至2.77,MPQ平均分从3.71降至3.49。同时,去掉精炼流程后报告中图片的平均数量从3.76增加到5.06,但无效图片的比例也从0.12上升到0.38,说明精炼流程不只是在数量上筛选图片,更在质量上大幅提升了图片的可用性。
用户体验评估部分,研究团队让四名评估者对比PTAH和WebThinker生成的报告,从可读性、易用性、信息获取效率和整体偏好四个维度做出判断。PTAH的胜出或持平率分别为88.75%、88.75%、96.25%和95.00%,其中信息获取效率的高胜率说明图文穿插的呈现方式确实帮助读者更快找到和理解关键信息。
针对视觉元素本身的贡献,研究团队还设计了一个“去图版PTAH”实验,使用完全相同的流程,只是在最终报告中不加入任何图片。去图版PTAH的文字综合评分(45.10)与完整版(45.16)几乎相同,但MPQ平均分从3.71降至3.29,说明图片对文字评分几乎没有负面影响,但对多模态呈现质量有实质性的提升贡献。
系统的时间成本与效率设计
研究团队在DeepResearch Bench上对PTAH的运行效率做了细致分析。完整流程平均耗时约1015秒(大约17分钟),其中调研阶段是最耗时的部分,平均459秒,因为它涉及对多个网页的开放式搜索、内容解读和图片池构建。测试时优化阶段平均243秒,规划阶段192秒,写作阶段121秒。
多名调研员并行工作的设计带来了显著的效率提升。如果改为顺序执行,调研阶段的平均耗时将从459秒膨胀到1328秒,增加近三倍。并行设计在不牺牲报告质量的前提下,将调研时间压缩了65%。
不同强度的审核员也会影响整体速度。研究团队测试了用DeepSeek-R1替换当前审核员的效果,发现规划阶段耗时从192秒增加到853秒,调研阶段从459秒增加到1408秒。更强的推理模型意味着更严格的检查和更多轮的修改迭代,因此在报告质量和生成速度之间存在明显的权衡关系。研究团队最终选择当前版本的审核员作为质量与效率之间的平衡配置。
说到底,PTAH这项研究回答的是一个非常具体的问题:当我们希望AI不只是给出一段文字答案,而是真正生成一份像样的专业报告时,需要在架构设计上做哪些事情。研究团队给出的答案是:分阶段拆解任务,让专业化的智能体各司其职;把图片处理从事后装饰变成前期规划中的核心要素;在每个关键环节设置审核检查点,阻止错误累积传播;最后通过多轮精炼把内容质量和视觉呈现质量都打磨到位。
这套思路本身并不复杂,但把它完整落地需要解决大量工程细节和设计取舍,而实验结果表明这些努力是有实际效果的。对于普通用户来说,这意味着未来借助类似系统产出的研究报告,将不再是一大段孤零零的文字,而是能把数据图表、示意图、实物截图和文字论述有机融合在一起,每一张图都说明问题,每一条引用都指向真实来源。
如果你有兴趣了解PTAH背后更完整的技术细节,可以通过arXiv编号2605.29861检索原论文,这项工作由中国人民大学高岭人工智能学院的研究团队完成。
Q&A
Q1:PTAH系统的“视觉工作记忆”是什么,有什么用?
A:视觉工作记忆是PTAH在调研阶段为每个章节建立的一个图片素材库。调研员访问网页时会系统提取其中的图片,经过分辨率过滤和视觉语言模型的相关性筛选后,每张保留的图片都会和来源网址、所属章节、预期用途一起存储。这样做的好处是,撰稿阶段可以直接复用这些来源可追溯的图片,而不是临时随意搜索或生成,从而保证图片与文字内容之间的高度一致性。
Q2:PTAHEval评估体系和现有的AI报告评估方法有什么不同?
A:现有深度研究评估基准(如DeepResearch Bench)主要只评估文字内容的质量,对报告中是否有图片、图片质量如何完全不考量。PTAHEval在保留文字评估的基础上新增了两个维度:图片内容质量(ICQ,评估每张图片的清晰度、与文字的对齐度、信息互补性和证据支撑性)和多模态呈现质量(MPQ,通过截取网页首屏截图来评估整体版面的可读性、信息显著性、视觉多样性和排版舒适度),由视觉语言模型打分。
Q3:去掉PTAH的审核员模块会发生什么?
A:去掉审核员后,系统稳定性大幅下降。在100道测试题中,有14道在规划阶段就因格式或工具调用错误而卡住无法进行,剩余中又有18道在调研阶段失败,最终只有68道能完整生成报告。更重要的是,成功生成的68份报告的引用准确率从87.53%骤降至30.29%,说明审核员不仅保证了流程稳定,还是确保报告引用真实可信的关键机制。
