谷歌北大联手提升论文图表,Banana工具实现100%精准生成
效果好到刷屏的Nano Banana,学术特供版热乎出炉!
名字就是如此直观——PaperBanana,给你每天都在头痛的Paper用上Banana。(试图押韵skr)
而且这一次是由谷歌北大强强联手打造。

知道你想马上看效果,别急,三个最新案例这就给大家搬上桌。
在相同输入下,人类绘制、原版Nano Banana与PaperBanana生成的论文插图对比如下:
综合评估显示,PaperBanana在美观性、简洁性与逻辑清晰度上均全面优于原版。

而且它还能直接优化人工绘制的插图,瞅瞅右边,是不是高级感一下就上去了。

此外,由于PaperBanana还提供代码出图功能 (即利用Gemini-3-Pro自动生成并执行Python可视化代码出图),所以它还能用来生成需要数值100%精准的各种图表。

好好好,既能拿捏高级感,又不忘精准度,应该没有学术人不爱吧~

论文作者表示,PaperBanana为全自动生成可用于出版的插图铺平了道路。
我们希望这个框架能成为连接复杂科学概念与高效视觉叙事的桥梁,赋能每一位研究者,用专业级的视觉语言清晰呈现其发现。
而在看到其效果之后,一众网友也纷纷感叹“学术插图”这个老大难总算是要被攻克了。
想想以前的日子,真真是要落泪了~
研究人员花费4个小时在Figma中绘制一张图,简直令人难以置信。

那么,学术版PaperBanana是如何炼造的呢?
一个不够,那就5个!
用一个模型生图怎么够,现在都是多智能体齐上阵了。
没错,PaperBanana背后就是5个分工明确的智能体在起作用。
Retriever Agent(检索智能体):从顶会论文库中,找到与你要画的图领域、结构最相似的参考案例。Planner Agent(规划智能体):把论文文字描述,转化为包含所有模块、逻辑的详细绘图说明书。Stylist Agent(风格智能体):总结学术审美规范,给说明书加上配色、排版等“美颜”标准。Visualizer Agent(可视化智能体):根据说明书,直接画图或写代码出图,产出初稿。Critic Agent(批判智能体):检查图的对错与美观度,提出修改意见,循环迭代3轮优化。
下面这张图清晰展示了它们的工作流程:
划重点,连这张图也是PaperBanana自己生成的。

论文作者表示,这一过程参考了人类制作论文插图的流程。
以制作一个模型架构图为例,通常研究人员会先去看看顶会里类似工作的图是怎么画的,找找灵感和规范。
这一步就对应了检索智能体的工作。
然后就需要根据参考来规划自己的图该怎么画,“我的方法有几个关键模块?”、“数据流和逻辑顺序是怎样的?”,在想清所有关键问题后,脑子里大概就有一幅架构蓝图了。
而到这一步还不是真正动笔的时候,因为还需要结合自己的图以及之前看过的“顶会审美”标准,来给蓝图加点设计感。
有了这两样东西(蓝图+审美),现在就可以真正出图了。
并且出完之后,研究人员往往还需要检查一番,以确保出图正确无误。

怎么样?是不是一环扣一环、且全都一一对应上了。
而在了解完PaperBanana的工作方式后,接下来的问题在于:
怎么评估PaperBanana的生图效果?
实验方法及结果
对此,团队还专门构建了一个PaperBananaBench。该基准内容源自NeurIPS 2025——
他们从5275篇论文中随机采样2000篇,经过滤、人工校验后,得到584个有效样本,然后将其均分为292个测试样本和292个参考样本。
这292个参考样本,每一个都提取了完整的(S, C, I)三元组:
S(源上下文):描述方法的文本,如论文方法论章节;C(传达意图):图的标题/说明,如“我们的框架概述”;I(参考图像):论文中实际使用的、高质量的对应图表。
参考样本集构成了一个高质量的“学术插图数据库”,主要供检索智能体进行查询和匹配。
而与之对应的292个测试样本,在评估时则仅提供S、C作为输入。其对应的I作为隐藏的标准答案,不参与生成过程,仅用于最终的质量比对与评分。
准备到这里,接下来就是具体生成和评估了。
裁判方面,他们采用了“VLM-as-a-Judge”(大模型当裁判)的评估范式——
让强大的视觉语言模型(如Gemini-3-Pro)作为评委,将PaperBanana生成的图与测试集中隐藏的标准答案I进行逐项对比。
对比的维度主要有四个:忠实性、简洁性、可读性、美观性。
若PaperBanana表现优于标准图得100分,劣于得0分,持平得50分,最终计算总分。
而实验结果表明,PaperBanana在所有维度上全面超越了传统的单模型直接生成(Vanilla)等基线方法。

整体性能碾压:总分相对基线提升了17.0%。其中,简洁性提升最为显著,高达37.2%,说明它生成的图逻辑更干净、重点更突出;可读性(+12.9%)和美观性(+6.6%)也有大幅领先。获得人类盲测认可:在匿名的人类盲测中,研究员有72.7%的情况认为PaperBanana生成的图比基线模型更好。统计图表表现优异:在需要高精度的统计图表任务中,PaperBanana的“代码生成模式”在数值忠实性上与人类水平相当,而简洁性和美观性甚至略胜一筹。

这里需要说明,在生成图表方面,PaperBanana有两种模式:
一种是代码生成模式(默认)。让Gemini-3-Pro这类模型自动写Python可视化代码(如Matplotlib),再运行代码出图。优点是可以保证数值绝对准确,适合需要严格精度的场景。
另一种是直接生图模式(可选方式)。跳过代码,让图像生成模型直接根据文本描述生成图表。优点是视觉效果更顶,但数值容易出现幻觉问题。
左图直接生图模式下,红框圈选出来的就是一些错误问题,而右侧的代码生图模式明显无误,但美观度略逊。

最后的消融实验证明,检索参考、风格优化、批判迭代这三个环节缺一不可,它们共同保证了最终图像的“准确”与“好看”。
不过也需要提醒,PaperBanana目前仍有一些局限性,比如它作为生图还无法编辑,同时在很多细节忠实度方面仍比不上人类手工作业。
所以,更保险的做法或许是,让它帮你优化以前绘制过的图。
在下面这套“手图蜕变”流程下,很多图都能变得更美观、更高级……当然也更容易入顶会的眼(doge)。

谷歌x北大联手打造
最后介绍下PaperBanana背后的团队。
一共7人,可以清晰分成两拨——
一拨来自北大,主要提供NLP与多模态理解的学术根基;另一拨来自Google Cloud AI Research,负责多模态系统与工业化视角。

署名第一的Dawei Zhu(兼通讯作者),本硕博均就读于北大,现为北大四年级博士生。
他重点研究长上下文建模和多模态数据,之前在微软亚洲研究院实习过,目前是Google Cloud AI Research学生研究员,PaperBanana也是他在谷歌期间参与的项目。

借着北大这条线,另外两位来自北大的分别是Xiyu Wei和Sujian Li(兼通讯作者)。
Sujian Li目前是北大计算机学院长聘副教授,也是Dawei Zhu的博导,主要研究自然语言处理、信息抽取等。
而Xiyu Wei可能还是学生,目前只能看到TA和Dawei Zhu合作过一篇关于拓展上下文的论文。

而其他几位来自Google Cloud AI Research的分别是:
负责人Tomas Pfister、高级研究科学家Yale Song、研究科学家Rui Meng和Jinsung Yoon(兼通讯作者)。
截至目前,PaperBanana已在开源社区GitHub揽获上千star,感兴趣可以继续关注。

项目主页:
https://dwzhu-pku.github.io/PaperBanana/
论文:
https://arxiv.org/abs/2601.23265
GitHub地址:
https://github.com/dwzhu-pku/PaperBanana
相关攻略
2026年的AI圈,时钟仿佛被拨快了。技术迭代的浪潮一波未平,一波又起。 尤其是进入四月以来,整个行业像是踩下了油门。Meta携Muse Spark高调回归,ChatGPT Images 2 0的生成效果在社交媒体上持续刷屏,而GPT-5 5的发布,再次将技术天花板向上推升了一个量级。视线转回国内,
当前,我国科技论文产出总量已稳居全球前列,但一个关键短板依然突出:本土高水平科技期刊的发展步伐,尚未与国家整体科研实力同步提升。数据显示,2024年中国学者发表的国际论文中,超过95%的成果首选境外期刊发表。这构成了一个循环挑战:大量优秀研究成果外流,使得国内期刊难以获得优质稿源来提升学术声誉;与此
《自然》:一桩悬案了结? “砷基生命”论文终遭撤稿,但争议远未结束 科学界一桩持续了15年的公案,最近有了新进展。顶级期刊《科学》(Science)正式撤回了那篇曾引发轰动的争议性论文——该研究当年声称,在美国加州莫诺湖发现的一种细菌,能够用有毒的砷元素替代生命必需的磷来构建DNA,这直接挑战了我们
中国科学技术协会2026年3月31日发布告示:中国科协曾于2026年3月27日就2026年NeurIPS会议发表声明,本意是尽力维护我国关涉学者正当利益,其措施原则是清晰、适当的,没有发生变化。现就
Cornell University 图源:wikipedia撰文|张天如果有一天,全球科研人员突然无法访问arXiv,许多领域的研究节奏可能会被打乱。每天清晨刷新论文列表,已经成为部分数学家、物理
热门专题
热门推荐
为庆祝品牌投身赛车运动整整125年,斯柯达正式推出了晶锐Fabia Motorsport Edition特别版。这款车基于Fabia 130打造,设计灵感直接来源于征战赛场的Fabia RS Rally2拉力赛车,整体风格充满了对赛事历史的致敬意味。不过,得先说明白,它的升级重点主要落在了外观和底盘
Grayscale 通过其以太坊质押 ETF 质押了 102,400 个 ETH,价值 2 37 亿美元 先来看一组数据:资产管理巨头 Grayscale 最近通过其以太坊质押 ETF,一口气质押了超过10万个 ETH,价值约2 37亿美元。这个动作本身不小,但更有意思的是市场的后续反应——或者说,
劳斯莱斯库里南自问世以来,始终是超豪华全尺寸SUV领域的标杆。对于追求极致安全又不愿牺牲低调气质的高净值人士而言,如何实现“隐形”的顶级防护,一直是核心诉求。如今,加拿大专业防弹车制造商Inkas,以一款近乎“零痕迹”改装的库里南,给出了完美解决方案——一座移动的“隐形堡垒”。 区别于常见的外露装甲
新加坡维塔士工作室正考虑将《侠盗猎车手V》与《荒野大镖客:救赎2》移植至任天堂Switch平台。该团队拥有丰富的移植经验,曾成功负责多款游戏的跨平台适配。这两款作品全球销量巨大,若能登陆Switch,其便携特性可能成为新的市场增长点。
当高尔夫GTI迎来五十周年里程碑,传奇的纽博格林北环赛道成为其致敬历史与展望未来的最佳舞台。这里不仅铭刻了燃油性能图腾的巅峰时刻,也正式开启了电动GTI的新纪元。近日,大众汽车正式宣布,高尔夫GTI 50周年版在纽北创下全新纪录,荣膺最快前驱量产车称号;与此同时,品牌首款纯电动GTI车型——ID





