首页 游戏 软件 资讯 排行榜 专题
首页
AI
谷歌“纳米香蕉”:顶会论文专用版超越Figure机器人演示

谷歌“纳米香蕉”:顶会论文专用版超越Figure机器人演示

热心网友
85
转载
2026-02-09



编辑|SIA

你负责写方法,AI负责画 Figure。 科研打工人,终于等来「画图解放日」。

还在为论文里的方法框图熬夜画 PPT、拉箭头、对齐字体吗?

一张 Figure 2,动辄几个小时,严重的甚至能耗上几天,科研人的「隐藏副本」不是实验,而是画图。

既要忠于论文原意,又得暗暗符合顶会那套心照不宣的「学术审美」:颜色不能土,布局不能乱,箭头更不能连错。

看起来只是一张图,实际上是美学、逻辑和耐心的三重折磨。

那么,问题来了:现在的大模型已经能写论文、跑实验、改代码,为什么偏偏搞不定这些学术插图?有人可能会问:DALL·E、基础 VLM 不行吗?

答案是:真不行。

它们画出来的图往往是:模块和文字对不上、字体直接乱码、箭头逻辑错误。图是「好看」,但不中用啊。

于是,一个狠角色出现了:PaperBanana

来自北大 + Google Cloud AI Research 的团队,目标很简单也很狂:你写方法,AI 画 Figure,水准呢?直接投顶会的那种。

科研打工人,终于等到了「画图解放日」。









来看效果成色。

PaperBanana 展示了解决两类学术插图的能力:

第一类,是论文方法流程图与模型结构示意图,用来说明算法如何运作(左);第二类,是统计图表,用来表达实验结果与数据对比(右边)。



左边是方法框图(Methodology Diagrams),右边是统计图(Statistical Plots)

与以往「只会画图像」的生成模型不同,PaperBanana 强调两点:不是只要「画得好看」,而是必须「画得正确」。

它要保证:模块之间的逻辑关系不出错、数据表达符合科研规范、图可以直接服务论文叙事,而不是装饰。

研究指出,PaperBanana 可以覆盖多种常见学术插图类型,包括方法流程图、模型结构示意图、概念性框架图,以及通过代码驱动生成的高精度统计图。

PaperBanana 不仅能从零生成,还能润色你现有的丑图。

给它一张草图或初版框图,它负责自动美化、重排布局、统一风格,让它更像顶会论文里的标准图形

更直观的对比——

左侧是手工绘制的插图,右侧是 PaperBanana 风格增强(Style Enhanced)后的版本。



这些示例覆盖了多个典型科研场景,包括 Transformer 与不同 LayerNorm 变体的对比示意、工程流程与三维建模管线的系统框架,以及强化学习和表示学习中抽象几何关系的表达。它们的共同特点在于逻辑复杂、元素密集,对人工排版提出了极高要求,也正是科研人员最容易在“画图”上消耗大量时间与精力的部分。

语义结构上一致,但视觉呈现,完全不同。

原始图信息完整,却给人一种「能看懂,但不好看」的感觉:布局略显松散,配色偏向单一,不同模块之间的层级关系也不够清晰。

PaperBanana 润色增后,图中的逻辑被重新梳理进一套更规范的视觉体系之中。

不同功能模块通过颜色进行区分,虚线和分区框用来强化层次结构,箭头的走向也更加明确,整体观感明显更接近顶会论文中常见的标准范式。

再看下面的图例,同一张图对比,高低立判。

人类画的图,对,但不一定好看。

未经调教的原始模型生成(Nano-Banana-Pro),画出来但难读。

PaperBanana 真正做到了「画清楚、讲明白」,也更符合顶会审美的论文级插图:配色更现代统一,信息更精炼,模块分区更清晰。



那么,它是如何做到这一点的?

PaperBanana「画论文图」变成了一条由多智能体协作完成的流水线。

系统先检索参考范例,再规划结构化描述,并在审美规范约束下生成初稿;

随后由视觉代理将文本描述转化为图像或代码绘图,评论代理不断对照原始论文内容进行纠错与打磨。

经过多轮迭代后,输出的不再是普通示意图,而是一张同时满足语义正确性与顶会审美标准的论文级插图。

这不是简单的作图自动化,而是一种「科研表达方式」的自动规范化。



研究人员还顺带对比了两种路线:直接让模型「画图」VS 让模型「写代码画图」。

结论很扎心:AI 直接画出来的图虽然精美,但经常在数字上胡说八道。

目前最靠谱的方式还是:AI 写绘图代码(基于 Gemini-3-Pro),再生成统计图。



这只是开始。类似工具已经开始出现,比如:Claude Scientific Writer,集成论文写作 + 插图 + 图表生成。

未来科研可能变成这样:你不用再在 PPT 里对齐箭头、调颜色、拖文本框到凌晨三点,而是把更多时间留给真正重要的事情。

https://dwzhu-pku.github.io/PaperBanana/

https://github.com/K-Dense-AI/claude-scientific-writer

来源:https://www.163.com/dy/article/KL0RTIRT0511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

广东无人机飞行空域最新调整范围扩大详解
科技数码
广东无人机飞行空域最新调整范围扩大详解

广东无人机适飞空域扩大16%至10 24万平方公里,覆盖全省57%陆地面积,滨海、郊野、工业园区及非核心城区公园等区域开放,深圳市区新增连片适飞区。飞行需通过民航局UOM平台提前申请,严禁“黑飞”,违者将受处罚。平台已升级,实现全国规则统一与分钟级空域更新,支持低空物流与巡检等应用。

热心网友
05.18
iPhone 17 Pro杭州门店抢购火爆 七千元起售迅速售罄
科技数码
iPhone 17 Pro杭州门店抢购火爆 七千元起售迅速售罄

杭州Costco门店因iPhone17系列手机引发抢购热潮,数百人排队致迅速断货。抢购源于官方降价与地方补贴叠加:iPhone17Pro全系直降千元,同时当地青年消费补贴可再减10%,最高省千元。双重优惠下,256GB版iPhone17Pro到手价低至7172元,较电商平台便宜近千元,吸引本地及周边消费者。目前门店仍处缺货状态,补货时间未定。

热心网友
05.18
千帆星座第九批组网卫星成功发射升空
科技数码
千帆星座第九批组网卫星成功发射升空

5月17日晚,长征八号运载火箭在海南商业航天发射场点火升空,成功将千帆星座第九批组网卫星送入预定轨道。此次发射是该发射场启用以来的第15次成功发射,也是今年第5次发射,体现了我国商业航天发射能力的日益成熟和常态化运营的稳步推进。

热心网友
05.18
七彩虹iGame M15/M16 Origo游戏本2026款上市 首发11499元起
科技数码
七彩虹iGame M15/M16 Origo游戏本2026款上市 首发11499元起

七彩虹新款iGameM15 M16Origo2026款游戏本已发售,起售价11499元。M15为15 3英寸黑色机身,配备2 5K300Hz屏,最高可选Ultra9处理器与RTX5070显卡。M16为16英寸白色款,屏幕规格相同,处理器性能更强,电池容量更大。两款均提供多种配置,享受国家补贴后价格更具竞争力,面向中高端游戏玩家与创作者。

热心网友
05.18
联想ThinkPad T14 Gen 7发布 支持LPCAMM2可更换内存
科技数码
联想ThinkPad T14 Gen 7发布 支持LPCAMM2可更换内存

联想在北美市场推出新款ThinkPadT14Gen7商务笔记本,支持用户自行更换LPCAMM2内存。该机型提供多款英特尔酷睿Ultra处理器选项,内存可选16GB至64GB,电池与屏幕亦有多种配置,其中顶配版搭载OLED屏幕。产品起售价为1618美元,高配版本价格超过3700美元,主要面向商用及专业办公市场,兼顾性能、可升级性与不同预算需求。

热心网友
05.18