Gary Marcus批评文本生成图像系统缺乏世界理解能力
自从 DALL-E 2 惊艳亮相,一个观点便开始流行:能够绘制逼真图像的 AI,无疑是迈向通用人工智能(AGI)的关键一步。OpenAI 的 CEO Sam Altman 在发布 DALL-E 2 时那句“AGI is going to be wild”的宣言,更是被媒体广泛引用,用以渲染这类系统对于智能革命的重大意义。
然而,事情真有这么简单吗?对此,知名 AI 学者、以审慎看待 AI 进展著称的 Gary Marcus 就持保留态度。
他最近提出,评估 AGI 的进展,关键在于审视像 DALL-E、Imagen、Midjourney 和 Stable Diffusion 这样的系统,是否真的“理解”了我们所处的世界——这种理解,意味着能够基于知识进行推理并做出决策。
那么,要判断这些图像生成系统之于 AI(无论是狭义还是广义)的真正价值,不妨从以下三个核心问题入手:
图像合成系统能否生成高质量的图像?
它们能否将语言输入与它们产生的图像准确关联起来?
它们是否了解自己所呈现图像背后的那个真实世界?
AI 不懂语言与图像的关联
对于第一个问题,答案是肯定的。区别或许只在于,经过专业训练的人类艺术家,能更娴熟地运用这些工具,产出更具艺术性的作品。
但到了第二个问题,答案就不那么确定了。在某些特定的、符合常规逻辑的语言描述上,这些系统确实表现不俗。比如,让 DALL-E 2 生成一张“骑着马的宇航员”的图片,它就能交出令人满意的答卷:

热门专题
热门推荐
在麒麟操作系统上配置SSH公钥登录,不仅能免去每次输入密码的繁琐,更能显著增强远程连接的安全性。整个过程并不复杂,核心步骤围绕密钥生成、公钥部署和服务端配置展开。本文将详细介绍几种主流方法,涵盖从自动化部署到手动配置,助你轻松完成麒麟系统SSH密钥登录设置。 一、使用ssh-keygen与ssh-c
登录循环闪退应先删 Xauthority和 ICEauthority文件、修复 tmp权限为1777、重置ukui mate dconf配置、清理磁盘空间、重装lightdm并重新配置。 在银河麒麟操作系统中输入密码后,屏幕一闪又回到登录界面,这种“登录循环”问题确实令人困扰。这通常并非硬件故障,而
GUSD是一种与美元1:1锚定的合规稳定币,由Gemini交易所发行并受纽约州金融服务部监管。其核心价值在于为加密世界提供透明、受监管的美元等价物,主要应用于交易、支付和价值存储。投资者需关注其中心化托管风险、监管政策变化及智能合约潜在漏洞,理解其作为传统金融与加密市场桥梁的定位与局限。
在Windows 11系统中,确保系统音频稳定输出到指定设备(如已连接的耳机或已配对的蓝牙音箱),核心在于正确配置默认音频输出设备。您可以通过任务栏快速设置、系统设置应用、控制面板声音对话框、音量混合器下拉菜单或Win+Ctrl+V快捷键这五种主流方案,实现即时切换或永久性配置,彻底解决声音输出错乱
宏胜集团近期发生重要人事与业务调整。总裁办主任叶雅琼、销售总经理吴汀燕、法务部部长周卓盈及生产管理科科长吴潘潘等多位高管已离职,该消息已获接近集团人士证实。与此同时,集团启动了部分非生产业务的外包运作,显示出其正在优化内部结构与运营模式。这一系列变动可能意味着公司正处于战略调整期,旨在聚焦核心业务并





