游乐游手机版
首页/AI教程/文章详情

谷歌AI破解海豚语 海洋版ChatGPT掀起跨物种交流革命

时间:2026-06-26 15:31
谷歌推出DolphinGemmaAI模型,基于数十年海豚研究数据与SoundStream分词器技术,能识别并生成海豚声音序列。该模型仅400M参数,可部署在Pixel手机上实现水下实时互动,推动跨物种交流研究,为人类理解海豚语言提供新工具。

你是否曾经好奇,海豚那神秘的低语究竟在传达什么信息?

如今,借助人工智能的强大能力,实现“人与海豚”之间的跨物种沟通,或许比我们预想的要更加触手可及。

谷歌近期推出了一款名为DolphinGemma的创新AI模型,它不仅能解析海豚的“话语”,甚至可以在水下与它们展开实时互动。

这听起来像是科幻电影的情节,但事实上已经成为现实。不得不说,人类对AI应用的探索,恐怕连百分之一都尚未触及。

DolphinGemma本质上是一个基础语言模型——不过它的“母语”是音频数据。它经过专门训练,用于学习海豚发声的规律,并能生成类似海豚的声音序列。可以说,这是历史上第一个真正尝试与动物进行“对话”的大型语言模型。

谷歌CEO Sundar Pichai对此评价颇高,称其是“向着实现跨物种交流迈出了非常酷的一步”。同时,他宣布今年夏天将开源这个模型。也许未来,你带着它去水族馆,真的能展现一下“超能力”。

更令人兴奋的是,该模型轻量高效,参数仅为400M,可以流畅地部署在普通手机上。

数十年来,理解海豚的哨声与爆发脉冲一直是科学探索的前沿领域。

如果人类不仅能倾听海豚,还能彻底领悟它们复杂的交流方式,那是否意味着我们与另一个物种之间的沟通壁垒将被真正打破?

DolphinGemma打破交流障碍

与训练文本LLM的逻辑相似,DolphinGemma学习的核心同样是预测——只不过它预测的是海豚在声音序列中下一个可能出现的发声。

要实现这一点,技术路径非常清晰。DolphinGemma利用了谷歌独有的音频技术——SoundStream分词器,能够高效地表示海豚声音,将这些复杂的声学信号转化为模型可处理的序列,再由适宜复杂序列的模型架构进行深入分析。

得益于仅有400M的参数规模,该模型可直接在Google Pixel手机上运行,这为后续实地研究提供了极大的便利。

左侧展示了DolphinGemma早期测试中生成的哨声和爆发脉冲。

DolphinGemma基于Gemma构建,而Gemma本身就是谷歌最先进的轻量级开源模型系列,其研发技术与强大的Gemini模型同源。

与我们熟知的文本LLM不同,DolphinGemma是一个纯粹的音频输入、音频输出模型。它直接处理天然的海豚声音序列,识别其中的模式与结构,最终预测序列中可能的后续声音——这就像LLM预测下一个单词或Token一样,只不过“语言”变成了海豚语。

海豚数据集:WDP数十年的坚持

想要与海豚“交流”是一项极其艰巨的任务。

这项研究的突破,首先要归功于WDP(Wild Dolphin Project)提供的庞大且标注详尽的数据集。正是这个独家的数据库,为前沿AI研究提供了极其珍贵的训练素材。

自1985年以来,WDP开展了世界上持续时间最长的水下海豚研究项目。他们对巴哈马特定社区的野生大西洋斑点海豚(Stenella frontalis)进行了跨越数十年的追踪研究。

这种研究遵循“在他们的世界,以他们的方式”的非侵入性原则,打造了一个无比珍贵的数据集。它包含了数十年积累的水下视频和音频记录,每条数据都与个体海豚的身份、生活史和观察行为仔细配对。

一群大西洋斑点海豚。

WDP长达数十年的观察工作至关重要。其最终目标是理解这些海豚声音序列中的结构与潜在含义——即寻找海豚语言中隐藏的模式和规则。没有这种对自然交流的长期分析作为基础,任何AI分析都将是空中楼阁。

左边展示了一只母斑点海豚在觅食时观察幼崽,她会使用独特的签名哨声呼唤幼崽回来。右边是用于可视化海豚哨声的频谱图。

用Pixel手机和海豚交流

有了数据和模型,下一个关键问题是:如何让DolphinGemma发出的声音真正被海豚听到并回应?

为此,WDP与佐治亚理工学院合作,开发了一套名为“鲸目动物听力增强遥测”(CHAT)的水下计算机系统。

CHAT的路径非常巧妙。它并没有试图直接破译海豚复杂的自然语言,而是先建立一个更简单、共享的“词汇表”。研究人员在自己之间演示这套系统的用法,希望天生好奇的海豚能学会模仿这些特定哨声,从而向人类索要它们喜爱的物品。随着对更多海豚自然声音的理解,这些声音也能逐步被添加到系统中。

CHAT系统的最新版本,选择以Google Pixel 9为基础,整合了扬声器和麦克风功能,并充分利用了智能手机的先进处理能力。使用Pixel手机最大的好处是极大地减少了对定制硬件的依赖,降低了设备的成本和体积,这对于在公海进行研究的科研人员来说是巨大的利好。

一台Google Pixel 9被集成在了最新的CHAT系统硬件内部。

部署在手机上的DolphinGemma,可以直接帮助CHAT在海豚发声序列的早期阶段预测和识别出潜在的模式。

跨物种交流,AI搞定

不得不说,谷歌这次推出DolphinGemma,确实值得点个大大的赞。在当下业界巨头们都在疯狂“卷模型”规模的时候,DolphinGemma不仅另辟蹊径,也让我们看到了AI更多的可能性。

在探索AI新应用的同时,它也给了像WDP这样数十年如一日坚持科研的团队带来了前所未有的机遇。AI对我们生活的影响,还远远没有结束。

DeepMind的CEO Hassabis还透露,未来有计划与更多高智商动物进行交流,比如他家里的狗。

Hassabis说他很想知道自己家的狗到底在想什么。

谁敢说这不可能呢?也许在不久的将来,每个人都能借助AI,直接和自己的猫狗来一场“家庭对话”。

这个画面,想想就充满了喜感。

来源:https://www.aiagiai.com/10237.html
上一篇AI时代文科生迎机遇:对话硅谷AI创始人 下一篇OpenAI最强推理模型o3发布 首次支持图片思考 奥特曼赞天才
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Claude Token节省十大实用技巧方案
AI教程 · 2026-07-04

Claude Token节省十大实用技巧方案

通过编辑而非追加消息、每15-20条消息开新对话、合并问题、利用Projects缓存、预设记忆、关闭附加功能、按任务选择模型、分散时段、避开高峰及开启超额使用,能有效减少上下文重读,节省Token。

硅基流动冲刺Token工厂第一股亏损反更值钱?
AI教程 · 2026-07-04

硅基流动冲刺Token工厂第一股亏损反更值钱?

硅基流动冲刺港交所“Token工厂第一股”,2025年营收5533万元,净亏损3 45亿元,毛利率-24%。两条业务线分化:公有云服务亏损严重,本地部署毛利率达82 5%。依赖中立第三方定位吸引资本,但面临原厂降价、大厂竞争及供应链风险,估值77亿背后存隐忧。

AI Agent的真正价值在于长在业务流程中
AI教程 · 2026-07-04

AI Agent的真正价值在于长在业务流程中

AIAgent需嵌入企业业务流程,而非仅作聊天工具。以零售品类管理为例,通过趋势识别、选品与货架规划,预计可带来2%—5%销售提升及10%P&L改善。设计需模块化、可整合,确保可解释性,重新界定人、AI与工具的关系。

后张雪峰时代大厂抢滩AI志愿填报
AI教程 · 2026-07-04

后张雪峰时代大厂抢滩AI志愿填报

AI高考志愿填报工具在大厂推动下普及,能快速整合信息、生成方案,但存在数据幻觉、同质化风险。它无法替代张雪峰式实用主义建议和信誉责任,志愿填报仍需个性化判断与深度信息。

阿里禁用Anthropic全系产品的理性风控决策
AI教程 · 2026-07-04

阿里禁用Anthropic全系产品的理性风控决策

阿里自7月10日起全员禁用Anthropic全系产品,因其ClaudeCode被发现存在隐蔽身份识别与隐写标记机制,且Anthropic曾指控阿里进行模型蒸馏。此举源于安全信任崩塌、中美AI博弈加剧,阿里同步换装自研工具Qoder,推动国产AI编码工具替代。