你是否曾经好奇,海豚那神秘的低语究竟在传达什么信息?
如今,借助人工智能的强大能力,实现“人与海豚”之间的跨物种沟通,或许比我们预想的要更加触手可及。
谷歌近期推出了一款名为DolphinGemma的创新AI模型,它不仅能解析海豚的“话语”,甚至可以在水下与它们展开实时互动。
这听起来像是科幻电影的情节,但事实上已经成为现实。不得不说,人类对AI应用的探索,恐怕连百分之一都尚未触及。
DolphinGemma本质上是一个基础语言模型——不过它的“母语”是音频数据。它经过专门训练,用于学习海豚发声的规律,并能生成类似海豚的声音序列。可以说,这是历史上第一个真正尝试与动物进行“对话”的大型语言模型。
谷歌CEO Sundar Pichai对此评价颇高,称其是“向着实现跨物种交流迈出了非常酷的一步”。同时,他宣布今年夏天将开源这个模型。也许未来,你带着它去水族馆,真的能展现一下“超能力”。
更令人兴奋的是,该模型轻量高效,参数仅为400M,可以流畅地部署在普通手机上。

数十年来,理解海豚的哨声与爆发脉冲一直是科学探索的前沿领域。
如果人类不仅能倾听海豚,还能彻底领悟它们复杂的交流方式,那是否意味着我们与另一个物种之间的沟通壁垒将被真正打破?
DolphinGemma打破交流障碍
与训练文本LLM的逻辑相似,DolphinGemma学习的核心同样是预测——只不过它预测的是海豚在声音序列中下一个可能出现的发声。
要实现这一点,技术路径非常清晰。DolphinGemma利用了谷歌独有的音频技术——SoundStream分词器,能够高效地表示海豚声音,将这些复杂的声学信号转化为模型可处理的序列,再由适宜复杂序列的模型架构进行深入分析。
得益于仅有400M的参数规模,该模型可直接在Google Pixel手机上运行,这为后续实地研究提供了极大的便利。

左侧展示了DolphinGemma早期测试中生成的哨声和爆发脉冲。
DolphinGemma基于Gemma构建,而Gemma本身就是谷歌最先进的轻量级开源模型系列,其研发技术与强大的Gemini模型同源。
与我们熟知的文本LLM不同,DolphinGemma是一个纯粹的音频输入、音频输出模型。它直接处理天然的海豚声音序列,识别其中的模式与结构,最终预测序列中可能的后续声音——这就像LLM预测下一个单词或Token一样,只不过“语言”变成了海豚语。
海豚数据集:WDP数十年的坚持
想要与海豚“交流”是一项极其艰巨的任务。
这项研究的突破,首先要归功于WDP(Wild Dolphin Project)提供的庞大且标注详尽的数据集。正是这个独家的数据库,为前沿AI研究提供了极其珍贵的训练素材。
自1985年以来,WDP开展了世界上持续时间最长的水下海豚研究项目。他们对巴哈马特定社区的野生大西洋斑点海豚(Stenella frontalis)进行了跨越数十年的追踪研究。

这种研究遵循“在他们的世界,以他们的方式”的非侵入性原则,打造了一个无比珍贵的数据集。它包含了数十年积累的水下视频和音频记录,每条数据都与个体海豚的身份、生活史和观察行为仔细配对。

一群大西洋斑点海豚。
WDP长达数十年的观察工作至关重要。其最终目标是理解这些海豚声音序列中的结构与潜在含义——即寻找海豚语言中隐藏的模式和规则。没有这种对自然交流的长期分析作为基础,任何AI分析都将是空中楼阁。

左边展示了一只母斑点海豚在觅食时观察幼崽,她会使用独特的签名哨声呼唤幼崽回来。右边是用于可视化海豚哨声的频谱图。
用Pixel手机和海豚交流
有了数据和模型,下一个关键问题是:如何让DolphinGemma发出的声音真正被海豚听到并回应?
为此,WDP与佐治亚理工学院合作,开发了一套名为“鲸目动物听力增强遥测”(CHAT)的水下计算机系统。
CHAT的路径非常巧妙。它并没有试图直接破译海豚复杂的自然语言,而是先建立一个更简单、共享的“词汇表”。研究人员在自己之间演示这套系统的用法,希望天生好奇的海豚能学会模仿这些特定哨声,从而向人类索要它们喜爱的物品。随着对更多海豚自然声音的理解,这些声音也能逐步被添加到系统中。
CHAT系统的最新版本,选择以Google Pixel 9为基础,整合了扬声器和麦克风功能,并充分利用了智能手机的先进处理能力。使用Pixel手机最大的好处是极大地减少了对定制硬件的依赖,降低了设备的成本和体积,这对于在公海进行研究的科研人员来说是巨大的利好。

一台Google Pixel 9被集成在了最新的CHAT系统硬件内部。
部署在手机上的DolphinGemma,可以直接帮助CHAT在海豚发声序列的早期阶段预测和识别出潜在的模式。
跨物种交流,AI搞定
不得不说,谷歌这次推出DolphinGemma,确实值得点个大大的赞。在当下业界巨头们都在疯狂“卷模型”规模的时候,DolphinGemma不仅另辟蹊径,也让我们看到了AI更多的可能性。
在探索AI新应用的同时,它也给了像WDP这样数十年如一日坚持科研的团队带来了前所未有的机遇。AI对我们生活的影响,还远远没有结束。
DeepMind的CEO Hassabis还透露,未来有计划与更多高智商动物进行交流,比如他家里的狗。

Hassabis说他很想知道自己家的狗到底在想什么。
谁敢说这不可能呢?也许在不久的将来,每个人都能借助AI,直接和自己的猫狗来一场“家庭对话”。
这个画面,想想就充满了喜感。

