WorldCupVoice是什么
直接说结论:WorldCupVoice 是一款开源的人工智能实时体育解说系统,专为直播场景打造。接入 Agora RTC 直播流后,它利用视觉模型实时分析比赛画面,自主生成语音解说并回传到直播间,观众可同步收听。系统后端兼容 OpenAI TTS、ElevenLabs 和 Fish Audio 多款语音引擎,支持英语、法语、中文等多种语言,甚至能模拟不同国家的解说风格。这个项目最初是为世界杯这类大型赛事设计的,但一个有意思的点在于,它同时考虑了视障用户的无障碍观赛需求——比如提供球场空间细节,这些传统解说往往不会花时间讲。

WorldCupVoice的主要功能
- 实时 AI 解说:从 Agora RTC 直播流中抓取视频帧,视觉模型实时分析,生成语音解说并回传。
- 多语音引擎支持:OpenAI TTS、ElevenLabs、Fish Audio 三款引擎自由切换。
- 多语言解说:英语、法语、中文……换语言就像换台一样简单,还能配置不同国家的解说风格。
- 直播流接入:走的是 RTMP 推流 → Agora Media Gateway → RTC 频道这条链路,OBS、本地视频、云端推流都行。
- 浏览器观赛界面:基于 Next.js 的前端,直播视频、AI 解说音频、实时字幕、解说员状态监控,一屏搞定。
- 成本管控机制:显式 Start/Stop AI 控制、观众心跳检测、硬会话超时——防止 AI 资源无止境烧下去。
- 视障辅助模式:提供球场级空间细节,弥补传统人类解说常忽略的信息盲区。

如何使用WorldCupVoice
- 环境准备:配置 Agora App ID/Certificate 和 OpenAI API Key,生成后端密钥。
- 前端启动:
pnpm install→ 配置.env.local→pnpm dev。 - 后端启动:
cd server→ 创建 Python 虚拟环境 →pip install→ 配置 TTS 提供商 →uvicorn app.main:app。 - 推流设置:通过 Agora Media Gateway REST API 生成 RTMP 推流密钥,用 OBS 或本地 ffmpeg 推流。
- 开始解说:浏览器进入直播间,点击「Start AI」按钮,AI 解说员即刻上线。
WorldCupVoice的核心优势
- 实时性:AI 和观众同看一条 RTC 流,解说延迟完全可控。
- 无障碍设计:专为视障用户提供空间细节,传统解说很少覆盖这点。
- 多语音风格:ElevenLabs 的专业体育解说风、Fish Audio 的中文梗解说、战术分析风——换风格就像换台。
- 成本可控:会话级启停控制 + 心跳检测 + 硬超时,AI 资源不会被白白浪费。
- 开源可扩展:MIT 协议,支持自定义比赛数据注入 AI 上下文,想怎么玩都行。
WorldCupVoice的项目地址
- GitHub仓库:https://github.com/zicojiao/worldcupvoice
WorldCupVoice的同类竞品对比
WorldCupVoice的应用场景
- 世界杯/足球赛事直播:直播平台可以额外开一个 AI 解说频道,观众自由切换语言和风格。
- 视障体育观赛:为盲人或低视力用户提供详细的球场空间信息解说,这是传统转播很少做到的。
- 小众赛事直播:低级别联赛、校园比赛,缺乏专业解说资源?AI 自动顶上。
- 多语言国际赛事:同一场比赛,同时输出中、英、法等多语言 AI 解说。
- 电竞赛事解说:LOL、CS2 等电竞比赛的实时 AI 战术解说,理论上也可以扩展覆盖。
