游乐游手机版
首页/AI教程/文章详情

Qwen3.5 LiveTranslate实时同传浏览器Demo开源,一条命令跑起

时间:2026-06-06 17:29
先别急着翻文档,我们直接给你一个能跑起来的浏览器页面。 Qwen3 5 LiveTranslate 的完整浏览器端 Demo 已经开源了。你只需要克隆仓库、装好依赖、敲一行 uvicorn 命令,打开浏览器就能体验实时同声传译——从麦克风输入到翻译文本和音频输出,全链路开箱即用。 为什么做这个 De

先别急着翻文档,我们直接给你一个能跑起来的浏览器页面。

Qwen3.5 LiveTranslate 的完整浏览器端 Demo 已经开源了。你只需要克隆仓库、装好依赖、敲一行 uvicorn 命令,打开浏览器就能体验实时同声传译——从麦克风输入到翻译文本和音频输出,全链路开箱即用。

一条命令跑起实时同传:Qwen3.5 LiveTranslate 浏览器 Demo 开源了

为什么做这个 Demo

Qwen3.5 LiveTranslate 是通义千问语音团队推出的新一代实时同声传译模型。模型本身已经通过阿里云百炼开放了 API,但只看协议文档,其实很难直观感受到“实时”到底有多快、“音色克隆”到底像不像、“视觉消歧”到底怎么用。

这个 Demo 就是为了让你 30 秒内看到效果。

五项核心能力,一个 Demo 全部覆盖

多语向覆盖
能听懂 60 种语言,能说出 29 种语言的翻译音频。从中英日韩到阿拉伯语、印地语、冰岛语——覆盖范围远超常见同传方案。其余 31 种语言支持文本翻译输出。

超低延迟
首字延迟 2.5 秒,字均延迟 2.8 秒。基于全新“可读单元流式”技术,模型不等整句说完就开始翻译,但又不会像逐词翻译那样断裂——它以语义完整的“可读单元”为粒度流式输出。

实时音色克隆
翻译音频不是千篇一律的 TTS 机器音,而是实时复刻说话人的原始音色。你说中文,翻译出的英文“听起来还是你在说”。

热词增强
人名、地名、品牌名、行业术语——这些通用模型最容易翻错的词,可以通过热词表优先识别和翻译。在客户演示场景下,这个功能直接决定了翻译结果能不能用。

视觉消歧
打开摄像头模式后,模型会结合屏幕画面中的文字和场景信息来消除多义词歧义。比如当画面中间出现“Apple”的 logo 时,模型知道说的是苹果公司而不是水果。

三步跑起来

环境要求:Python 3.10,一个阿里云百炼 API Key(需要开通 qwen3.5-livetranslate-flash-realtime 模型权限)。

1. 克隆仓库

git clone https://github.com/modelstudioai/LiveTranslate-Demo.git
cd LiveTranslate-Demo

2. 安装依赖

python3 -m venv .venv
source .venv/bin/activate
python3 -m pip install -r requirements.txt

3. 启动

python3 -m uvicorn server:app --host 127.0.0.1 --port 8010

浏览器打开 https://127.0.0.1:8010,在页面上输入你的 API Key,选择区域(中国大陆 / 新加坡国际站),就可以开始了。

不确定 Key 是否有权限?项目自带了一个检测脚本:

export DASHSCOPE_API_KEY="your_key"
python3 check_access.py mainland # 或 intl

架构一览

整个 Demo 的架构非常简洁:

  • 浏览器采集 16kHz mono PCM 音频,Camera 模式下采集 JPEG 帧,通过 WebSocket 发送到本地后端
  • FastAPI 后端做袋里转发到阿里云百炼 WebSocket 端点
  • Qwen3.5-LiveTranslate-Flash 模型返回流式翻译文本和 24kHz PCM 音频

前端负责采集和播放,后端只做袋里转发。所有核心逻辑在模型侧完成。代码量很小,适合通读源码后直接参照接入到自有产品中。

作为 API 接入参考实现

这个 Demo 不只是“看效果”的玩具。它完整展示了阿里云百炼实时语音 API 的子协议实现:

  • session.update:配置翻译方向、热词表、输出模态
  • input_audio_buffer.append:流式推送音频数据
  • input_image_buffer.append:推送视觉帧(Camera 模式)
  • 流式响应解析:处理增量文本和音频 chunk

如果你正在考虑把实时翻译能力集成到自己的产品中,直接读这个 Demo 的代码比看文档快得多。

双 Region 支持

内置中国大陆和新加坡国际站两个 Region 切换,页面上一个下拉框就能搞定,满足不同区域的合规要求。

试试看

如果你做的事情和“实时翻译”沾边——无论是国际会议场景、跨语言客服、直播同传、还是教育领域的语言学习——这个 Demo 可以帮你在 5 分钟内验证 Qwen3.5 LiveTranslate 是否满足需求。

来源:https://developer.aliyun.com/article/1737148
上一篇阿里千问Qwen3.7-Max面向智能体设计超越Kimi等 下一篇人工智能扩散模型原理详解与图像生成实战
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
阿里云OpenClaw官方镜像六大场景3分钟开箱即用指南
AI教程 · 2026-06-06

阿里云OpenClaw官方镜像六大场景3分钟开箱即用指南

先聊聊OpenClaw到底是什么,以及它为什么值得关注。作为阿里云推出的智能助理平台,OpenClaw基于通义千问大模型深度定制,目标很明确:为开发者、创作者、运营者提供一站式的AI赋能解决方案。下面直接切入正题,看看它的六大核心场景。 OpenClaw 智能助理:六大核心场景赋能开发者高效成长 O

Moltbot Clawdbot与飞书机器人接入实践
AI教程 · 2026-06-06

Moltbot Clawdbot与飞书机器人接入实践

简单认识一下 Clawdbot 最近 AI 圈被一款名为 Clawdbot 的产品刷屏了。不管是在国内技术社区,还是刷 TG、X 的时候,几乎都能看到有人在讨论它。 看了一下官方文档,Clawdbot 本质上就是一个偏“个人智能助手”的东西。不过它并不是单独开一个网页给我们用,而是可以直接接入我们平

SpringAI与ONNX打造免费离线向量引擎
AI教程 · 2026-06-06

SpringAI与ONNX打造免费离线向量引擎

前段时间尝试了一个很有意思的项目——原本只是想在 Spring AI 项目中顺手集成 ONNX 模型,结果一上手就停不下来,直接调试到凌晨两点,边调边感慨:整个过程也太丝滑流畅了。 今天就来深入聊聊这件事:如何在 Spring AI 中使用 ONNX 向量模型,实现本地化的文本嵌入能力。 如果你之前

AI智能体技能完全指南:让你的AI助手拥有超能力
AI教程 · 2026-06-06

AI智能体技能完全指南:让你的AI助手拥有超能力

引言:AI Agent 的能力边界在哪里?你的AI编程助手可以编写代码,但它是否真正理解你公司的独特工作流程?能否自动处理你的CI CD流水线?又是否熟悉你日常使用的那些特定工具与API接口?AI Agent Skills正是为解决这一痛点而诞生的——它们作为可复用的能力模块,能够将通用型AI助手转

AI编程神器狂揽34k星与Claude Code和Codex绝配
AI教程 · 2026-06-06

AI编程神器狂揽34k星与Claude Code和Codex绝配

CC Switch:一站式AI编程工具管理神器 今天要介绍的这款实用小工具,名字叫作CC Switch。它是一款跨平台的桌面“All-in-One”助手,专门用于管理主流的AI编程开发工具。目前该项目在GitHub上已经获得了34k+ star,关注度非常高。它的核心卖点很直接:提供一个可视化操作界