Rokid灵珠景点讲解助手智能体开发全过程

时间：2026-05-31 15:48

旅行途中最令人尴尬的时刻是什么？站在一座古建筑前，匆忙掏出手机不断翻查百科，抬头却发现旅行团早已走远。有没有一种方式，能让我们无需低头、不必跟团，仅需抬头便能实时获取景点讲解？这一设想催生了一款基于 Rokid 灵珠开发的智能体——「随身导游·景点讲解助手」。它运行在 Rokid AI Glass

旅行途中最令人尴尬的时刻是什么？站在一座古建筑前，匆忙掏出手机不断翻查百科，抬头却发现旅行团早已走远。有没有一种方式，能让我们无需低头、不必跟团，仅需抬头便能实时获取景点讲解？

这一设想催生了一款基于 Rokid 灵珠开发的智能体——「随身导游·景点讲解助手」。它运行在 Rokid AI Glasses 上，用户只需凝视景点并询问“乐奇，帮我解说下这个景点”，眼镜便会通过摄像头自动识别当前景点，将讲解内容即时推送至镜片显示屏。换言之，真正实现了“解放双手、沉浸式游览”的 AI 导游体验。

以下，将从产品设计思路、灵珠智能体搭建、人设与回复逻辑编排，再到真机调试与演示，完整记录这款智能体的开发全流程。

一、产品构想：为什么需要一个“随身导游”？

传统景点讲解方式的痛点十分明显：跟团游时间固定、节奏受限，遇到感兴趣之处想多停留却身不由己；手机查询需要反复低头刷屏，严重破坏观景的沉浸感；语音导览设备需额外租借，内容千篇一律，缺乏个性化。

而 Rokid AI Glasses 恰好提供了一个理想载体——轻量级 AI 眼镜形态，内置摄像头可拍摄景点画面，镜片上能叠加显示文字信息，同时支持语音交互。借助灵珠的智能体开发能力，打造一款真正“看到即讲解”的 AI 导游，自然成为水到渠成的选择。

核心功能的设计上，主要聚焦两个方向：一是景点图像识别与确认——用户通过摄像头拍摄景点画面后，智能体调用景点图像识别模型，识别出景点名称及所在地区。若识别置信度低于 80%，会礼貌地询问用户确认，而非强行猜测。二是内容生成与语音播报适配——讲解内容控制在 150-200 字，语言简洁口语化，符合语音播报节奏，避免长句和专业术语堆砌。

二、灵珠智能体搭建全流程

进入开发者页面

首先需在灵珠平台进入开发者页面，完成开发者认证后，即可进入项目开发界面。

创建智能体

在灵珠的「项目开发」页面，选择创建「灵珠智能体」，需填写以下关键信息：

智能体名称：随身导游·景点讲解助手（限制 20 字以内）
类别：选择「生活」类，因为这是一款面向日常出行场景的应用
智能体功能介绍：简要描述核心功能——“无需跟团。支持三种讲解风格自由切换：正式讲解（适合深度游览）、幽默风趣（轻松有趣的旅行体验）、历史深度（专注文化与历史背景）。解放双手，沉浸感受每一处风景，让 AI 成为你随身的私人导游。”（限制 500 字）
图标：这是创建智能体时的必填项。设计了一个以山水风景为主题的图标，包含山峦、太阳和定位标记元素，既体现了“导游”属性，也暗示了 AI 识别定位的能力。

创建完成后，可在右侧的「提示词测试」区域输入测试语句（如“给我讲解下故宫”）并点击「立即测试」验证基本功能。测试通过后会显示绿色的「测试通过」标记。

配置入参类型和技能

由于智能体核心功能是识别景点图片，入参类型必须设置为“图片（首轮传递）”。这意味着用户首次与智能体交互时，Rokid AI Glasses 会自动拍摄当前画面并作为图片参数传入智能体，供视觉模型分析识别。

选择视觉大模型

模型选择上，采用 doubao-seed-1-6-vision-250815，这是一款支持视觉理解的多模态大模型，能够较好识别建筑物、景点等图像内容，并结合知识库生成高质量的讲解文本。

三、人设与回复逻辑：让 AI 像一个真正的导游

智能体的灵魂在于「人设与回复逻辑」的编排。这部分反复调试了不少时间，下面分享最终设计方案。

角色定义

角色定义明确了三个关键信息：运行环境是 Rokid AI Glasses、核心任务是景点讲解、数据来源是摄像头画面。

目标设定

核心目标是为用户提供精准、风格化的景点讲解，提升移动游览体验。具体方向包括确保图像识别准确性、讲解风格一致性及内容简洁性，适配语音播报场景。

技能模块拆解

智能体的能力被拆分为四个技能模块：

技能 1：景点图像识别与确认——接收用户通过 Rokid AI Glasses 摄像头拍摄的景点画面，调用景点图像识别模型，识别景点名称及所在地区。若识别结果置信度低于 80%，立即礼貌询问用户：“您当前看的是哪个景点？”，不进行猜测。

技能 2：讲解风格管理——首次使用时主动询问用户偏好的讲解风格，提供三个选项。接收用户“换个风格”指令时，立即切换至对应风格并回复确认：“已切换为[风格名称]讲解”。

技能 3：景点讲解内容生成——基于已识别景点，调用景点知识库获取景点简介、核心看点、冷知识/历史背景三类信息。按用户所选风格整合内容，篇幅严格控制在 150-200 字，语言简洁口语化，符合语音播报节奏（避免长句及专业术语堆砌）。

技能 4：多场景问题处理——当用户询问周边餐饮/交通等非讲解类问题时，调用本地生活服务接口获取简要信息（不超过 50 字）。

配置技能插件

在技能配置区域，需要挂载乐奇 AI 眼镜控制插件中的 notify_take_photo 插件。这个插件的作用是通知设备端拍照——当智能体需要获取用户视野中的景点画面时，会通过该插件指令 Rokid AI Glasses 执行拍照操作，将照片传回后端进行识别分析。

此外还有 notify_agent_off（通知设备退出当前智能体）和 notify_take_navigation（通知设备导航至目的地）等插件可供扩展使用。

四、真机调试：从灵珠到眼镜

智能体发布与提审

在灵珠完成所有配置后，点击右上角的「提审」按钮提交智能体。个人开发者创建的智能体在未提审通过前，仅自己可见可用，不会公开发布。

Rokid AI App 端配置

在手机上打开 Rokid AI App，进入设置 → 开发者页面。该页面提供了三个选项：「眼镜 ADB 调试」用于开发调试、「门店演示模式」用于线下展示，以及关键的「智能体调试」入口。

点击进入「智能体调试」，即可看到在灵珠创建的智能体列表。找到「随身导游·景点讲解助手」，点击「开启」即可将该智能体加载到 Rokid AI Glasses 上。

实测演示：从景点识别到三种风格切换

为验证智能体的完整交互链路，以天安门为测试对象（通过对准电脑屏幕上的天安门图片进行模拟测试），完整走了一遍从景点识别到风格切换的全流程。

第一步：景点识别

戴上 Rokid AI Glasses，对准屏幕上的天安门图片，发出语音指令：“乐奇，这是什么景点？”

眼镜自动拍摄画面并传入智能体，几秒后，镜片上叠加显示了识别结果与初步介绍——智能体准确识别出天安门广场，并简要描述了其作为明清皇城正门与新中国象征的双重身份，提到广场每天的升旗仪式、城楼正中的毛主席画像，以及周边故宫、国家博物馆等文化地标，最后还贴心地补充“来北京必打卡的地方，逛完还能去故宫、国家博物馆继续探索”，交互感自然流畅。

第二步：切换幽默风趣风格

识别完成后，发出指令：“请以幽默风趣的风格来给我讲解。”

风格切换响应迅速，智能体立刻以截然不同的腔调重新讲解天安门——称其为北京的“超级C位明星”、皇城的“形象代言人”，调侃广场每天熙熙攘攘全是来打卡升旗的小伙伴，说城楼旁边的标语“仿佛在说‘咱就是这么受欢迎，世界朋友都爱来玩’”。旁边故宫被形容为“皇上家的豪华大宅院”，国博则是藏着超多“历史宝藏”等你挖。整段讲解轻松诙谐，完全不像在背导览稿，更像一个熟悉北京的朋友在跟你聊天。

第三步：切换正式讲解风格

随后发出指令：“以正式的角度来给我讲解。”

智能体回复“已切换为正式讲解”，随即进入严谨规范的讲解模式：从天安门始建于明永乐十五年（1417年）说起，追溯其原名“承天门”的由来，介绍清顺治八年（1651年）改建更名的历史沿革，阐述其作为明清两代皇城正门的象征意义，并提及1949年10月1日开国大典这一历史节点。内容结构清晰，措辞严谨，适合希望深度了解景点历史背景的游览者。

第四步：切换历史深度风格

最后，发出指令：“请以聚焦历史文化背景的角度来给我讲解一遍。”

智能体切换为历史深度讲解，视角明显更为厚重：着重讲述天安门始建于明永乐十五年、初名“承天门”、取“承天启运、受命于天”之意，明英宗时被焚毁后重建，清顺治八年改建并正式定名“天安门”的演变历程；深入解析城楼建筑融合明清宫式建筑风格的内涵，指出每一处斗拱、彩绘都承载着600余年的历史变迁，见证了王朝兴衰与时代巨变；最后上升至文化象征层面，指出天安门是中华民族历史记忆的重要载体。这一风格适合对历史文化有浓厚兴趣、希望获得深度解读的游览者。