《陈策-从稳定到共情:对话式 AI 与硬件交互的技术探索.pdf》由会员分享,可在线阅读,更多相关《陈策-从稳定到共情:对话式 AI 与硬件交互的技术探索.pdf(33页珍藏版)》请在三个皮匠报告上搜索。
1、从稳定到共情:对话式 AI 与硬件交互的技术探索陈策目录01020304005智能硬件市场概况网易云信对话式 AI 技术架构硅基生命也有温度典型案例未来展望01智能硬件市场概况市场规模与需求:全球出货量及家居、穿戴等细分领域占比,用户需求2023全球智能硬件(含智能家居、可穿戴、教育/养老/陪伴机器人等)出货量约 18 亿台,同比+12%;其中智能家居占比 62%,可穿戴占比28%,其它(玩具、机器人、车载配件)2025预计 2025 年总出货量突破 23 亿台,复合增速 9-10%,主要增量来自带屏音箱、陪伴/养老机器人、AI 学习硬件。市场的增量主要来自于AI对传统硬件的升级技术现状与痛点
2、30 秒里,用户从放摇滚跳到娃的数学作业怎么办话题光速切换,设备却得先猜我到底是音乐 DJ,还是辅导老师,于是每次都要重新唤醒、选模型、建立上下文,对话被切成一段段孤岛。交互碎片化上周才告诉设备我花粉过敏,今天它依旧推荐周末去植物园用户画像一断电就归零,设备永远第一次认识你。记忆缺失无论你说我失恋了还是我升职了,设备都回同一句抱歉,我没听懂配同一颗平静蓝灯声音无温度,灯光无颜色,情绪被机械复读。情感响应同质化Real-time transmission实时传输系统更快Effortless interaction交互自然性提升更自然All-modal fusion多模态交互突破多维度Level-
3、one persona个性化情感交互更个性R依托于云信10年音视频技术底层基础,旨在构建新一代实时对话式AI智能体AEL实时对话式AI需要解决的问题02网易云信对话式 AI 技术架构网易云信实时对话式AI智能体方案架构客户端全终端RTC SDK(iOS/AOS/Mac/Windows/Linux/小程序/Web/H5/RTOS/电话等),实现跨端无缝对接利用WE-CAN 全球传输网络打通全球大模型,全流程流式处理,提供极致低延时云端AI 音视频引擎,将云信多年的端侧音频处理能力应用在云端,提供优质的交互自然性和多模态体验智能体平台支持个性化角色设定(Prompt、记忆、Tools、知识库),提
4、供个性化互动体验全链路各AI 模块均支持动态插拔,适配用户自有AI 模块,降低接入门槛网易云信RTC系统 边缘服务器就近接入,缩短第一公里 全球加速网络WE-CAN 音视频通话延迟最低200 MS客户端全终端RTC SDK(iOS/AOS/Mac/Windows/Linux/小程序/Web/H5/RTOS/电话等),实现跨端无缝对接全球边缘接入,缩短第一公里。中间节点智能路由WE-CAN 加速音视频通话延迟最低至200 MS丰富的音频算法积累,回声消除(AEC),AI降噪等AI-PipeLine全链路流式全链路流式 +各模块极致的延迟优化各模块极致的延迟优化音频前处理 支持opus/g711/
5、pcm 格式 支持云端AEC,支持降噪云端音频前处理ASR 阿里/讯飞/豆包/微软/自研 自动识别语言 vad断句优化,降低延迟 支持AiTurn,轮次判断众多供应商无缝切换LLM 流式输出 对接众多供应商 意图识别/记忆等能力放在Agent 平台对接Agent平台TTS根据LLM 的结果,进行攒句,分割,流式输入输出,延迟更低。流式输入和输出音频传输 弱网对抗,减少卡顿 音质增强 降低延迟jitterbuffer+neteq03硅基生命也有温度优雅打断适配差异化场景的打断方案适配差异化场景的打断方案实时双向对话场景 需要RTC 来支持音频双向流式传输 需要具备AEC 能力 端侧AEC 云端A
6、EC嘈杂环境 在一些环境嘈杂的场景下,自由语音打断容易出现频繁误打断。对讲机式的交替对话。明确的打断信号明确“打断信号”,保留全双向流式对话“边听边说”的灵活性,避免无意义误打断1语音打断自然对话打断句首打断/句尾打断手动打断2关键词打断3可自定义打断关键词优雅打断AIAI-TurnTurnVAD(Voice Activity Detection)语音活性检测被AI打断(说“很不错”的时候,AI就开始回复了)引入AI-Turn:用户说话被用户说话被AIAI打断打断“今天的天气,嗯,很不错”判断是同一句话声纹识别声纹识别,获取身份可选择开启声纹锁定声纹注册