更懂你的AI伙伴!科大讯飞发布多模态超拟人交互
在2025年科大讯飞全球1024开发者节的现场,数字人“小飞”正与三人畅聊。TA会听能看,记得住对话人的身份、历史信息并给出贴心提醒,观察细节之后能给出详细的信息介绍与位置导览,甚至一键帮忙订票;TA能说会道,高情商回复既自然又灵动,还能用外语和外国朋友谈天说地。TA还化身为数字人林黛玉,形象清丽、语气惟妙惟肖。
特别是在多人聊天时,“小飞”还能理解和分辨到底是在和自己对话,还是多人之间相互聊天,从而判断是否接话和插话。
这一系列流畅、自然且充满“人情味”的互动,标志着多模态超拟人交互技术已从概念探索迈入可用、好用的新阶段。
这一前沿技术展示的背后,离不开坚实的技术积淀与产业共识的支撑。就在不久前,国际电信联盟(ITU-T SG21)在瑞士日内瓦召开全体会议,由科大讯飞与中国信通院共同参与编辑的两项数字人国际标准——ITU-T F.748.63(基础模型增强的数字人系统框架及通用技术要求)与ITU-T F.748.64(数字人服务平台要求)——顺利通过结项,计划于2026年正式发布。这意味着,推动产业发展的技术实践,正在凝聚成全球公认的规范。
一、技术内核:多模态超拟人交互,让“更懂你”
“小飞”所展现的惊艳体验,源于其在感知、认知与表达三大层面的技术协同突破。
在信息感知层面,系统具备了“耳聪目明”的能力。此次展示的多模态交互系统具备5米0dB远场高噪语音识别能力,在嘈杂环境中也能精准识别,更加贴合真实的使用和交互场景。基于多模态语音增强技术,系统能融合语音、人脸、姿态等信息,结合说话人站位锁定多人对话中的目标,实现音频与说话人的绑定,攻克了多人高噪场景下的识别难题。同时,讯飞创新性地提出说话人引导的注意力增强方案,实现对交互区域的细粒度视觉信息感知,让视觉信息更加准确;进一步提出局部检索增强技术,通过视觉思维链提取局部关键区域,实现远场条件下的局部物体检索增强识别。
在认知与理解层面,数字人开始“读懂心意”。多人交互理解技术融合对话历史、语音活动状态等信息,加强了模型对多人复杂场景的理解能力,更好地把握和用户的交互时机,以及交互意图的精准判断,实现了响应速度和响应质量的平衡,既不“抢答”也不“乱答”。另外,多模态交互系统能够实现分钟级情感解析、深度共情,读懂对话人的真实心绪,回应“心领神会”的默契瞬间。
![[MD:Title]](/d/file/p/2025/11-25/5206ae2059297d9c8830ddddf675fc11.png)
在表达与输出层面,交互变得更有温度。超拟人数字人能通过多模态前端定位说话人方位,像真人一样能视线跟随看向当前交互的对象,增强交互的真实感;数字人的回复也更加自然、共情,得益于多情感语音合成技术创新性研发了多轮上下文信息建模方案,能够对语音交互中的历史多轮QA音频和文本进行编码、感知对话人的情感变化,再通过语音合成大模型的自适应情感合成能力,让数字人的回复合成声音情绪语气随之变化,给出恰当的情感回应,在声音的自然度、情感表达、节奏停顿等细节上表现更好,尤其是在多轮交互中的效果提升显著。
值得一提的是,此次发布会上首发的个性化记忆能力也加入了超拟人交互系统,通过分层式动态记忆体架构,实现了长短期协同的精准用户记忆。结构化推理方案的设计,确保了模型在个性化任务中进行严谨的逻辑推理;借助强化学习在对齐用户个人偏好上持续优化,实现了从“内容个性化”到“沟通风格个性化”的进化,增强了多模态交互的个性化回复能力。
![[MD:Title]](/d/file/p/2025/11-25/65a4004d723efef1cf9805aad46c091d.png)
二、标准筑基:从技术实践到国际规范制定
技术上的领跑为规则制定提供了关键依据。此次科大讯飞能够主导国际标准的制定,离不开它在人工智能领域长期的技术积累和广泛的产品应用。
![[MD:Title]](/d/file/p/2025/11-25/fe08622c659c3329fbdd32b79413a033.jpg)
科大讯飞自主研发的星火大模型为数字人提供了深层的认知理解基础,而在语音、自然语言处理等领域的全栈式AI技术积累,则为实现自然流畅的人机交互奠定了基石。此前,科大讯飞的AI虚拟人交互平台通过了中国信通院人工智能研究所组织的大模型数字人基础能力分级测试,并获得最高等级L5认证,也进一步证明了讯飞AI虚拟人交互平台技术方案的先进性与成熟度。这些扎实且经过市场检验的技术能力,为其参与国际标准讨论与制定提供了重要依据,也将中国的技术实践融入了全球数字人产业发展的蓝图。
![[MD:Title]](/d/file/p/2025/11-25/bb0b7ab18cecea9ddc132d98037595f3.jpg)
三、场景落地:双平台驱动产业智能应用
技术的终极价值在于应用。科大讯飞通过讯飞智作与讯飞AI虚拟人交互平台,将前沿技术转化为可规模落地的产品与服务。
讯飞智作作为一站式虚拟人音视频内容生产平台,不仅提供丰富多元的形象与声音,还支持仅凭一张照片、一句话快速生成专属数字人,目前已构建超10万数字分身,500万的声音复刻,广泛赋能教培、金融、文旅、政企等多个业务领域。
讯飞AI虚拟人交互平台则聚焦全栈式虚拟人多场景应用服务,让数字IP不仅“动起来”,更能“交互起来”。平台支持零代码快速嵌入小程序、导游机等终端,更提供智能交互机、移动数字人、AI 虚拟人直播机等软硬一体化方案,同时通过终端 SDK、服务端 API、公有云 API 及私有化部署等灵活接入方式,可适配 APP、Web、小程序等多种产品形态。
![[MD:Title]](/d/file/p/2025/11-25/01d5f1252b356adc9e02393fc8eca063.jpg)
从多模态超拟人交互的技术突破,到参与国际标准制定的能力认证,再到双平台推动的产业赋能,科大讯飞在数字人领域形成了从技术到市场、从实践到标准的闭环。未来,随着“AI+行业”的持续深入,更智能、更自然的数字人有望在更多领域成为人类的智能伙伴。我们也将继续在多模态超拟人交互技术上踏实前行、持续进阶,不断带来新的惊喜。
#讯飞智作 #讯飞AI虚拟人交互平台 #数字人 #多模态超拟人交互 #科大讯飞
《更懂你的AI伙伴!科大讯飞发布多模态超拟人交互》转载自互联网,如有侵权,联系我们删除,QQ:369-8522。
相关图文
-
Intel华丽回归!2026年开年股价已上涨31%
快科技1月19日新消息,曾经深陷低谷、被认为错过AI初期浪潮的半导体巨头Intel,不仅在2025年实现了股价的三位数增长,更在2026年初继续保持强劲势头。回望过去一年,2025年初Intel股价一度跌至... -
5名骑手用钢管将手指砸骨折 骗保超32万涉嫌诈骗被判刑
1月19日消息,据检察日报正义网报道,近期,一起由外卖骑手精心策划的保险诈骗案在成都宣判,骑手张某曾因送餐受伤获赔后,组织团伙骗保,通过故意将手指砸至骨折,累计作案8起,骗取3家保险公司... -
北方冬天的奇幻一幕!40℃温差让牛棚秒变凌霄宝殿
快科技1月19日消息,随着四九开场,一场寒潮来袭北方,大部分地区经历冷暖逆转。近日,一位网友分享了北方冬天的奇幻一幕,引发网友热议。在内蒙古锡林郭勒,40℃温差让牛棚秒变“凌霄... -
西贝回应羊肉1年集中采购1次:8-10月份是羔羊风味巅峰
快科技1月19日消息,最近西贝因为创始人贾国龙的接连发声重获关注,在冷冻西兰花等问题之外,还首次正面回应了羊肉1年集中采购1次的话题。西贝表示,这并非出于成本考量,而是尊重草原的自然规... -
分屏交互 决策更高效!蜻蜓点金深度适配鸿蒙折叠电脑 移动端体验焕新 专业投资如影随行
金融市场瞬息万变,对于投资者而言,他们对“专业”工具的需求,从来不局限于“功能”本身,而是希望在任何时间、场景下,都能以最便捷的方式实时获取行情动态、准确做出投...

















