成本最高降九成百度发布首个端到端语音语言大模型

新京报记者罗亦丹编辑寇德娜

2025-03-31 21:20

新京报贝壳财经讯（记者罗亦丹）3月31日，百度发布业界首个基于全新互相关注意力(Cross-Attention)的端到端语音语言大模型，在电话语音频道的语音问答场景中，调用成本较行业均值下降约50%-90%。当日，文小言宣布率先接入该模型。

接入全新的端到端语音语言大模型后，文小言能支持更拟真的语聊效果，并覆盖重庆、广西、河南、广东、山东等特色方言。据介绍，语音大模型具备极低的训练和使用成本，推理响应速度极快，可将语音交互用户等待时长从行业常见的3-5秒降低至1秒左右。

更新后的文小言还支持“多模型融合调度”，通过整合百度自研的文心X1、文心4.5等顶尖模型，并接入DeepSeek-R1等第三方优质模型，实现了多模型间的智能协同。用户可以选择“自动模式”，一键调用最优模型组合，或可根据需求灵活选择单一模型完成特定任务。

编辑寇德娜

校对穆祥桐

来阅读我的更多文章吧

罗亦丹

新京报记者