能听懂人类“弦外之音”, 阶跃星辰再开源端到端语音大模型

9月1日，“多模态卷王”阶跃星辰正式发布开源端到端语音大模型Step-Audio2mini，在多个国际基准测试集上取得SOTA（State-of-The-Art，当前最佳水平）成绩，在大部分任务上超越GPT-4o-audio。

技术层面，Step-Audio2mini采用了端到端多模态架构，将语音理解、音频推理与生成统一建模，时延更低、输出更快，还能更加精准地理解副语言信息、非人声信号等语音要素。Step-Audio2mini首创的音频推理能力，能对情绪、语调、音乐等副语言和非语音信号进行精细理解、推理并自然回应。

同时，该模型支持语音原生的ToolCalling能力可实现联网搜索等操作，有效解决幻觉问题，并让语音模型具有知识储备和推理能力。

目前，Step-Audio2mini已在GitHub、HuggingFace等平台发布。（澎湃新闻记者秦盛）

超级魔药发布网,提供超级魔药发布信息,第一时间发布列表及资讯,超级魔酸是超级魔酸首选资讯平台。