亚马逊推新模型Nova Sonic,AI语音应用更像自然人类对话

发布时间:2025-04-10 16:15

亚马逊于周三(9日)宣布推出突破性语音基础模型Amazon Nova Sonic,将语音理解与生成功能整合至单一模型,使AI语音应用更贴近自然人类对话。该模型透过Amazon Bedrock平台提供API接口,大幅简化语音应用开发流程。

传统语音应用难保留声学情境

亚马逊表示,如何表达与表达什么同样重要,甚至更为关键。从过去直到现在,透过AI实现这一点仍是巨大挑战。传统语音应用开发需复杂协调多个模型,例如将语音转为文字的语音识别模型、理解并生成回覆的大语言模型、将文字再转为音频的文本转语音模型。这种分散的方法不仅增加了开发的复杂性,同时亦难保留自然对话中至关重要的声学情境和细微差别,如语气、语调韵律和说话风格等。

Nova Sonic可理解语气与风格

至于Nova Sonic的主要创新在于摒弃了使用多个不同模型的方式,而是将理解与生成功能统一于单一模型中。这种整合使模型能根据语气、风格等声学情境以及口语输入调整所生成的语音响应,从而实现更自然的对话。此技术预计将广泛应用于客户服务自动化,以及旅游、教育、医疗和娱乐等多个领域的AI Agent系统。

此外,Nova Sonic透过整合语音处理功能,能够在保留完整声学情境的同时进行理解与回应,让AI语音交流更自然流畅,能够理解说话者的自然停顿、适时回应,甚至处理交谈中的插话情况,大幅提升AI语音应用的使用体验。

 以上内容归星岛新闻集团所有,未经许可不得擅自转载引用。