24日,2023年度国家科学技术奖在京揭晓,科大讯飞作为第一完成单位的《多语种智能语音关键技术及产业化》项目获得国家科学技术进步奖一等奖。
这是深度学习引发全球人工智能浪潮以来,过去十年人工智能领域首个国家科学技术进步奖一等奖。
关键技术取得四大突破
语音是人类最自然便捷的沟通方式,是智能设备人机交互的关键入口,也是诸多敏感信息的重要载体。多语种智能语音技术对于支撑人机交互、人类语言互通等需求具有重大战略意义,具有十分广阔的产业前景,是当前国际科技竞争核心焦点之一。
持续攻关多年,科大讯飞攻克了多个技术难题,提出了四个方面的技术创新:复杂语音信号解耦建模关键技术突破,多语种共享建模关键技术突破,语音语义联合建模关键技术突破,以及国产异构硬件平台训练及推理加速关键技术突破。
语音识别研究中最具挑战的是远场、噪声、多人语音混叠等现象导致的“鸡尾酒会”效应典型难题。为解决这一难题,科大讯飞提出了多通道语音信号时空分离建模方法和多维度语音属性解耦表征方法,实现语音信号中内容、噪声等高度耦合的多维属性特征解耦,使得复杂场景下语音识别准确率得到重大突破。
为了应对多语种技术“卡脖子”问题,必须解决小语种智能语音系统构建所面临的知识匮乏、训练数据稀缺等难题。科大讯飞设计了全新的多语种通用音素体系和基本语言单元,实现多语种统一音素韵律体系的构建,又通过基于元学习的多语种预训练和基于语族分组的多语种共享建模——通俗地说,就是将不同的小语种进行分类,找到同类语种的共同规律,进行分析建模和训练。
复杂应用场景下语音交互、语音翻译面临着深层次语义理解困难、专业性不足等问题。科大讯飞提出语音语义互增强的鲁棒口语理解技术,有效提升语音交互、语音翻译等复杂场景的语义理解准确率;提出多源知识增强的可信文本生成技术,提升专有词汇及领域知识引用的准确率。
为解决使用国产芯片开展智能语音算法模型训练和推理面临的性能低、适配难等问题,科大讯飞提出的硬件亲和的变长输入算子融合和联合统一量化感知训练技术,通过软硬件协同优化的动态张量算子自动融合方法,实现对语音等变长输入的训练性能优化达到国际主流芯片同等水平。
未来:智能语音+认知大模型
据了解,因2021年度、2022年度国家科学技术奖暂停的缘故,2023年度国家科学技术奖积累了大量的优秀成果,无论是提名环节拿指标、初评环节过网评,还是答辩环节,竞争都异常激烈。
科大讯飞表示,通用人工智能时代,多语种智能语音关键技术中的创新和大模型技术将相互补充、相互促进。
语音属性解耦、语音信号时空分离等技术突破,可以将语音信号经过编码后输入到大语言模型,显著提升语音大模型的效果。今年1月30日,科大讯飞就基于相关技术融合路线发布了星火语音大模型,显著超过了OpenAI的Whisperv3的语音大模型能力,Whisperv3的24个主要语种的平均识别率为82%,而星火语音大模型达到了90%。4月26日,科大讯飞又首发多情感超拟人合成和一句话声音复刻能力,使机器具备更加丰富的超拟人情绪感知和表达。
大模型技术可以在复杂语义理解、长文本建模能力上进一步提升语音识别、合成和翻译的效果,同时基于其强大的语义理解、知识问答、多轮对话、多模态建模能力,也能进一步大幅提升智能语音技术的使用场景和应用价值,支撑实现语音同传、自动客服、辅学答疑、家庭医生、虚拟员工、陪伴机器人、服务机器人等等未来智能产品创新,带来巨大产业机会,加速通用人工智能时代的到来。
另据透露,就在后天(27日),讯飞星火V4.0也将正式发布,底座能力全面对标GPT-4Turbo,语音大模型也将迎来全新升级。
新民晚报记者郜阳
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。