「ai」“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案
精选评测好文
原文标题:“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案
机器之心报道
机器之心编辑部
这项技术未来在虚拟人、短视频玩法、客服服务、直播互动玩法上有着很大的落地空间。
字节跳动智能创作语音团队 SAMI(Speech, Audio and Music Intelligence)近日发布了新一代的低延迟、超拟人的实时 AI 变声技术。不同于传统的变声,AI 变声是基于深度学习的声音转换(Voice Conversion)技术来实现的,可以实现任意发音人的音色定制,极大程度保留原始音色的特点。
该方案的亮点如下:
在 CPU 单核上就能做到极低延迟的实时输入实时变声,就像 " 柯南领结 " 一样;
能够高度还原输入语音的抑扬顿挫、情感、口音,甚至连轻微的呼吸、咳嗽声也能还原;
媲美真人的高保真音质,以及高度的目标音色一致性;
从语音合成到声音转换:探索更多元的声音玩法
语音合成作为人工智能的一个重要分支,旨在通过输入文字,经由人工智能的算法,合成像真人语音一样自然的音频,该技术已被广泛的应用于音视频创作场景中。而相比语音合成,声音转换创造了新的语音交互形式:其不再需要输入文字,而是根据用户输入的说话音频,将音频中的音色转换到目标发音人上,并保持说话内容、韵律情感等一致。相较于输入文本,输入音频包含了更丰富的副语言信息,例如各个段落的情感、抑扬顿挫、停顿等。声音转换能够做到改变音色的同时,将这些副语言信息很好的还原:
中文:
英文:
同基于深度学习的语音合成一样,声音转换的模型也由声学模型(acoustic model)和声码器(vocoder)组成。声学模型通过内容编码器从输入音频中提取出发音内容序列,并通过音色编码器从参考音频中提取出音色特征,最后通过声音转换模型生成带有输入音频内容和参考音频音色的频谱;声码器负责将声学模型生成的频谱还原为能够被设备直接播放的音频采样点 :
面向实时场景的声音转换模型优化
相较于非实时场景下对完整音频的声音转换,实时声音转换有着更加丰富的落地场景。典型的场景包括直播、虚拟人这类实时交互的娱乐场景,变声的结果需要在很短的延迟内实时流式的生成,才能保证音画同步。
实时声音转换的难点在于:1. 模型在每个时刻只能获取到很短的未来音频片段,因此发音内容的正确识别更加困难;2. 流式推理的实时率(计算时长 / 音频时长)需要稳定小于 1,因此在设计模型时需要更加关注推理性能。这给研发人员带来了更大的挑战,一方面需要通过设计合理的模型结构来降低模型感受野和推理延时,另一方面需要尽可能保证变声的发音内容、音色和音质不受影响。
为了达到上述要求,研究人员对模型进行了一系列改进,使得模型的首包延时压缩到 250ms 左右。实时声音转换的整体框架如下:
对于内容编码器,研究人员采用细粒度发音提取模块代替了传统基于音素后验概率的方法,使得更多的发音细节、韵律情感能够被保留下来,且显著降低了对模型感受野的要求;对于声音转换模型,研究人员结合了 chunk 级别的信息编码和帧级别的自回归解码,并引入了基于教师指导的训练机制,从而确保了生成频谱的发音、音质和音色足够好;对于声码器,研究人员通过精巧的模型结构设计大大压缩了感受野,并通过对抗生成训练提高了生成音频的自然度。
现实版 " 柯南领结 ":各种复杂场景不在话下
现实的语音交互中往往包含许多复杂的场景,使得现有大部分的 AI 变声系统的转换结果变得极不自然。例如,当用户输入中包含叹气、咳嗽这类声音时,现有系统倾向于对其过滤而非保留,从而导致用户想表达的副语言信息的丢失。并且,现有系统的跨域性能较差,从而导致用户进行多语种 / 方言输入时,无法转换出正确的内容。此外,现有系统在低延迟场景下的转换结果容易出现发音错误与音色不稳定的问题。
相较于现有系统,本系统在各个场景下的转换效果均显著提升。以下视频演示了无网环境下在 Macbook 上的实时流式变声效果。用户通过蓝牙耳机实时输入语音,Macbook 实时输出变声结果,模型转换的平均延迟大约 250ms:
使用呆萌音色朗读 " 玛卡巴卡 ",较难理解的文本也可以非常准确转换:
输入方言也能够自然地转换,以上海话为例:
提高一下难度,甚至连 B-box 的转换都毫无违和感:
SAMI 的新一代 AI 变声系统对于复杂场景的适应性显著提升。这项声音转换服务可以支持云端在线服务形式输出,也支持本地化部署。未来在虚拟人、短视频玩法、客服服务、直播互动玩法上有着很大的落地空间。
推荐阅读:8K的高清分辨率能带来什么?TCL为你解读<\a>
其他人还看了
「ipad」惊喜价格!苹果iPadAir4平板电脑仅3899元
「分辨率」大兵模拟器《武装突袭:返德者》60帧玩用中端显卡足以
「linux」Linus:我终于在M2芯片的MacBook上发布了Linux最新版本!
轻薄本到底该怎么选?小新Air14Plus2022锐龙版给你答案
郑重声明:本文“「ai」“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案”,https://nmgjrty.com/shumacp_517368.html内容,由机器之心提供发布,请自行判断内容优劣。
上一篇:「华为」12代标压处理器配2.5K屏华为轻薄本新品性能大跃进
下一篇:没有了
- 全部评论(0)
- 「ai」“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声
- 「华为」12代标压处理器配2.5K屏华为轻薄本新品性能大跃进
- 「传感器」GrooveJones与皇家加勒比国际游轮合作推出VR冒险游戏《Swashbuckler》
- 「联想」更智能更简单联想至像M200DW一体机评测
- 「华为畅享」华为畅享50Pro正式开售:1699元起!搭载鸿蒙系统
- 「安卓」首款可信智能话机CHAKEN蓝机测评安全高效智能齐了
- 「华为畅享」华为鸿蒙新机今日开售1649元起
- 「ipad」惊喜价格!苹果iPadAir4平板电脑仅3899元
- 「佳能」那些能够兼职微距创作的镜头
- 「索尼」索尼发布全画幅电影摄影机FX6Ver.3.00新固件
- 「分辨率」大兵模拟器《武装突袭:返德者》60帧玩用中端显卡足以
- 「amd」GPU性能碾压GTX1050!曝AMD即将发布R56600G/R76700GAPU
- 「macos」苹果补作业,iPadOS16推迟发布,M2iPadPro同期到来
- 「华为鸿蒙系统」特斯拉瑟瑟发抖!吉利几何电动汽车将采用华为鸿蒙HarmonyO
- 「mini」iPhone14这机型彻底被砍...原因是?
- 「阿里巴巴集团」iPhone14Pro贴膜曝光
最新更新
- 「ai」“柯南领结”变成现实,字节跳动
- 「华为」12代标压处理器配2.5K屏华为轻薄
- 「传感器」GrooveJones与皇家加勒比国际游
- 「联想」更智能更简单联想至像M200DW一体
- 「华为畅享」华为畅享50Pro正式开售:1
- 「安卓」首款可信智能话机CHAKEN蓝机测评
- 「华为畅享」华为鸿蒙新机今日开售164
- 「ipad」惊喜价格!苹果iPadAir4平板电脑仅
- 「佳能」那些能够兼职微距创作的镜头
- 「索尼」索尼发布全画幅电影摄影机FX6
- 「分辨率」大兵模拟器《武装突袭:返德者
- 「amd」GPU性能碾压GTX1050!曝AMD即将发布
- 「macos」苹果补作业,iPadOS16推迟发布,
- 「华为鸿蒙系统」特斯拉瑟瑟发抖!吉利
- 「mini」iPhone14这机型彻底被砍...原因是?
推荐阅读
- 「华为」12代标压处理器配2.5K屏华为轻薄本新品性能大跃进
- 「传感器」GrooveJones与皇家加勒比国际游轮合作推出VR冒险游戏《Swashbuckler》
- 「联想」更智能更简单联想至像M200DW一体机评测
- 「华为畅享」华为畅享50Pro正式开售:1699元起!搭载鸿蒙系统
- 「安卓」首款可信智能话机CHAKEN蓝机测评安全高效智能齐了
- 「华为畅享」华为鸿蒙新机今日开售1649元起
- 「ipad」惊喜价格!苹果iPadAir4平板电脑仅3899元
- 「佳能」那些能够兼职微距创作的镜头
- 「索尼」索尼发布全画幅电影摄影机FX6Ver.3.00新固件
- 「分辨率」大兵模拟器《武装突袭:返德者》60帧玩用中端显卡足以
- 「amd」GPU性能碾压GTX1050!曝AMD即将发布R56600G/R76700GAPU
- 「macos」苹果补作业,iPadOS16推迟发布,M2iPadPro同期到来
猜你喜欢
- [iPhone]iPhone13promax远峰蓝128G入手
- [安卓手机]realme真我GTNeo2开箱,金刚石冰芯散热系统+E4屏,5000mAh大电池
- [贴膜]红米9爆屏更换记录,弯曲的中框修复
- [智能机器人]编程从娃娃抓起,MakeBlock程小奔上手体验
- [智能摄像机]内置大电池,无需打孔走线,小米室外摄像机给你满满的安全感
- [充电器]65w网红氮化镓一次看个够
- [电脑支架]原汤化原食,LGErgo显示器支架
- [蓝牙耳机]中端耳机音质天花板,降噪很有一手,鹿图COCO真蓝牙降噪耳机评测
- [音频播放器]关于R01主板的主观看法,和一些碎碎念
- [充电器]双口快充,满足日常需求
- [VR设备]GOOVISLite头戴影院评测
- [蓝牙耳机]魅蓝Blus耳机体验,魅蓝依旧还是当年坚持做良品的青年良品
- [安卓手机]从5988跌至2749,256GB+鸿蒙OS+7nm麒麟,从高端市场跌至中端市场
- 「轻众测|素诺智能可视冲牙器」别急,对准再冲!素诺可视冲牙器让残渣无所
- 「九号新品Nano及Air T15」萌娃初体验——Ninebot九号平衡车Nano