「英语」能听懂口音的开源语音系统来了:OpenAI出品,支持99种语言,英文识别能力直逼人类
精选评测好文
原文标题:能听懂口音的开源语音系统来了:OpenAI出品,支持99种语言,英文识别能力直逼人类
逼近人类水平的语音识别系统来了?
没错,OpenAI 新开源了一个名为「Whisper」的新语音识别系统,据称在英文语音识别方面拥有接近人类水平的鲁棒性和准确性!
不仅如此,对于不同口音、专业术语的识别效果也是杠杠的!
一经发布就在推特上收获4800+ 点赞,1000+ 转发。
网友们纷纷对它意料之外的强大功能表示惊讶。
不仅是英文,有人用法国诗人波德莱尔的《恶之花》进行了语音测试,得到的文本几乎与原文一致。
OpenAI 联合创始人 & 首席科学家 Ilya Sutskever 就表示:
终于有一个靠谱的语音识别系统能听懂我的口音了。
前任特斯拉人工智能总监 Andrej Karpathy 甚至转发评论:OpenAI 正处于最好的状态中。
话不多说,让我们看看这个被 " 好评如潮 " 的语音系统究竟是怎么回事。
逼近人类水平的语音识别系统
首先,Whisper 最大特点是它使用的超大规模训练集:
它使用从网络上收集的68 万小时的多语言、多任务监督数据进行训练。
这导致数据集的内容非常多元化,涵盖了许多不同环境、不同录音设备下、不同语言的音频。
具体而言,65% ( 438218 小时 ) 是英语音频和匹配的英语文本,大约 18% ( 125739 小时 ) 是非英语音频和英语文本,而最后 17% ( 117113 小时 ) 则是非英语音频和相应的文本。
其中,非英语部分共包含98 种不同语言。
不过,虽然音频质量的多样性可以帮助提高训练模型的鲁棒性,但转录文本质量的多样性并不是同样有益的。
初步检查显示,原始数据集中有大量不合格的、现有自动语音识别 ( ASR ) 系统生成的转录文本。
而以往的研究表明,在人工和机器混合生成的数据集上进行训练,会显著损害翻译系统的性能。
为了解决这个问题,研究团队开发了几种自动过滤方法来识别和删除低质量的数据源。
但值得一提的是,没有说话内容的片段会被留下,作为语音活动检测的训练数据。
其次,Whisper 体系结构是一种简单的端到端方法,具体来说就是 Transformer 的编码器 - 解码器格式。
输入音频被分成 30 秒的片段,再转换成 log-Mel 谱图,然后传入编码器。
解码器被训练来预测相应的文本标题,并混合特殊标记,指示单一模型执行诸如语言识别、多语言语音转录和英语语音翻译等任务。
除此之外,研究人员还为 Whisper 设置了5 种不同的型号,以下是各模型大致的内存需求和相对速度,使用者可以自行选择。
但需要注意的是,只有 "large" 型号支持多语言,前 4 个模型都只支持英语。
不过不需要担心,与其他模型相比,英文语音识别正是 Whisper 的核心竞争力。
实验结果证明,Whisper 在 Librispeech test-clean 测试的错误率达到 2.7%。
虽然这一数值与 Wav2vec 2.0 一样,但在零样本性能上,Whisper 明显更稳健,平均误差减少了 55%。
甚至零样本 Whisper 模型还缩小了与人类鲁棒性之间的差距。
可以看出,与人类 Alec 相比,LibriSpeech 模型的错误率大约是人类的两倍,而 Whisper 模型的鲁棒性边界则包括 Alec95% 的置信区间。
研究团队
Whisper 的研究团队来自 OpenAI,共同一作有两位:Alec Radford、Jong Wook Kim。
Alec Radford,OpenAI 的机器学习研究员,也是 indico.io 的联合创始人。
Jong Wook Kim,在纽约大学获得了音乐技术专业的博士学位,研究方向包括多模态深度学习和音乐理解,目前是 OpenAI 的研究人员。
值得一提的是,研究团队指出,虽然目前 Whisper 还没有实时功能,但它的运行速度和内存大小表明,在这一基础上搭建实时语音识别和翻译功能是可行的。
他们希望 Whisper 的高精度和易用性,将允许开发人员将语音接口添加到更广泛的应用程序中。
其他人还看了
「ai」Transformer作者创业后首个成果亮相!用文本指挥AI做表格发邮件,这是先给
「创始人」性感学霸不堪粉丝骚扰,自创「纯净版OnlyFans」引资本抢着投钱
「adobe」Adobe不止为收购Figma支付200亿美元另有数十亿“留岗补贴”
郑重声明:本文“「英语」能听懂口音的开源语音系统来了:OpenAI出品,支持99种语言,英文识别能力直逼人类”,https://nmgjrty.com/shumacp_605873.html内容,由量子位提供发布,请自行判断内容优劣。
- 全部评论(0)
- 「iphone」靠这个免费软件,一部手机就能拯救你的坐姿。
- 「英语」能听懂口音的开源语音系统来了:OpenAI出品,支持99种语言,英文识别
- 「机器人」血管里上班的「纳米机器人」有了原型
- 「applewatch」冲击高端之路上,AppleWatchUltra是苹果的一次「服输」
- 「nba」《NBA2K23》次世代版评测:用心要用对地方
- 「小米」2699元!米家首款眼镜相机开卖:拍照不用端着手机了
- 消息称苹果iPhone15Ultra采用双前置摄像头和USB-C端口,256GB存储起步
- 到2025年,谷歌Fitbit用户将被强制迁移使用Google帐户
- 小米13系列机型正式入网:搭载骁龙8Gen2,配备120W充电器
- 9999元起,vivoXFold+折叠旗舰正式发布:搭载骁龙8+Gen1,支持双5G双卡双通
- 小米RedmiNote11R5G手机通过认证:1299元起,搭载天玑700芯片,后置相机采用大Lo
- 华为watch3值得买吗?亲测忠告
- 英国电动汽车快充费几乎赶上燃油车加油费
- 只要三分之一的价格,体验还不错,Aqara妙控开关S1E
- 小米手环到底该贴什么膜
- iPhone14也能无缝贴合,摩米士磁吸充电宝和双C口40W快充头开箱分享
最新更新
- 「iphone」靠这个免费软件,一部手机就能
- 「英语」能听懂口音的开源语音系统来了
- 「机器人」血管里上班的「纳米机器人」
- 「applewatch」冲击高端之路上,AppleWatchU
- 「nba」《NBA2K23》次世代版评测:用心要用
- 「小米」2699元!米家首款眼镜相机开卖:
- 消息称苹果iPhone15Ultra采用双前置摄像头和
- 到2025年,谷歌Fitbit用户将被强制迁移使用
- 小米13系列机型正式入网:搭载骁龙8Gen
- 9999元起,vivoXFold+折叠旗舰正式发布:搭
- 小米RedmiNote11R5G手机通过认证:1299元起,
- 华为watch3值得买吗?亲测忠告
- 英国电动汽车快充费几乎赶上燃油车加油
- 只要三分之一的价格,体验还不错,Aqa
- 小米手环到底该贴什么膜
推荐阅读
- 「iphone」靠这个免费软件,一部手机就能拯救你的坐姿。
- 「机器人」血管里上班的「纳米机器人」有了原型
- 「applewatch」冲击高端之路上,AppleWatchUltra是苹果的一次「服输」
- 「nba」《NBA2K23》次世代版评测:用心要用对地方
- 「小米」2699元!米家首款眼镜相机开卖:拍照不用端着手机了
- 「台积电」RTX40显卡的“4N”工艺并非4nm,而是定制台积电5nm
- 「富士」拍好Vlog这些富士视频相机值得考虑
- 「一加」不花冤枉钱高性价比热门手机大盘点
- 「vr」字节跳动VR一体机Pico4发布:4K+级别超视感屏加持3000元起
- 「机器人」血管里上班的「纳米机器人」有了原型
- 「gpu」DLSS3让RTX40显卡降低1/4功耗,频率与温度表现出色
- 「分辨率」每日低价硬货:27英寸4K显示器899元包邮
猜你喜欢
- [iPhone]iPhone13promax远峰蓝128G入手
- [安卓手机]realme真我GTNeo2开箱,金刚石冰芯散热系统+E4屏,5000mAh大电池
- [贴膜]红米9爆屏更换记录,弯曲的中框修复
- [智能机器人]编程从娃娃抓起,MakeBlock程小奔上手体验
- [智能摄像机]内置大电池,无需打孔走线,小米室外摄像机给你满满的安全感
- [充电器]65w网红氮化镓一次看个够
- [电脑支架]原汤化原食,LGErgo显示器支架
- [蓝牙耳机]中端耳机音质天花板,降噪很有一手,鹿图COCO真蓝牙降噪耳机评测
- [音频播放器]关于R01主板的主观看法,和一些碎碎念
- [充电器]双口快充,满足日常需求
- [VR设备]GOOVISLite头戴影院评测
- [蓝牙耳机]魅蓝Blus耳机体验,魅蓝依旧还是当年坚持做良品的青年良品
- [安卓手机]从5988跌至2749,256GB+鸿蒙OS+7nm麒麟,从高端市场跌至中端市场
- 「轻众测|素诺智能可视冲牙器」别急,对准再冲!素诺可视冲牙器让残渣无所
- 「九号新品Nano及Air T15」萌娃初体验——Ninebot九号平衡车Nano