值得买科技-分享、推荐高性价品牌产品购物排行榜!

大家电厨卫家电生活电器联系我们

当前位置：什么值得买 > 数码产品 >

「英语」能听懂口音的开源语音系统来了：OpenAI出品，支持99种语言，英文识别能力直逼人类

量子位真实性核验

认证：数码产品优质原创作者

发布时间：2022-09-25 22:35 来源：什么值得买

浏览量：1572 842次收藏

分类：数码产品新闻资讯直播视频

本文有996个文字，大小约为5KB，预计阅读时间3分钟

[导读]：原文标题：能听懂口音的开源语音系统来了：OpenAI出品，支持99种语言，英文识别能力直逼人类逼近人类水平的语音识别系统来了？没错，OpenAI 新开源了一个名为「Whisper」的新语音识...

精选评测好文

　

原文标题：能听懂口音的开源语音系统来了：OpenAI出品，支持99种语言，英文识别能力直逼人类

逼近人类水平的语音识别系统来了？

没错，OpenAI 新开源了一个名为「Whisper」的新语音识别系统，据称在英文语音识别方面拥有接近人类水平的鲁棒性和准确性！

不仅如此，对于不同口音、专业术语的识别效果也是杠杠的！

一经发布就在推特上收获4800+ 点赞，1000+ 转发。

网友们纷纷对它意料之外的强大功能表示惊讶。

不仅是英文，有人用法国诗人波德莱尔的《恶之花》进行了语音测试，得到的文本几乎与原文一致。

OpenAI 联合创始人 & 首席科学家 Ilya Sutskever 就表示：

终于有一个靠谱的语音识别系统能听懂我的口音了。

前任特斯拉人工智能总监 Andrej Karpathy 甚至转发评论：OpenAI 正处于最好的状态中。

话不多说，让我们看看这个被 " 好评如潮 " 的语音系统究竟是怎么回事。

逼近人类水平的语音识别系统

首先，Whisper 最大特点是它使用的超大规模训练集：

它使用从网络上收集的68 万小时的多语言、多任务监督数据进行训练。

这导致数据集的内容非常多元化，涵盖了许多不同环境、不同录音设备下、不同语言的音频。

具体而言，65% ( 438218 小时 ) 是英语音频和匹配的英语文本，大约 18% ( 125739 小时 ) 是非英语音频和英语文本，而最后 17% ( 117113 小时 ) 则是非英语音频和相应的文本。

其中，非英语部分共包含98 种不同语言。

不过，虽然音频质量的多样性可以帮助提高训练模型的鲁棒性，但转录文本质量的多样性并不是同样有益的。

初步检查显示，原始数据集中有大量不合格的、现有自动语音识别 ( ASR ) 系统生成的转录文本。

而以往的研究表明，在人工和机器混合生成的数据集上进行训练，会显著损害翻译系统的性能。

为了解决这个问题，研究团队开发了几种自动过滤方法来识别和删除低质量的数据源。

但值得一提的是，没有说话内容的片段会被留下，作为语音活动检测的训练数据。

其次，Whisper 体系结构是一种简单的端到端方法，具体来说就是 Transformer 的编码器 - 解码器格式。

输入音频被分成 30 秒的片段，再转换成 log-Mel 谱图，然后传入编码器。

解码器被训练来预测相应的文本标题，并混合特殊标记，指示单一模型执行诸如语言识别、多语言语音转录和英语语音翻译等任务。

除此之外，研究人员还为 Whisper 设置了5 种不同的型号，以下是各模型大致的内存需求和相对速度，使用者可以自行选择。

但需要注意的是，只有 "large" 型号支持多语言，前 4 个模型都只支持英语。

不过不需要担心，与其他模型相比，英文语音识别正是 Whisper 的核心竞争力。

实验结果证明，Whisper 在 Librispeech test-clean 测试的错误率达到 2.7%。

虽然这一数值与 Wav2vec 2.0 一样，但在零样本性能上，Whisper 明显更稳健，平均误差减少了 55%。

甚至零样本 Whisper 模型还缩小了与人类鲁棒性之间的差距。

可以看出，与人类 Alec 相比，LibriSpeech 模型的错误率大约是人类的两倍，而 Whisper 模型的鲁棒性边界则包括 Alec95% 的置信区间。

研究团队

Whisper 的研究团队来自 OpenAI，共同一作有两位：Alec Radford、Jong Wook Kim。

Alec Radford，OpenAI 的机器学习研究员，也是 indico.io 的联合创始人。

Jong Wook Kim，在纽约大学获得了音乐技术专业的博士学位，研究方向包括多模态深度学习和音乐理解，目前是 OpenAI 的研究人员。

值得一提的是，研究团队指出，虽然目前 Whisper 还没有实时功能，但它的运行速度和内存大小表明，在这一基础上搭建实时语音识别和翻译功能是可行的。

他们希望 Whisper 的高精度和易用性，将允许开发人员将语音接口添加到更广泛的应用程序中。

更多文章：Midea美的电热油汀选购经验分享<\a>

其他人还看了

「ai」Transformer作者创业后首个成果亮相！用文本指挥AI做表格发邮件，这是先给

「创始人」理发师悖论真是一个悖论吗？

「创始人」性感学霸不堪粉丝骚扰，自创「纯净版OnlyFans」引资本抢着投钱

「it之家」软盘仍未“彻底灭绝”，航空公司仍是大客户

「adobe」Adobe不止为收购Figma支付200亿美元另有数十亿“留岗补贴”

哎呦不错哦，赞！(551)

打赏

打赏给作者

郑重声明：本文“「英语」能听懂口音的开源语音系统来了：OpenAI出品，支持99种语言，英文识别能力直逼人类”，https://nmgjrty.com/shumacp_605873.html内容，由量子位提供发布，请自行判断内容优劣。

上一篇：「机器人」血管里上班的「纳米机器人」有了原型

下一篇：「iphone」靠这个免费软件，一部手机就能拯救你的坐姿。

说点什么吧

全部评论（0）
最新最早

还没有评论，快来抢沙发吧！

相关推荐

最新更新

推荐阅读

猜你喜欢

tags标签

返回顶部

中国互联网诚信示范企业

违法和不良信息举报中心

网络110报警服务

中国互联网协会

中国互联网协会信用评价中心

诚信网站

创宇信用证书

品牌官网

大家电 | 厨卫家电 | 生活电器 | 健康电器 | 数码产品 | 电脑 | 五金电器 | 生活用品 | 好物推荐

Copyright © 2002-2020 值得买科技网版权所有网站备案号：京ICP备11011765号

站长QQ：微信号：