值得买科技-分享、推荐高性价品牌产品购物排行榜!

大家电厨卫家电生活电器联系我们

当前位置：什么值得买 > 数码产品 >

「计算机视觉」MetaAI发布图音文大一统模型Data2vec，4天在GitHub揽1.5万星

量子位真实性核验

认证：数码产品优质原创作者

发布时间：2022-01-28 22:03 来源：什么值得买

浏览量：2309 962次收藏

分类：数码产品神经网络计算机

本文有1123个文字，大小约为5KB，预计阅读时间3分钟

原文标题：MetaAI发布图音文大一统模型Data2vec，4天在GitHub揽1.5万星

Meta AI 搞了一个大一统的自监督学习模型Data2vec。

怎么个大一统法？

图像、语音、文本都可以处理，效果还都不错，在 CV 方面甚至超过了包括 MAE、MaskFeat 在内的一众模型。

这是怎么做到的？我们来看看 Data2vec 的思路和结构。

Data2vec 如何统一图音文

关于这个问题，我们可以从模型名字中看出一些端倪。

和 Word2vec 把词转化为可计算的向量类似，Data2vec 会把不同类型的数据都转化为同一种形式的数据序列。

这样就成功避开了模态不同这个问题。

然后，再用自监督学习的方法遮住这些数据的一部分，通过训练让模型把遮住的部分还原。

而它的结构也是在这个思路上设计的。

Data2vec 以 Transformer 架构为基础，设计了一个教师 - 学生网络结构：

从上图中可以看出，无论对于任何形式的输入，都先转化为数据序列，并 mask 一部分信息（或挡住狗头，或覆盖一段语音，或遮住一个单词）。

然后让学生网络通过部分可见的输入去预测完整输入，再由教师网络去调整，达到一个模型处理多任务的效果。

那接下来的问题就是如何把不同类型的输入都转化为同一种形式了。

Data2vec 如何标准化输入数据

在标准化输入这一块，Data2vec 还是具体问题具体分析的。

毕竟像素、波形和文本是完全不同的形式，而 Data2vec 对不同形式的输入采用了不同的编码策略，但是目的都是一样的。

那就是将这些输入都转化为数据序列。

具体的操作方法是这样的：

任务

编码方式

掩码方式

计算机视觉

ViT 图像分块

Block-wise Masking Strategy 语音

多层一维卷积神经网络

Mask spans of latent speech representation 文本预处理获得子词单元，然后通过嵌入向量将其嵌入分布空间

Tokens

其中 ViT 的编码策略就是把一张图分成一系列的图块，每个图块有 16x16 个像素，然后输入到一个线性变换系统中。

而语音的编码方式是用多层的一维卷积神经网络将 16kHz 的波形转换为 50Hz 的一串数据序列。

再加上文本编码的嵌入向量，这样所有模态的输入都转换为了数据序列，方便后续的训练。

而对于掩码策略来说，不同的模态的表现形式也是不一样的。

例如图像可以遮住一块，但是语音和文本有上下文的关联，不能随便遮住一部分。

因此对不同的模态，Data2vec 也采取了相应的符合不同数据特征的掩码方式。

这样标准化之后，Data2vec 还针对不同的下游任务做了一些微调，其中语音和文本的模型已经在 GitHub 上放出，视觉模型也正在路上：

我们来看看这统一的模型性能怎么样。

性能表现

虽然 Data2vec 三手齐抓，但是性能也没落下。

在计算机视觉方面，在 IN1K 上预训练情况如下表所示：

和一些其他模型相比，Data2vec 精度表现最好。而且 Data2vec 只训练了 800 个 epochs，而表中的 MAE，MaskFeat 训练了 1600 个 epochs。

看柱状图则更为明显，蓝色为 Data2vec：

在语音处理方面，在 LS-960 上预训练结果如下：

可以看出，Data2vec 在不同的标签数据量下单词错误率都比 wav2vec2.0 和 HuBERT 要低。

而在文本处理上，Data2vec 采用了和 BERT 相同的训练设置，训练集为 Books Corpus 和英文维基百科数据。

在 GLUE 评估中，Data2vec 在自然语言推理（MNLI、QNLI、RTE），句子相似性（MRPC、QQP、STS-B），语法（CoLA）和情绪分析（SST）等指标中和 RoBERTa 不相上下。

其中 Baseline 这一条是 RoBERTa 在和 BERT 类似的设置中的训练结果：

总体评分也差不多：

这么看来，统一的模型架构真的可以有效地用于多种任务模式。

虽然 Data2vec 在输入数据和掩码方式上还是按照不同的方法来处理，但是它仍然是探索模型统一的尝试。

或许将来会有统一的掩码策略和不同模态数据的混合数据集，做到真正的大一统。

参考链接：

[ 1 ] https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language

[ 2 ] https://ai.facebook.com/blog/the-first-high-performance-self-supervised-algorithm-that-works-for-speech-vision-and-text

[ 3 ] https://github.com/pytorch/fairseq/tree/main/examples/data2vec

热门阅读：实测沁园即热式净水器<\a>

其他人还看了

好来白酵素牙膏真的能美白吗（好来白酵素牙膏有效果吗）

玥伊人艾草贴怎么样（艾草贴哪个牌子效果好最管用）

BACKTIME暖腰贴效果好吗（BACKTIME暖腰贴怎么样）

小仓熊洁厕块效果好吗（小仓熊洁厕块怎么样）

去黄去黑用什么产品效果好（去黑黄产品排行榜10强）

哎呦不错哦，赞！(660)

郑重声明：本文“「计算机视觉」MetaAI发布图音文大一统模型Data2vec，4天在GitHub揽1.5万星”，https://nmgjrty.com/shumacp_339521.html内容，由量子位提供发布，请自行判断内容优劣。

上一篇：「冬奥会」为什么冬奥会要用人造雪？

下一篇：「cvpr」CVPR和ICLR双榜公布，最离谱审稿人竟然没读论文！

说点什么吧

全部评论（0）
最新最早

还没有评论，快来抢沙发吧！

相关推荐

最新更新

推荐阅读

猜你喜欢

tags标签

返回顶部