值得买科技-分享、推荐高性价品牌产品购物排行榜!

大家电厨卫家电生活电器联系我们

当前位置：什么值得买 > 数码产品 >

「ai」真·拿嘴做视频！Meta「AI导演」一句话搞定视频素材，网友：我已跟不上AI发展速度

量子位真实性核验

认证：数码产品优质原创作者

发布时间：2022-09-29 22:37 来源：什么值得买

浏览量：2222 1226次收藏

分类：数码产品 ceo 新闻资讯直播

本文有1150个文字，大小约为5KB，预计阅读时间3分钟

[导读]：原文标题：真·拿嘴做视频！Meta「AI导演」一句话搞定视频素材，网友：我已跟不上AI发展速度画家执笔在画布上戳戳点点，形成手绘作品独有的笔触。你以为这是哪部纪录片的画面？...

精选评测好文

　

原文标题：真·拿嘴做视频！Meta「AI导演」一句话搞定视频素材，网友：我已跟不上AI发展速度

画家执笔在画布上戳戳点点，形成手绘作品独有的笔触。

你以为这是哪部纪录片的画面？

No，No，No！

视频里的每一帧，都是 AI 生成的。

还是你告诉它，来段 " 画笔在画布上的特写 "，它就能直接整出画面的那种。

不仅能无中生画笔，按着马头喝水也不是不可以。

同样是一句 " 马儿喝水 "，这只 AI 就抛出了这样的画面：

好家伙，这是以后拍视频真能全靠一张嘴的节奏啊……

不错，那厢一句话让 AI 画画的 Text to Image 正搞得风生水起，这厢 Meta AI 的研究人员又双叒给生成 AI 来了个超进化。

这回是真能 " 用嘴做视频 " 了：

AI 名为Make-A-Video，直接从 DALL · E、Stable Diffusion 搞火的静态生成飞升动态。

给它几个单词或几行文字，就能生成这个世界上其实并不存在的视频画面，掌握的风格还很多元。

不仅纪录片风格能 hold 住，整点科幻效果也没啥问题。

两种风格混合一下，机器人在时代广场蹦迪的画面好像也没啥违和感。

文艺小清新的动画风格，看样子 Make-A-Video 也把握住了。

这么一波操作下来，那真是把不少网友都看懵了，连评论都简化到了三个字母：

而大佬 LeCun 则意味深长地表示：该来的总是会来的。

毕竟一句话生成视频这事儿，之前就有不少业内人士觉得 " 快了快了 "。只不过 Meta 这一手，确实有点神速：

比我想象中快了 9 个月。

甚至还有人表示：我已经有点适应不了 AI 的进化速度了……

文本图像生成模型超进化版

你可能会觉得 Make-A-Video 是个视频版的 DALL · E。

实际上，差不多就是这么回事儿。

前面提到，Make-A-Video 是文本图像生成（T2I）模型的超进化，那是因为这个 AI 工作的第一步，其实还是依靠文本生成图像。

从数据的角度来说，就是 DALL · E 等静态图像生成模型的训练数据，是成对的文本 - 图像数据。

而 Make-A-Video 虽然最终生成的是视频，但并没有专门用成对的文本 - 视频数据训练，而是依然靠文本 - 图像对数据，来让 AI 学会根据文字复现画面。

视频数据当然也有涉及，但主要是使用单独的视频片段来教给 AI 真实世界的运动方式。

具体到模型架构上，Make-A-Video 主要由三部分组成：

文本图像生成模型 P

时空卷积层和注意力层

用于提高帧率的帧插值网络和两个用来提升画质的超分网络

整个模型的工作过程是酱婶的：

首先，根据输入文本生成图像嵌入。

然后，解码器 Dt 生成 16 帧 64 × 64 的 RGB 图像。

插值网络↑ F 会对初步结果进行插值，以达到理想帧率。

接着，第一重超分网络会将画面的分辨率提高到 256 × 256。第二重超分网络则继续优化，将画质进一步提升至 768 × 768。

基于这样的原理，Make-A-Video 不仅能根据文字生成视频，还具备了以下几种能力。

将静态图像转成视频：

根据前后两张图片生成一段视频：

根据原视频生成新视频：

刷新文本视频生成模型 SOTA

其实，Meta 的 Make-A-Video 并不是文本生成视频（T2V）的首次尝试。

比如，清华大学和智源在今年早些时候就推出了他们自研的 " 一句话生成视频 "AI：CogVideo，而且这是目前唯一一个开源的 T2V 模型。

更早之前，GODIVA 和微软的 " 女娲 " 也都实现过根据文字描述生成视频。

不过这一次，Make-A-Video 在生成质量上有明显的提升。

在 MSR-VTT 数据集上的实验结果显示，在 FID（13.17）和 CLIPSIM（0.3049）两项指标上，Make-A-Video 都大幅刷新了 SOTA。

此外，Meta AI 的团队还使用了 Imagen 的 DrawBench，进行人为主观评估。

他们邀请测试者亲身体验 Make-A-Video，主观评估视频与文本之间的逻辑对应关系。

结果显示，Make-A-Video 在质量和忠实度上都优于其他两种方法。

One More Thing

有意思的是，Meta 发布新 AI 的同时，似乎也拉开了 T2V 模型竞速的序幕。

Stable Diffusion的母公司StabilityAI就坐不住了，创始人兼 CEO Emad 放话道：

我们将发布一个比 Make-A-Video 更好的模型，大家都能用的那种！

而就在前几天，ICLR 网站上也出现了一篇相关论文Phenaki。

生成效果是这样的：

对了，虽然 Make-A-Video 尚未公开，但 Meta AI 官方也表示，准备推出一个 Demo 让大家可以实际上手体验，感兴趣的小伙伴可以蹲一波了 ~

热门阅读：万字长文：无线吸尘器如何选择，一文看尽各价位值得买的吸尘器？<\a>

其他人还看了

「分辨率」你输文字，它生成视频：这款新模型让LeCun也开始转梗图了

「ips面板」显示器广告中隐藏的潜台词！看不懂就要吃亏了（面板篇）

「airpodspro」iOS16.1Beta3为初代AirPodsPro带来自适应通透模式

蔚来车载AR眼镜NIOAirARGlasses开启线下体验，可实现130英寸3D观影效果

比一台特斯拉还便宜的机器人要来了！TESLAAIDay倒计时！

哎呦不错哦，赞！(780)

打赏

打赏给作者

郑重声明：本文“「ai」真·拿嘴做视频！Meta「AI导演」一句话搞定视频素材，网友：我已跟不上AI发展速度”，https://nmgjrty.com/shumacp_612984.html内容，由量子位提供发布，请自行判断内容优劣。

上一篇：「英伟达」显卡“甜点时代”终究远去？

下一篇：「新能源车」造车新势力：“保时捷”的野心，“杂牌车”的命？

说点什么吧

全部评论（0）
最新最早

还没有评论，快来抢沙发吧！

相关推荐

最新更新

推荐阅读

猜你喜欢

tags标签

返回顶部

中国互联网诚信示范企业

违法和不良信息举报中心

网络110报警服务

中国互联网协会

中国互联网协会信用评价中心

诚信网站

创宇信用证书

品牌官网

大家电 | 厨卫家电 | 生活电器 | 健康电器 | 数码产品 | 电脑 | 五金电器 | 生活用品 | 好物推荐

Copyright © 2002-2020 值得买科技网版权所有网站备案号：京ICP备11011765号

站长QQ：微信号：