「ai」真·拿嘴做视频!Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度
精选评测好文
原文标题:真·拿嘴做视频!Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度
画家执笔在画布上戳戳点点,形成手绘作品独有的笔触。
你以为这是哪部纪录片的画面?
No,No,No!
视频里的每一帧,都是 AI 生成的。
还是你告诉它,来段 " 画笔在画布上的特写 ",它就能直接整出画面的那种。
不仅能无中生画笔,按着马头喝水也不是不可以。
同样是一句 " 马儿喝水 ",这只 AI 就抛出了这样的画面:
好家伙,这是以后拍视频真能全靠一张嘴的节奏啊……
不错,那厢一句话让 AI 画画的 Text to Image 正搞得风生水起,这厢 Meta AI 的研究人员又双叒给生成 AI 来了个超进化。
这回是真能 " 用嘴做视频 " 了:
AI 名为Make-A-Video,直接从 DALL · E、Stable Diffusion 搞火的静态生成飞升动态。
给它几个单词或几行文字,就能生成这个世界上其实并不存在的视频画面,掌握的风格还很多元。
不仅纪录片风格能 hold 住,整点科幻效果也没啥问题。
两种风格混合一下,机器人在时代广场蹦迪的画面好像也没啥违和感。
文艺小清新的动画风格,看样子 Make-A-Video 也把握住了。
这么一波操作下来,那真是把不少网友都看懵了,连评论都简化到了三个字母:
而大佬 LeCun 则意味深长地表示:该来的总是会来的。
毕竟一句话生成视频这事儿,之前就有不少业内人士觉得 " 快了快了 "。只不过 Meta 这一手,确实有点神速:
比我想象中快了 9 个月。
甚至还有人表示:我已经有点适应不了 AI 的进化速度了……
文本图像生成模型超进化版
你可能会觉得 Make-A-Video 是个视频版的 DALL · E。
实际上,差不多就是这么回事儿。
前面提到,Make-A-Video 是文本图像生成(T2I)模型的超进化,那是因为这个 AI 工作的第一步,其实还是依靠文本生成图像。
从数据的角度来说,就是 DALL · E 等静态图像生成模型的训练数据,是成对的文本 - 图像数据。
而 Make-A-Video 虽然最终生成的是视频,但并没有专门用成对的文本 - 视频数据训练,而是依然靠文本 - 图像对数据,来让 AI 学会根据文字复现画面。
视频数据当然也有涉及,但主要是使用单独的视频片段来教给 AI 真实世界的运动方式。
具体到模型架构上,Make-A-Video 主要由三部分组成:
文本图像生成模型 P
时空卷积层和注意力层
用于提高帧率的帧插值网络和两个用来提升画质的超分网络
整个模型的工作过程是酱婶的:
首先,根据输入文本生成图像嵌入。
然后,解码器 Dt 生成 16 帧 64 × 64 的 RGB 图像。
插值网络↑ F 会对初步结果进行插值,以达到理想帧率。
接着,第一重超分网络会将画面的分辨率提高到 256 × 256。第二重超分网络则继续优化,将画质进一步提升至 768 × 768。
基于这样的原理,Make-A-Video 不仅能根据文字生成视频,还具备了以下几种能力。
将静态图像转成视频:
根据前后两张图片生成一段视频:
根据原视频生成新视频:
刷新文本视频生成模型 SOTA
其实,Meta 的 Make-A-Video 并不是文本生成视频(T2V)的首次尝试。
比如,清华大学和智源在今年早些时候就推出了他们自研的 " 一句话生成视频 "AI:CogVideo,而且这是目前唯一一个开源的 T2V 模型。
更早之前,GODIVA 和微软的 " 女娲 " 也都实现过根据文字描述生成视频。
不过这一次,Make-A-Video 在生成质量上有明显的提升。
在 MSR-VTT 数据集上的实验结果显示,在 FID(13.17)和 CLIPSIM(0.3049)两项指标上,Make-A-Video 都大幅刷新了 SOTA。
此外,Meta AI 的团队还使用了 Imagen 的 DrawBench,进行人为主观评估。
他们邀请测试者亲身体验 Make-A-Video,主观评估视频与文本之间的逻辑对应关系。
结果显示,Make-A-Video 在质量和忠实度上都优于其他两种方法。
One More Thing
有意思的是,Meta 发布新 AI 的同时,似乎也拉开了 T2V 模型竞速的序幕。
Stable Diffusion的母公司StabilityAI就坐不住了,创始人兼 CEO Emad 放话道:
我们将发布一个比 Make-A-Video 更好的模型,大家都能用的那种!
而就在前几天,ICLR 网站上也出现了一篇相关论文Phenaki。
生成效果是这样的:
对了,虽然 Make-A-Video 尚未公开,但 Meta AI 官方也表示,准备推出一个 Demo 让大家可以实际上手体验,感兴趣的小伙伴可以蹲一波了 ~
热门阅读:万字长文:无线吸尘器如何选择,一文看尽各价位值得买的吸尘器?<\a>
其他人还看了
「分辨率」你输文字,它生成视频:这款新模型让LeCun也开始转梗图了
「ips面板」显示器广告中隐藏的潜台词!看不懂就要吃亏了(面板篇)
「airpodspro」iOS16.1Beta3为初代AirPodsPro带来自适应通透模式
蔚来车载AR眼镜NIOAirARGlasses开启线下体验,可实现130英寸3D观影效果
比一台特斯拉还便宜的机器人要来了!TESLAAIDay倒计时!
郑重声明:本文“「ai」真·拿嘴做视频!Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度”,https://nmgjrty.com/shumacp_612984.html内容,由量子位提供发布,请自行判断内容优劣。
- 全部评论(0)
- 「ai」真·拿嘴做视频!Meta「AI导演」一句话搞定视频素材,网友:我已跟不上
- 「英伟达」显卡“甜点时代”终究远去?
- 「特斯拉」特斯拉降价在即,小鹏理想彻底慌了
- 「程序员」一个视频存10遍!微信占用几十G的秘密,找到了
- 「理想one」L8刚发布L7又来了,理想突然变成没有感情的“新车制造器”
- 「志愿者」你的压力狗狗懂,通过闻味就知道!英国学者做实验论证,专门收集
- 「岩泉」僵尸蝇,熔岩泉,月亮三明治|8月科技图片,你最喜欢哪张?
- 「特斯拉」国产Model3/Y降价?特斯拉最新回应来了:不实消息
- 「骁龙」高通骁龙8Gen2参数曝光,性能总体提升10%
- 「分辨率」你输文字,它生成视频:这款新模型让LeCun也开始转梗图了
- 「mini」iPhone14Plus最初命名就是iPhone14Max苹果官网已有印证
- 「沃尔沃汽车」因存在动力电池热失控隐患,沃尔沃召回进口XC90等插电式混动
- 「ips面板」显示器广告中隐藏的潜台词!看不懂就要吃亏了(面板篇)
- 「iphone」库克血亏8300亿!苹果股价崩了:iPhone14不给力?
- 「airpodspro」iOS16.1Beta3为初代AirPodsPro带来自适应通透模式
- 「皮卡」特斯拉整活!马斯克称Cybertruck能当船用:进水不保修
最新更新
- 「ai」真·拿嘴做视频!Meta「AI导演」一句
- 「英伟达」显卡“甜点时代”终究远去?
- 「特斯拉」特斯拉降价在即,小鹏理想彻
- 「程序员」一个视频存10遍!微信占用几
- 「理想one」L8刚发布L7又来了,理想突然变
- 「志愿者」你的压力狗狗懂,通过闻味就
- 「岩泉」僵尸蝇,熔岩泉,月亮三明治
- 「特斯拉」国产Model3/Y降价?特斯拉最新
- 「骁龙」高通骁龙8Gen2参数曝光,性能总
- 「分辨率」你输文字,它生成视频:这款
- 「mini」iPhone14Plus最初命名就是iPhone14Max苹
- 「沃尔沃汽车」因存在动力电池热失控隐
- 「ips面板」显示器广告中隐藏的潜台词!
- 「iphone」库克血亏8300亿!苹果股价崩了:
- 「airpodspro」iOS16.1Beta3为初代AirPodsPro带来
推荐阅读
- 「英伟达」显卡“甜点时代”终究远去?
- 「特斯拉」特斯拉降价在即,小鹏理想彻底慌了
- 「程序员」一个视频存10遍!微信占用几十G的秘密,找到了
- 「理想one」L8刚发布L7又来了,理想突然变成没有感情的“新车制造器”
- 「志愿者」你的压力狗狗懂,通过闻味就知道!英国学者做实验论证,专门收集
- 「岩泉」僵尸蝇,熔岩泉,月亮三明治|8月科技图片,你最喜欢哪张?
- 「特斯拉」国产Model3/Y降价?特斯拉最新回应来了:不实消息
- 「骁龙」高通骁龙8Gen2参数曝光,性能总体提升10%
- 「分辨率」你输文字,它生成视频:这款新模型让LeCun也开始转梗图了
- 「mini」iPhone14Plus最初命名就是iPhone14Max苹果官网已有印证
- 「沃尔沃汽车」因存在动力电池热失控隐患,沃尔沃召回进口XC90等插电式混动
- 「ips面板」显示器广告中隐藏的潜台词!看不懂就要吃亏了(面板篇)
猜你喜欢
- [iPhone]iPhone13promax远峰蓝128G入手
- [安卓手机]realme真我GTNeo2开箱,金刚石冰芯散热系统+E4屏,5000mAh大电池
- [贴膜]红米9爆屏更换记录,弯曲的中框修复
- [智能机器人]编程从娃娃抓起,MakeBlock程小奔上手体验
- [智能摄像机]内置大电池,无需打孔走线,小米室外摄像机给你满满的安全感
- [充电器]65w网红氮化镓一次看个够
- [电脑支架]原汤化原食,LGErgo显示器支架
- [蓝牙耳机]中端耳机音质天花板,降噪很有一手,鹿图COCO真蓝牙降噪耳机评测
- [音频播放器]关于R01主板的主观看法,和一些碎碎念
- [充电器]双口快充,满足日常需求
- [VR设备]GOOVISLite头戴影院评测
- [蓝牙耳机]魅蓝Blus耳机体验,魅蓝依旧还是当年坚持做良品的青年良品
- [安卓手机]从5988跌至2749,256GB+鸿蒙OS+7nm麒麟,从高端市场跌至中端市场
- 「轻众测|素诺智能可视冲牙器」别急,对准再冲!素诺可视冲牙器让残渣无所
- 「九号新品Nano及Air T15」萌娃初体验——Ninebot九号平衡车Nano