「分辨率」你输文字,它生成视频:这款新模型让LeCun也开始转梗图了
精选评测好文
原文标题:你输文字,它生成视频:这款新模型让LeCun也开始转梗图了
机器之心报道
编辑:泽南、小舟
脸书的视频生成新模型实现了 SOTA,但不知道是不是人类给的提示太简单了,生成内容有点惊悚。
你输入文字,AI 就能生成视频,很长一段时间里只存在于人们想象中的事现在已经实现了。
昨天,Meta(脸书)研究人员发布了在 AI 艺术领域的新成果 Make-A-Video,这是一种创造性地新技术,结果令人印象深刻且多种多样。虽然画面目前看起来都有点惊悚,但在 AI 圈里人们已经开始尝试批量制造梗图了,图灵奖获得者 Yann LeCun 也在不停转推它制造的内容。
在此之前,我们以前见过文本到视频模型大多数利用文本生成图像(如 DALL-E),它们从人类的提示中输出静止图像。不过,虽然从静止图像到移动图像的概念跳跃对于人类大脑来说很小,但在机器学习模型中想要实现却绝非易事。
Make-A-Video 实际上并没有在后端对这套过程进行太大的改变——正如研究人员在论文中指出的那样,「一个只看到描述图像的文本的模型在生成短视频方面出奇地有效。」
例如输入「A teddy bear painting a portrait」,即「一只画自画像的泰迪熊」,Make-A-Video 生成的视频如下动图所示:
论文《Make-A-Video: Text-to-video Generation without text-video data》:
从格式看是 ICLR 大会的投稿。
论文链接:
https://makeavideo.studio/Make-A-Video.pdf
该 AI 模型使用现有且有效的扩散技术来创建图像,其本质上是从纯视觉静态「去噪」向目标提示的逆向工作。这里要注意的是,该模型还对一堆未标记的视频内容进行了无监督训练(即在没有人类仔细指导的情况下用数据进行训练)。
Make-A-Video 不需要从头开始学习视觉和多模态表示,从一开始就知道如何制作逼真的图像,也不需要成对的文本视频数据,同时生成的视频风格多样,继承了当今图像生成模型的可扩展性。Meta 研究人员表示,在空间和时间分辨率、对文本的还原忠实度和质量的所有方面,Make-A-Video 实现了文本到视频生成的最高水平。
无论是空间和时间分辨率、还是与文本描述的符合程度,Make-A-Video 都在文本到视频的生成中达到了 SOTA 水平。
相比于之前从文本生成视频的系统,Make-A-Video 使用了不同的方法,实现了与 18 个月前在原始 DALL-E 或其他上一代系统中一致的图像保真度。
T2V 生成的图像示例。Meta 提出的模型可以为各种视觉概念生成具有连贯运动的高质量视频。
值得注意的是,AI 模型生成的图像往往因为太高清而失去真实感,保留一点瑕疵的图像和视频才更贴合实际。
Make-A-Video 的高级架构。给定由先验 P 翻译成图像嵌入的输入文本 x 和所需的帧速率 f ps ,解码器 Dt 生成 16 个 64 × 64 分辨率的帧,然后通过 ↑F 将其插值到更高的帧速率,并提高分辨率到 SRt l 为 256 × 256,SRh 为 768 × 768,最后生成高时空分辨率的视频 y^。
作为一个脑补工具,Make-A-Video 也可以利用静止图像和其他视频转换为其变体或进行扩展,就像图像生成器也可以用图像本身作为提示一样。这样生成的结果就稍微没那么魔性了。
从文本、图像到视频,AI 工具的发展速度再次跨越了一个界限,不知在这项技术公开之后,人们会用它创造出哪些「艺术品」。Meta 表示,人们已经可以开始注册,并在近期获取开放的模型。
推荐阅读:多喝水,多喝热水博乐宝M1口袋热水机入手记<\a>
其他人还看了
「ips面板」显示器广告中隐藏的潜台词!看不懂就要吃亏了(面板篇)
「airpodspro」iOS16.1Beta3为初代AirPodsPro带来自适应通透模式
蔚来车载AR眼镜NIOAirARGlasses开启线下体验,可实现130英寸3D观影效果
比一台特斯拉还便宜的机器人要来了!TESLAAIDay倒计时!
郑重声明:本文“「分辨率」你输文字,它生成视频:这款新模型让LeCun也开始转梗图了”,https://nmgjrty.com/shumacp_612975.html内容,由机器之心提供发布,请自行判断内容优劣。
- 全部评论(0)
- 「分辨率」你输文字,它生成视频:这款新模型让LeCun也开始转梗图了
- 「mini」iPhone14Plus最初命名就是iPhone14Max苹果官网已有印证
- 「沃尔沃汽车」因存在动力电池热失控隐患,沃尔沃召回进口XC90等插电式混动
- 「ips面板」显示器广告中隐藏的潜台词!看不懂就要吃亏了(面板篇)
- 「iphone」库克血亏8300亿!苹果股价崩了:iPhone14不给力?
- 「airpodspro」iOS16.1Beta3为初代AirPodsPro带来自适应通透模式
- 「皮卡」特斯拉整活!马斯克称Cybertruck能当船用:进水不保修
- 「dart」守护岁月静好|人类的小行星-地球拯救计划
- 「库尔茨」一场差点让诺奖得主关闭实验室的事故,帮数千万人摘掉了眼镜
- 「小米」好骚啊,下周发布的这新机,绝对是来捣乱的
- 「智商」人鸟大战不断升级,想阻止鹦鹉乱翻垃圾桶太难了
- 「ios」史诗级升级!iPhone全系支持电量显示百分比
- 「note」「小白」RedmiNote11TPro+测评:中端搅局者?
- 蔚来车载AR眼镜NIOAirARGlasses开启线下体验,可实现130英寸3D观影效果
- 15元零代码超简单DIY小米蓝牙网关,接入玩客云homeassistant智能家居
- 佳能入门级微单EOSR100参数曝光:2420万像素,无EVF
最新更新
- 「分辨率」你输文字,它生成视频:这款
- 「mini」iPhone14Plus最初命名就是iPhone14Max苹
- 「沃尔沃汽车」因存在动力电池热失控隐
- 「ips面板」显示器广告中隐藏的潜台词!
- 「iphone」库克血亏8300亿!苹果股价崩了:
- 「airpodspro」iOS16.1Beta3为初代AirPodsPro带来
- 「皮卡」特斯拉整活!马斯克称Cybertruc
- 「dart」守护岁月静好|人类的小行星-地
- 「库尔茨」一场差点让诺奖得主关闭实验
- 「小米」好骚啊,下周发布的这新机,绝
- 「智商」人鸟大战不断升级,想阻止鹦鹉
- 「ios」史诗级升级!iPhone全系支持电量显
- 「note」「小白」RedmiNote11TPro+测评:中端
- 蔚来车载AR眼镜NIOAirARGlasses开启线下体验
- 15元零代码超简单DIY小米蓝牙网关,接入
推荐阅读
- 「mini」iPhone14Plus最初命名就是iPhone14Max苹果官网已有印证
- 「沃尔沃汽车」因存在动力电池热失控隐患,沃尔沃召回进口XC90等插电式混动
- 「ips面板」显示器广告中隐藏的潜台词!看不懂就要吃亏了(面板篇)
- 「iphone」库克血亏8300亿!苹果股价崩了:iPhone14不给力?
- 「airpodspro」iOS16.1Beta3为初代AirPodsPro带来自适应通透模式
- 「皮卡」特斯拉整活!马斯克称Cybertruck能当船用:进水不保修
- 「dart」守护岁月静好|人类的小行星-地球拯救计划
- 「库尔茨」一场差点让诺奖得主关闭实验室的事故,帮数千万人摘掉了眼镜
- 「小米」好骚啊,下周发布的这新机,绝对是来捣乱的
- 「智商」人鸟大战不断升级,想阻止鹦鹉乱翻垃圾桶太难了
- 「note」「小白」RedmiNote11TPro+测评:中端搅局者?
- 「ios」史诗级升级!iPhone全系支持电量显示百分比
猜你喜欢
- [iPhone]iPhone13promax远峰蓝128G入手
- [安卓手机]realme真我GTNeo2开箱,金刚石冰芯散热系统+E4屏,5000mAh大电池
- [贴膜]红米9爆屏更换记录,弯曲的中框修复
- [智能机器人]编程从娃娃抓起,MakeBlock程小奔上手体验
- [智能摄像机]内置大电池,无需打孔走线,小米室外摄像机给你满满的安全感
- [充电器]65w网红氮化镓一次看个够
- [电脑支架]原汤化原食,LGErgo显示器支架
- [蓝牙耳机]中端耳机音质天花板,降噪很有一手,鹿图COCO真蓝牙降噪耳机评测
- [音频播放器]关于R01主板的主观看法,和一些碎碎念
- [充电器]双口快充,满足日常需求
- [VR设备]GOOVISLite头戴影院评测
- [蓝牙耳机]魅蓝Blus耳机体验,魅蓝依旧还是当年坚持做良品的青年良品
- [安卓手机]从5988跌至2749,256GB+鸿蒙OS+7nm麒麟,从高端市场跌至中端市场
- 「轻众测|素诺智能可视冲牙器」别急,对准再冲!素诺可视冲牙器让残渣无所
- 「九号新品Nano及Air T15」萌娃初体验——Ninebot九号平衡车Nano