「ai」千万别让富坚义博看到这个
原文标题:千万别让富坚义博看到这个
先来看一段高清版的《清明上河图》:
你能看出这幅画与原作的差异吗?
其实,这是AI续画的一段《清明上河图》,一眼望去,这画面还真是有些真 假 难 辨了。
笔墨色彩几乎完全复刻了原作。
无论是房屋树木,还是市集中熙熙攘攘的人群,AI 的笔法都抓到了原作的风格神韵,拼在一起乍一看还真认不出来。
△左是原作,右是 AI 复刻
画质还是38912 × 2048像素的那种,能直接把画面拉大 3、4 倍看细节。
喏,店铺里的小人在干啥看得一清二楚,体态和衣着也各不相同。
这就是由全华人团队打造的 AI ——女娲 · 无限版(NUWA INFINITY)。
只要给它喂一些图片、或是输入一段文字,它就能进行更细致的拓展,最终生成一幅完整的高清图像、甚至是一段流畅视频。
这是它学习了《清明上河图》之后,画出的完整版 " 大作 "。
论文前脚刚上传到 arXiv,推特上就已经引发各路网友狂呼 amazing!
还有油管博主光速更新视频讲解。标题直接用上了 "超越 DALL · E 2"、"4K" 的字眼。
除了续画《清明上河图》之外,微软的经典蓝天白云壁纸,经它之手都能变成无限加长版。
还能根据文本提示,在图像上加不同元素:要光有光,要雪有雪。(这还真是女娲技能了)
相较于当下热门的 DALL · E、Imagen 和 Parti,女娲无限版支持生成任意大小的高分辨率图像, 同时还支持生成长视频。
(没错,继 AI 续写小说热潮之后,现在 AI 终于也能续画了)
研究人员表示,他们希望这一模型能够帮助创作者们提高生产力。
所以,女娲无限版还有什么大招?
我们一起来看 ~
风格完美模仿,图像视频生成全搞定
总体来看,这个 AI 女娲无限版是个全能选手,可以挑战5 种高清视觉任务。
分别是:
让图像动起来(Image Animation)
根据文本生成视频(Text-to-Video)
根据文本生成图像(Text-to-Image)
图像补全(Image Outpainting)
图像生成(Image Generation)
先来看让图像动起来的效果。
一张静态的沙滩照片经 AI 之手后,图中的海浪都能自然地拍打海岸,层层叠叠仿佛是真实的景色一般。
一句话生成视频就更让人惊喜了。
这不,给它一个小猪佩奇原版的视频,然后再输入一句话,这位 " 女娲 " 就能自己做动画片了。
这效果完全看不出是 AI 做的啊,分辨率也达到了 1280 × 1024。甚至都能拿去蒙骗小孩子?
(嗯,别让富坚义博看到这个 AI ……)
能根据文本搞定视频,当然图像也不在话下。
给 AI 一张风景照,再输入不同的文本表示,它就能根据需要在照片中加各种元素了。
比如滚滚海浪、群山环绕、星空、云彩等,都可搞定。
接下来则是文本图像生成了。这个任务可以说是 DALL · E2、Imagen 和 Parti 的 " 拿手好戏 ",也是这段时间几大模型 battle 的核心。
不过从生成效果来看,NUWA-Infinity 也同样 " 可以一战 "。
△" 微软已加入战场 "
输入 " 田野上有房子、天空中有云彩 ",女娲无限版立刻呈现出了一张景色优美的照片。
分辨率高达4069 × 1024,仿佛是拿单反真实拍下的一样。
最后,就是 NUWA-Infinity 的核心能力—— " 续画 " 了。
在补充图像上,这只 AI 已经挑战了不少世界名画,并且都可以做到几乎以假乱真。
梵高笔下的星空,它能补充浩瀚深邃的画面。
笔触连接的地方十分丝滑,整体画面的协调感也很高。
莫奈的名作也能信手拈来。
值得一提的是,原画中人物的影子沿着右下方拉去,AI 在补充画面的时候,还非常聪明地在左边补充了太阳。
阳光洒在海面上,波光粼粼的细节都画出来了。
除了世界名画以外,风景照片同样也能补全啦。
这效果,仿佛它就在拍照现场,直接把原本的画面搬了上来。
那么,NUWA-Infinity 究竟是怎么拥有 " 续画 " 的能力呢?
基于自回归的 " 无限视觉合成 "
与 DALL · E 和 Imagen 最大的不同在于,NUWA-Infinity 在图像生成上没有采用扩散模型。
这是因为,扩散模虽然在图像生成上效果不错,但它没有办法改变输出图像的大小,包括训练和推理图像的宽高是被预先定义好的。
因此,为了让模型学会 " 续画 ",论文提出了一种基于自回归的自回归生成模型(autoregressive over autoregressive generation),训练时将图像被分成很多个小块,然后再对每个小块(patch)分别进行训练。
不过,如果只对这些 patch 单独训练,容易导致合成图像时出现 " 不和谐 " 的结果,例如把头发 p 到脸上等等。
因此,与一些基于 GAN 的模型直接对每个 patch 进行独立训练不同,NUWA-Infinity 在进行训练时,有意识地去加强各个 patch 之间的 " 依赖性 "。
除了对每个 patch 进行独立训练以外,NUWA-Infinity 在推理图像时,还会要求各 patch 与周围的 patch 产生 " 联系 ",让生成的图像更具有连续效果。
当然,推理出图像或视频的步骤,在 NUWA-Infinity 做不同任务时也不一样。
由于文本是一维数据,图像是二维(宽 + 长)数据,视频则是三维数据(宽 + 长 + 时间),因此 NUWA-Infinity 在做不同任务时,推理的顺序也不同。
例如,在 " 补全图像 " 的过程中,图像推理是一圈一圈向外生成的;而在文本生成图像、或是视频文本生成时,这些推理的顺序又有不一样的变化:
不过,NUWA-Infinity 也还有一些局限性,例如与 DALL · E2 和 Imagen 不同的是,它是在特定数据集(清明上河图、小猪佩奇等)上训练的。
因此,一方面 NUWA-Infinity 在更一般的数据集上是否也能表现出这么好的效果,还有待佐证;
另一方面,在文本生成图像上,目前作者并没有将它这一能力与 DALL · E2 和 Imagen 等模型进行对比,因此在这一任务上并不能说它是最优秀的,只能说生成图像大小上减少了一些限制。
作者:代码在尽力肝了
论文的一作吴晨飞(Chenfei Wu),博士毕业于北京邮电大学,现工作于微软亚研院。
在北邮读博期间,他在 NeurIPS 和 ACM Multimedia 等顶会上发表过不少与视觉问答(VQA)相关的论文。
△图源北邮计算机学院
共同一作Jian Liang, 来自北京大学。
值得一提的是,去年被 ECCV 2022 收录的 NUWA 论文,也是这两位作者合作产出的。
此外,来自微软 Azure AI 团队的 Xiaowei Hu、Zhe Gan、Jianfeng Wang、Lijuan Wang、Zicheng Liu,以及北大副教授方跃坚也参与了此次研究,通讯作者则是微软亚研院的高级研究员 & 研究经理段楠。
对于这项研究本身,有网友调侃:才注册完 DALL · E2 测试版就看到这个,快跟不上节奏了……
还有网友大胆想象 " 有生之年 " 系列:以这个速度,世纪结束前我们是不是能玩上 " 可实时生成 " 的定制 VR 游戏了?
但对于研究的效果,也有读者怀疑是在 " 吹牛 ",因为这次的 " 无限版 "NUWA 还并没有开源。对此作者之一 Zhe Gan 回应表示:
我们也很想放出代码,正在努力 ing。
此外也有读者对于 AI" 续画 " 的能力提出了疑问:
对于 AI 来说,到底是 " 续 " 一幅画难,还是从 0 生成一个图像更难?
你觉得呢?
论文地址:
https://arxiv.org/abs/2207.09814
项目地址:
https://nuwa-infinity.microsoft.com/#/
参考链接:
[ 1 ] https://twitter.com/_akhaliq/status/1549954767585173505
[ 2 ] https://twitter.com/zhegan4/status/1549970325705658369
[ 3 ] https://scs.bupt.edu.cn/info/1027/1798.htm
[ 4 ] https://www.youtube.com/watch?v=_KvGSf1y0MU
推荐阅读:Kamomefan281风扇体验<\a>
其他人还看了
双11无需纠结!看完这篇攻略,直接入手云米AI全域风空调SpaceE
新房装修选空调入手云米AI全域风空调Space-可爱的春雷王
AISR爱至电动牙刷值得购买吗(AISR爱至电动牙刷质量好吗)
郑重声明:本文“「ai」千万别让富坚义博看到这个”,https://nmgjrty.com/shumacp_488666.html内容,由量子位提供发布,请自行判断内容优劣。
- 全部评论(0)
- 大香煮伊区一二三四区2021维护成功,可以无限制进出了!
- 大香煮伊区一二三四区2021不再收费了!网友:终于可以免费看了
- 大香煮伊区一二三四区2021不再收费!网友:可以白嫖了
- 一卡二卡3卡4卡视频免费播放重新开放了!网友:久违了
- 一卡二卡3卡4卡视频免费播放出入无限制!网友:平台都这样才好!
- 一卡二卡3卡4卡视频免费播放人气暴涨!网友:毕竟来了很多大主播!
- 欧美xbox和ps大片重新开放了!网友:久违了
- 欧美xbox和ps大片人气暴涨原因,无限制出入是关键!
- 欧美xbox和ps大片免费播放!网友:已经来了不少
- 成品网站w灬源码1688直播身材好!网友:比明星还赞!
- 成品网站w灬源码1688直播更新引热议!上线了多种新功能!
- 成品网站w灬源码1688直播适合晚上看!粉丝:我们懂!
- XXXXXL19waswas重新开放,并且免费使用!
- XXXXXL19waswas不再收费了!网友:终于可以免费看了
- XXXXXL19waswas不再收费!网友:付费内容都取消了
- Japonensisjavacomplete重新开放!网友:爷青回!
最新更新
- 大香煮伊区一二三四区2021维护成功,可以
- 大香煮伊区一二三四区2021不再收费了!网
- 大香煮伊区一二三四区2021不再收费!网友
- 一卡二卡3卡4卡视频免费播放重新开放了
- 一卡二卡3卡4卡视频免费播放出入无限制
- 一卡二卡3卡4卡视频免费播放人气暴涨!
- 欧美xbox和ps大片重新开放了!网友:久违
- 欧美xbox和ps大片人气暴涨原因,无限制出
- 欧美xbox和ps大片免费播放!网友:已经来
- 成品网站w灬源码1688直播身材好!网友:
- 成品网站w灬源码1688直播更新引热议!上
- 成品网站w灬源码1688直播适合晚上看!粉
- XXXXXL19waswas重新开放,并且免费使用!
- XXXXXL19waswas不再收费了!网友:终于可以
- XXXXXL19waswas不再收费!网友:付费内容都
推荐阅读
- 「生物」我们应该寻找什么样的外星生命,高等的还是低等的?
- 「空间望远镜」韦布空间望远镜捕捉到布满恒星的创生之柱
- 「行者」从《双城之战》到《边缘行者》,游改动画迎来盛世?
- 「国际象棋」智能肛珠作弊案反转:19岁小将告世界冠军诽谤索赔7亿
- 「英伟达」不止是游戏党,他们才是被英伟达坑怕的人。
- 「索尼」索尼官宣!猜猜A7R5多钱?R2要价1.9万、R3要价2.4万、R4要价2.7万……
- 「癌症」一种癌症转移的关键因素
- 「智能手表」面世八年后,谷歌的智能手表生态终于迎来开放曙光
- 「adobe」用VR手捏3D模型,PS直接与甲方对线,Adobe新技术确实给设计师炫到了
- 「amd」RTX40的对手来了!AMDRDNA3显卡发布会官宣
- 「奥斯汀」苹果M3准备登场,库克展示奥斯汀AppleSilicon工程团队努力成果
- 「马修」Copilot要摊官司了!工作20年老程序员重新激活律师证,发起集体诉讼,
猜你喜欢
- [iPhone]iPhone13promax远峰蓝128G入手
- [安卓手机]realme真我GTNeo2开箱,金刚石冰芯散热系统+E4屏,5000mAh大电池
- [贴膜]红米9爆屏更换记录,弯曲的中框修复
- [智能机器人]编程从娃娃抓起,MakeBlock程小奔上手体验
- [智能摄像机]内置大电池,无需打孔走线,小米室外摄像机给你满满的安全感
- [充电器]65w网红氮化镓一次看个够
- [电脑支架]原汤化原食,LGErgo显示器支架
- [蓝牙耳机]中端耳机音质天花板,降噪很有一手,鹿图COCO真蓝牙降噪耳机评测
- [音频播放器]关于R01主板的主观看法,和一些碎碎念
- [充电器]双口快充,满足日常需求
- [VR设备]GOOVISLite头戴影院评测
- [蓝牙耳机]魅蓝Blus耳机体验,魅蓝依旧还是当年坚持做良品的青年良品
- [安卓手机]从5988跌至2749,256GB+鸿蒙OS+7nm麒麟,从高端市场跌至中端市场
- 「轻众测|素诺智能可视冲牙器」别急,对准再冲!素诺可视冲牙器让残渣无所
- 「九号新品Nano及Air T15」萌娃初体验——Ninebot九号平衡车Nano