「谷歌」谷歌用新AI超越自己:让Imagen能够指定生成对象,风格还能随意转换
原文标题:谷歌用新AI超越自己:让Imagen能够指定生成对象,风格还能随意转换
给 Imagen 加上 " 指哪打哪 " 的能力,会变得有多强?
只需上传 3-5 张指定物体的照片,再用文字描述想要生成的背景、动作或表情,就能让指定物体 " 闪现 " 到你想要的场景中,动作表情也都栩栩如生。
不止是动物,其他物体像墨镜、书包、花瓶,也都能做出几乎以假乱真的成品:
属于是发朋友圈也不会被别人看出破绽的那种。(手动狗头)
这个神奇的文字 - 图像生成模型名叫 DreamBooth,是谷歌的最新研究成果,基于 Imagen 的基础上进行了调整,一经发布就在推特上引发热议。
有网友调侃:这简直是最先进的梗图生成器。
目前相关研究论文已上传至 arXiv。
几张照片就能 " 环游世界 "
在介绍原理前,让我们先来看看 DreamBooth 的各种能力,包括换景、指定动作表情服饰、更迭风格等。
如果你是个 " 铲屎官 ",有了这个模型的 "换景能力",就能足不出户送自家狗子走出家门,凡尔赛宫里、富士山脚下……通通不在话下。
△光照也比较自然
不仅如此,宠物的动作和表情也都能随意指定,属实是把 " 一句话 P 图 " 的细节拿捏到位了。
除了上面的 " 基操 " 以外,DreamBooth 甚至还能更换各种照片风格,也就是所谓的 " 加滤镜 "。
例如,各种 " 世界名画 " 画风、各种视角的狗子,简直不要太艺术:
至于给它们加上装饰?各种 cosplay 的小道具,也是小菜一碟。
除此之外,无论是更换颜色:
还是更魔幻一点,更换物种,这只 AI 也都能做到。
那么,如此有趣的效果背后的原理是什么呢?
给输入加个 " 特殊标识符 "
研究人员做了个对比,相较于其他大规模文本 - 图像模型如 DALL-E2、Imagen 等,只有采用 DreamBooth 的方法,才能做到对输入图像的忠实还原。
如下图所示,输入 3 张右边表盘上画着黄色 "3" 的小闹表,其中 DreamBooth 生成的图像完美保留了钟表的所有细节,但 DALL-E2 和 Imagen 几次生成的钟都与原来的钟 " 有那么点差异 "。
△李逵和 " 李鬼 "
而这也正是 DreamBooth 最大的特点——个性化表达。
用户可以给定 3-5 张自己随意拍摄的某一物体的图片,就能得到不同背景下的该物体的新颖再现,同时又保留了其关键特征。
当然,作者也表示,这种方法并不局限于某个模型,如果 DALL · E2 经过一些调整,同样能实现这样的功能。
具体到方法上,DreamBooth 采用了给物体加上 "特殊标识符" 的方法。
也就是说,原本图像生成模型收到的指令只是一类物体,例如 [ cat ] 、 [ dog ] 等,但现在 DreamBooth 会在这类物体前加上一个特殊标识符,变成 [ V ] [ 物体类别 ] 。
以下图为例,将用户上传的三张狗子照片和相应的类名(如 " 狗 ")作为输入信息,得到一个经过微调的文本 - 图像扩散模型。
该扩散模型用 "a [ V ] dog" 来特指用户上传图片中的狗子,再把其带入文字描述中,生成特定的图像,其中 [ V ] 就是那个特殊标识符。
至于为什么不直接用 [ V ] 来指代整个 [ 特定物体 ] ?
作者表示,受限于输入照片的数量,模型无法很好地学习到照片中物体的整体特征,反而可能出现过拟合。
因此这里采用了微调的思路,整体上仍然基于 AI 已经学到的 [ 物体类别 ] 特征,再用 [ V ] 学到的特殊特征来修饰它。
以生成一只白色的狗为例,这里模型会通过 [ V ] 来学习狗的颜色(白色)、体型等个性化细节,加上模型在 [ 狗 ] 这个大的类别中学到的狗的共性,就能生成更多合理又不失个性的白狗的照片。
为了训练这个微调的文本 - 图像扩散模型,研究人员首先根据给定的文本描述生成低分辨率图像,这时生成的图像中狗子的形象是随机的。
然后再应用超分辨率的扩散模型进行替换,把随机图像换成用户上传的特定狗子。
研究团队
DreamBooth 的研究团队来自谷歌,第一作者是 Nataniel Ruiz。
Nataniel Ruiz 是波士顿大学图像和视频计算组的四年级博士生,目前在谷歌实习。主要研究方向是生成模型、图像翻译、对抗性攻击、面部分析和模拟。
论文链接附在文末,感兴趣的小伙伴们赶紧来看看吧~
论文地址:
https://arxiv.org/abs/2208.12242
参考链接:
[ 1 ] https://dreambooth.github.io/
[ 2 ] https://twitter.com/natanielruizg/status/1563166568195821569
[ 3 ] https://natanielruiz.github.io/
其他人还看了
双11无需纠结!看完这篇攻略,直接入手云米AI全域风空调SpaceE
新房装修选空调入手云米AI全域风空调Space-可爱的春雷王
AISR爱至电动牙刷值得购买吗(AISR爱至电动牙刷质量好吗)
郑重声明:本文“「谷歌」谷歌用新AI超越自己:让Imagen能够指定生成对象,风格还能随意转换”,https://nmgjrty.com/shumacp_589235.html内容,由量子位提供发布,请自行判断内容优劣。
- 全部评论(0)
- 亚洲欧洲VAT更新了!网友:没错,更精彩了
- 亚洲欧洲VAT免费播放!网友:已经来了不少
- 亚洲欧洲VAT很多女主播加入!网友:这里没有任何限制
- 亚洲欧洲VAT不收费了!平台主播:今天开始免费!
- 天干天干天啪啪夜爽爽av被盛赞,网友们纷纷求续集!
- 日本linodeiphone69内容区开放了!网友:可以白嫖了
- 日产一区日产2区 维护成功,可以无限制进出了!
- Vodafonewififreehd晚上偷偷看!粉丝:低调一点!
- W永久939W乳液人气暴涨原因,无限制出入是关键!
- 大香煮伊在2020一二三久又开放了,还不限制出入!
- HAYAXURAX18永不失联!网友:还可以使用!
- 939w78v78w乳液永久w免费播放!网友:已经来了不少
- PRUBURBHD内容区开放了!网友:可以白嫖了
- 亚洲欧洲VAT出入无限制!网友:平台都这样才好!
- 精品无人乱码一区二区三区在开放视频!网友:确实开放了!
- 天天躁恨恨躁夜躁2020晚上偷偷看!粉丝:低调一点!
最新更新
- 亚洲欧洲VAT更新了!网友:没错,更精彩
- 亚洲欧洲VAT免费播放!网友:已经来了不
- 亚洲欧洲VAT很多女主播加入!网友:这里
- 亚洲欧洲VAT不收费了!平台主播:今天开
- 天干天干天啪啪夜爽爽av被盛赞,网友们
- 日本linodeiphone69内容区开放了!网友:可
- 日产一区日产2区 维护成功,可以无限制
- Vodafonewififreehd晚上偷偷看!粉丝:低调一
- W永久939W乳液人气暴涨原因,无限制出入
- 大香煮伊在2020一二三久又开放了,还不限
- HAYAXURAX18永不失联!网友:还可以使用!
- 939w78v78w乳液永久w免费播放!网友:已经
- PRUBURBHD内容区开放了!网友:可以白嫖了
- 亚洲欧洲VAT出入无限制!网友:平台都这
- 精品无人乱码一区二区三区在开放视频!
推荐阅读
- 「生物」我们应该寻找什么样的外星生命,高等的还是低等的?
- 「空间望远镜」韦布空间望远镜捕捉到布满恒星的创生之柱
- 「行者」从《双城之战》到《边缘行者》,游改动画迎来盛世?
- 「国际象棋」智能肛珠作弊案反转:19岁小将告世界冠军诽谤索赔7亿
- 「英伟达」不止是游戏党,他们才是被英伟达坑怕的人。
- 「索尼」索尼官宣!猜猜A7R5多钱?R2要价1.9万、R3要价2.4万、R4要价2.7万……
- 「癌症」一种癌症转移的关键因素
- 「智能手表」面世八年后,谷歌的智能手表生态终于迎来开放曙光
- 「adobe」用VR手捏3D模型,PS直接与甲方对线,Adobe新技术确实给设计师炫到了
- 「amd」RTX40的对手来了!AMDRDNA3显卡发布会官宣
- 「奥斯汀」苹果M3准备登场,库克展示奥斯汀AppleSilicon工程团队努力成果
- 「马修」Copilot要摊官司了!工作20年老程序员重新激活律师证,发起集体诉讼,
猜你喜欢
- [iPhone]iPhone13promax远峰蓝128G入手
- [安卓手机]realme真我GTNeo2开箱,金刚石冰芯散热系统+E4屏,5000mAh大电池
- [贴膜]红米9爆屏更换记录,弯曲的中框修复
- [智能机器人]编程从娃娃抓起,MakeBlock程小奔上手体验
- [智能摄像机]内置大电池,无需打孔走线,小米室外摄像机给你满满的安全感
- [充电器]65w网红氮化镓一次看个够
- [电脑支架]原汤化原食,LGErgo显示器支架
- [蓝牙耳机]中端耳机音质天花板,降噪很有一手,鹿图COCO真蓝牙降噪耳机评测
- [音频播放器]关于R01主板的主观看法,和一些碎碎念
- [充电器]双口快充,满足日常需求
- [VR设备]GOOVISLite头戴影院评测
- [蓝牙耳机]魅蓝Blus耳机体验,魅蓝依旧还是当年坚持做良品的青年良品
- [安卓手机]从5988跌至2749,256GB+鸿蒙OS+7nm麒麟,从高端市场跌至中端市场
- 「轻众测|素诺智能可视冲牙器」别急,对准再冲!素诺可视冲牙器让残渣无所
- 「九号新品Nano及Air T15」萌娃初体验——Ninebot九号平衡车Nano