「数学」DiffusionModel一发力,GAN就过时了???
精选评测好文
原文标题:DiffusionModel一发力,GAN就过时了???
曾经大红大紫的GAN 已过时。
马里兰大学副教授 Tom Goldstein 最近发表的一个推文,可谓是一石激起千层浪。
就连科技圈的大佬们也纷纷前来关注:
话题里 " 剑指 " 的关键词则是 Diffusion Model,用 Tom 的话来说就是:
在 2021 年,它甚至可以说是闻所未闻。
但其实这个算法并不陌生,因为它正是 AI 作画神器DALL · E的核心。
而且 DALL · E 的作者打一开始就 " 没看上 "GAN,直接将其放弃。
无独有偶,同样的话题在国内也引发了不小的讨论:
那么图像生成领域的这波 " 后浪推前浪 ",究竟是为何?
咱们这就来盘一盘。
什么是 Diffusion Model?
Diffusion Model 这次被拉进聚光灯之下,不得不归功于各类 "AI 一句话作图 " 神器的火爆。
例如 OpenAI 家的 DALL · E 2:
谷歌家的 Imagen:
不难看出,这些近期大流行的图像生成神器,不论是真实程度亦或是想象、理解能力,都是比较符合人类的预期。
因此它们也成为了这届网友们把玩的 " 新宠 "(当年 GAN 出道的时候也是被玩坏了)。
而如此能力背后的关键,便是 Diffusion Model。
它的研究最早可以追溯到 2015 年,当时,斯坦福和伯克利的研究人员发布了一篇名为 Deep Unsupervised Learning using Nonequilibrium Thermodynamics 的论文:
但这篇研究和目前的 Diffusion Model 非常不一样;而真正使其发挥作用的研究是 2020 年,一项名为 Denoising Diffusion Probabilistic Models 的研究:
我们可以先来看一下各类生成模型之间的对比:
不难看出,Diffusion Model 和其它模型的不同点在于,它的 latent code ( z ) 和原图是同尺寸大小的。
若是简单来概括 Diffusion Model,就是存在一系列高斯噪声(T 轮),将输入图片 x0 变为纯高斯噪声 xT。
再细分来看,Diffusion Model 首先包含一个前向过程(Forward diffusion process)。
这个过程的目的,就是往图片上添加噪声;但在这一步中还无法实现图片生成。
其次是一个逆向过程(Reverse diffusion process),这个过程可以理解为 Diffusion 的去噪推断过程。
最后在训练阶段,则是通过对真实数据分布下,最大化模型预测分布的对数似然。
上述的过程是基于 DDPM 这项研究展开。
不过知乎用户" 我想唱 high C"(TSAIL 博士)认为:
DDPM 提出的时候,领域里的研究者其实并不完全清楚这个模型背后的数学原理,所以文章里的描述没有探寻到更本质的数学原理。
在他看来,直到斯坦福大学 Yang Song 等在 Score-Based Generative Modeling through Stochastic Differential Equations 中,才首次揭示了 diffusion model 的连续版本对应的数学背景。
并且将统计机器学习中的 denoising score matching 方法与 DDPM 中的去噪训练统一起来。
更多细节过程可以参考文末链接中的论文详情。
那么接下来需要探讨的一个问题是:
为什么 GAN 这么快会被取代?
用 OpenAI 的一篇论文内容来讲,用 Diffusion Model 生成的图像质量明显优于 GAN 模型。
DALL · E 是个多模态预训练大模型," 多模态 " 和 " 大 " 字都说明,训练这个模型的数据集十分庞大冗杂。
发表这篇推特的 Tom Goldstein 教授提到,GAN 模型训练过程有个难点,就是众多损失函数的鞍点(saddle-point)的最优权重如何确定,这其实是个蛮复杂的数学问题。
在多层深度学习模型的训练过程中,需通过多次反馈,直至模型收敛。
但在实际操作中发现,损失函数往往不能可靠地收敛到鞍点,导致模型稳定性较差。即使有研究人员提出一些技巧来加强鞍点的稳定性,但还是不足以解决这个问题。
尤其面对更加复杂、多样化的数据,鞍点的处理就变得愈加困难了。
与 GAN 不同,DALL · E 使用 Diffusion Model,不用在鞍点问题上纠结,只需要去最小化一个标准的凸交叉熵损失(convex cross-entropy loss),而且人已经知道如何使其稳定。
这样就大大简化了模型训练过程中,数据处理的难度。说白了,就是用一个新的数学范式,从新颖的角度克服了一道障碍。
此外,GAN 模型在训练过程中,除了需要 " 生成器 ",将采样的高斯噪声映射到数据分布;还需要额外训练判别器,这就导致训练变得很麻烦了。
和 GAN 相比,Diffusion Model 只需要训练 " 生成器 ",训练目标函数简单,而且不需要训练别的网络(判别器、后验分布等),瞬间简化了一堆东西。
目前的训练技术让Diffusion Model 直接跨越了 GAN 领域调模型的阶段,而是直接可以用来做下游任务。
△Diffusion Model 直观图
从理论角度来看,Diffusion Model 的成功在于训练的模型只需要 " 模仿 " 一个简单的前向过程对应的逆向过程,而不需要像其它模型那样 " 黑盒 " 地搜索模型。
并且,这个逆向过程的每一小步都非常简单,只需要用一个简单的高斯分布(q ( x ( t-1 ) | xt ) )来拟合。
这为 Diffusion Model 的优化带来了诸多便利,这也是它经验表现非常好的原因之一。
Diffushion Model 是否就是完美?
不见得。
从趋势上来看,Diffushion Model 领域确实正处于百花齐放的状态,但正如 " 我想唱 high C" 所述:
这个领域有一些核心的理论问题还需要研究,这给我们这些做理论的人提供了个很有价值的研究内容。>
并且,哪怕对理论研究不感兴趣,由于这个模型已经很 work 了,它和下游任务的结合也才刚刚起步,有很多地方都可以赶紧占坑。
我相信 Diffusion Model 的加速采样肯定会在不久的将来彻底被解决,从而让 Diffusion Model 占据深度生成模型的主导。
而对于 Diffusion Model 的有效性以及很快取代 GAN 这件事,马毅教授认为充分地说明了一个道理:
几行简单正确的数学推导,可以比近十年的大规模调试超参调试网络结构有效得多。
不过对于这种 " 前浪推后浪 " 的火热,马毅教授也有不一样的观点:
希望年轻的研究员端正研究的目的和态度,千万不要被目前热的东西忽悠。
包括 Diffusion Process,这其实也是好几百年 old 的想法,只是老树发新芽,找到新的应用。
文章推荐:我也可以帮爸爸做家务,睿米NEX2Plus吸擦一体机使用体验<\a>
其他人还看了
「数学」十年台式机,单核1小时破解后量子加密算法,密码学家:太突然了
tommark奶茶粉底液怎么样(tommark奶茶粉底液好用吗)
郑重声明:本文“「数学」DiffusionModel一发力,GAN就过时了???”,https://nmgjrty.com/shumacp_578816.html内容,由量子位提供发布,请自行判断内容优劣。
- 全部评论(0)
- 「数学」十年台式机,单核1小时破解后量子加密算法,密码学家:太突然了
- 「数学」DiffusionModel一发力,GAN就过时了???
- 「扎克伯格」扎克伯格100亿美元烧出来的元宇宙,被欧美网友群嘲
- 「ssd」三星990Pro规格谜团到底是PCIe4.0还是PCIe5.0?
- 「冰箱」再热下去,冰箱里都快长猫了
- 「骑士」气候终局之战
- 「ipad」苹果或在10月发布的iPad和iPadPro,会迎来史诗级更新
- 「红魔」散热背夹越贵疗效越好吗?这可未必
- 「蜗牛」蜗牛长到巴掌大,连水泥都啃:这种入侵生物千万不能吃
- 「佳能」这部动画片里的相机很写实
- 「小米」小米巨震,上半年少卖2500万台手机
- 「富士」相机还是能赚钱的!富士发布最新财报:影像利润增长三成
- 「波导」持续高温对信号也不好杭州持续高温干扰手机信号
- 「宝马」宝马汽车硬件付费订阅引黑客不满:声称将破解免费给车主使用
- 「galaxy」三星GalaxyZFold4/Flip4续航实测:比GalaxyS22Ultra更强
- 1799元起,三星GalaxyWatch5/5Pro智能手表国行发布:支持体温检测、NFC公交/门禁卡
最新更新
- 「数学」十年台式机,单核1小时破解后量
- 「数学」DiffusionModel一发力,GAN就过时了
- 「扎克伯格」扎克伯格100亿美元烧出来的
- 「ssd」三星990Pro规格谜团到底是PCIe4.0还是
- 「冰箱」再热下去,冰箱里都快长猫了
- 「骑士」气候终局之战
- 「ipad」苹果或在10月发布的iPad和iPadPro,
- 「红魔」散热背夹越贵疗效越好吗?这可
- 「蜗牛」蜗牛长到巴掌大,连水泥都啃:
- 「佳能」这部动画片里的相机很写实
- 「小米」小米巨震,上半年少卖2500万台手
- 「富士」相机还是能赚钱的!富士发布最
- 「波导」持续高温对信号也不好杭州持续
- 「宝马」宝马汽车硬件付费订阅引黑客不
- 「galaxy」三星GalaxyZFold4/Flip4续航实测:比
推荐阅读
- 「数学」十年台式机,单核1小时破解后量子加密算法,密码学家:太突然了
- 「扎克伯格」扎克伯格100亿美元烧出来的元宇宙,被欧美网友群嘲
- 「ssd」三星990Pro规格谜团到底是PCIe4.0还是PCIe5.0?
- 「冰箱」再热下去,冰箱里都快长猫了
- 「骑士」气候终局之战
- 「ipad」苹果或在10月发布的iPad和iPadPro,会迎来史诗级更新
- 「红魔」散热背夹越贵疗效越好吗?这可未必
- 「蜗牛」蜗牛长到巴掌大,连水泥都啃:这种入侵生物千万不能吃
- 「佳能」这部动画片里的相机很写实
- 「小米」小米巨震,上半年少卖2500万台手机
- 「富士」相机还是能赚钱的!富士发布最新财报:影像利润增长三成
- 「波导」持续高温对信号也不好杭州持续高温干扰手机信号
猜你喜欢
- [iPhone]iPhone13promax远峰蓝128G入手
- [安卓手机]realme真我GTNeo2开箱,金刚石冰芯散热系统+E4屏,5000mAh大电池
- [贴膜]红米9爆屏更换记录,弯曲的中框修复
- [智能机器人]编程从娃娃抓起,MakeBlock程小奔上手体验
- [智能摄像机]内置大电池,无需打孔走线,小米室外摄像机给你满满的安全感
- [充电器]65w网红氮化镓一次看个够
- [电脑支架]原汤化原食,LGErgo显示器支架
- [蓝牙耳机]中端耳机音质天花板,降噪很有一手,鹿图COCO真蓝牙降噪耳机评测
- [音频播放器]关于R01主板的主观看法,和一些碎碎念
- [充电器]双口快充,满足日常需求
- [VR设备]GOOVISLite头戴影院评测
- [蓝牙耳机]魅蓝Blus耳机体验,魅蓝依旧还是当年坚持做良品的青年良品
- [安卓手机]从5988跌至2749,256GB+鸿蒙OS+7nm麒麟,从高端市场跌至中端市场
- 「轻众测|素诺智能可视冲牙器」别急,对准再冲!素诺可视冲牙器让残渣无所
- 「九号新品Nano及Air T15」萌娃初体验——Ninebot九号平衡车Nano