值得买科技-分享、推荐高性价品牌产品购物排行榜!

「谷歌」Text-to-3D!建筑学小哥自称编程菜鸟,攒了个AI作画三维版,还是彩色的

量子位 真实性核验

认证:数码产品优质原创作者

发布时间:2022-09-25 01:35 来源:什么值得买

浏览量:1997 1068次收藏

分类:数码产品 美图社区直播视频

本文有1357个文字,大小约为6KB,预计阅读时间4分钟

[导读]: 原文标题:Text-to-3D!建筑学小哥自称编程菜鸟,攒了个AI作画三维版,还是彩色的 AI 画师,技术又精进了—— 直接一句话 / 一张图,生成 3D 模型、环绕视频、NeRF 实例那种。 还是带颜...

精选评测好文

 

原文标题:Text-to-3D!建筑学小哥自称编程菜鸟,攒了个AI作画三维版,还是彩色的

AI 画师,技术又精进了——

直接一句话 / 一张图,生成 3D 模型、环绕视频、NeRF 实例那种。

还是带颜色的。

输入 " 一幅美丽的花树画,作者 Chiho Aoshima,长镜头,超现实主义 ",就能瞬间得到一个长这样的花树视频,时长 13 秒。

这个文本 / 图片 -3D 生成 AI,叫Dreamfields-3D,来自一个自称编程菜鸟的建筑学在读博士。

Demo 刚被小哥放在微博、推特等平台,许多网友已经急着蹲内测了:

现在,小哥已经将它开源,colab 上也能运行。

一起来上手玩玩看~

AI 作画 3D 版在线玩

Dreamfields-3D 玩法十分低门槛,大致只需要三步。这里介绍一下 colab 上在线玩的步骤。

首先,检查一下 GPU,再安装个谷歌驱动器。

第二步,调出工具开始运行,并安装依赖项。

然后定义一些必要的功能,就可以在 colab 上训练和测试了~

玩的时候需要输入一些参数,保存格式有视频和网格两种,输出模型格式为带顶点色的 obj 和 ply。

万事俱备,让我们现在开始。

试试输入 " 一个赛博朋克风格的飞行霓虹灯汽车,格雷格鲁特科夫斯基和西蒙斯大林风格,长镜头,CG 社会,虚幻的引擎,史诗游戏 "?

会得到一个果然很赛博的汽车的视频。

如果你是《千与千寻》重度爱好者,想搞张吉卜力风格的视频玩玩。

没问题,prompt 输入 " 一张美丽的天空城市的插图,吉卜力工作室,艺术站,8k HD,CG 社会 ",这不就来了——

有网友迫不及待上手,做出了个小计算机。

当然在鹅妹子嘤的惊叹中,也有网友表达了希望 Dreamfields-3D 更好的期许。

当然,除了文本输入,Dreamfield3D 是支持图片作为 prompt 的。

不过现在版本还有待完善,如果输入图片,会造成过拟合,简单说就是如果喂它一张车的正面图,生成的 3D 视频中,那辆车可能 4 个面都是正面……

想要玩儿图片输入的友友们,怕是要再等等了。

基于现状,小哥在 GitHub 表达了未来的改进目标:

同时使用不同的 CLIP 模型。

仅在指定方向应用图像提示。未来可能要加一个图片角度的约束,例如只有在输入图片相同角度时,输出才参考该图片。

作为 NeRF 实例读取现有网格,然后通过文本 / 图像 prompt 进行修改。

在训练中减少 GPU RAM 的使用。

(但小哥说了,自己是个编程菜鸟,后续可不保证哦)doge

基于谷歌 Dreamfields-Torch

小哥是建筑学出身,据他讲,Dreamfield3D 是他从创作者角度出发,对 Dreamfield-Torch 做了些优化,主要的代码工作还是来自上游的 Dreamfields-Torch 和 Dreamfields。

介绍下,Dreamfields来自谷歌,它的特点是无需照片样本,简简单单一句话,就能生成 3D 图像,还可以生成多种物品组合成的复合结构。

在生成 3D 场景时,通常会选用神经辐射场(NeRF)参数方案。

NeRF 的特点是可分别渲染场景,但需要很多张 3D 照片,才能实现 360 ° 视觉重建。

相比之下,Dreamfields 生成 3D 模型不需要照片,因为它基于 NeRF 3D 场景技术、OpenAI 文本生成模型 DALL · E 以及 CLIP 的 3D 生成系统开发,通过神经网络来储存 3D 模型。

DALL · E 和 CLIP 同样师出谷歌,前者通过文本生成图像,后者通过文本分类图片。用 CLIP 来分类 DALL · E 生成的图像,可以提升图像生成的准确性。

Dreamfields-Torch则是一个经过修改的 Dreamfields 的 Pytorch 实现,主要是把原 Dreamfields 的后端,从原始 NeRR 换成了 instant-ngp。

以此为基础,小哥做出的 Dreamfields-3D 基本上靠CLIP + NERF运作。

作者简介

作者蒙胜宇(Simon Meng),奥地利因斯布鲁克大学(UIBK)建筑学在读博士。

硕士毕业于伦敦大学学院(UCL)建筑学,现为 UIBK 及 UCL 技术课程助教及特邀评图嘉宾,从事建筑设计、艺术、AI 及生物学跨领域研究。

小哥从去年 6、7 月份开始关注 AI 图像生成。

他发现,很多破圈技术,如 clip guide diffusion,disco diffusion,都是一些懂代码的跨界者做的。

去年年末谷歌发布 Dreamfields,他就动了用它做 3D 输出的心思。

于是,在拿到动画后,他用 AI 做了超采样放大和插帧,然后导出帧到普通的多目重建软件(类似 colmap),成功重建 mesh(一个用 3D 模型数据还原的模型图)。

小哥把 mesh 发在推特上,结果 Dreamfields 论文的原作者 Ajay Jain 联系到他,表示了欢迎,还鼓励他保持优化更新——虽然那时候他用的是普通航拍实景重建软件,不是编程方法。

上个月,小哥在 Dreamfield-Torch 的基础上做了 colab 版,本月在 GitHub 开源,让大家能够愉快地玩耍。

以及,现在这个已经是基于 Marching cubes 的船新版本啦~

GitHub 地址:

https://github.com/shengyu-meng/dreamfields-3D

colab 地址:

https://colab.research.google.com/drive/1u5-zA330gbNGKVfXMW5e3cmllbfafNNB?usp=sharing#scrollTo=_VDLFG_gUEKa

参考链接:

[ 1 ] https://weibo.com/1948301550/M4o6m3vGn?type=comment#_rnd1663119855180

[ 2 ] https://twitter.com/meng_shengyu

[ 3 ] https://github.com/ashawkey/dreamfields-torch

热门文章:堪称米家最值!米家系列扫地机器人选购须知<\a>

其他人还看了

「效果」体验了三天全新的AirPodsPro,我的购买意见是?

世界上最贵的运动鞋(Nike(air mag卖出20万美金))

Res小金标,泥炭Air3DeluxeHS无线耳机

AppleAirPodsPro二代刻字版

AirPodsMax更新固件后主动降噪能力大幅下降

哎呦不错哦,赞!(226)
打赏 打赏打赏给作者

郑重声明:本文“「谷歌」Text-to-3D!建筑学小哥自称编程菜鸟,攒了个AI作画三维版,还是彩色的”,https://nmgjrty.com/shumacp_604510.html内容,由量子位提供发布,请自行判断内容优劣。

上一篇:「效果」体验了三天全新的AirPodsPro,我的购买意见是?

下一篇:「redmi」5000万像素大底主摄加持!曝RedmiK60系列影像稳了

说点什么吧
  • 全部评论(0
    还没有评论,快来抢沙发吧!
相关推荐

返回顶部