万软资讯-好资源汇集平台

这个GAN没见过猪,却能把狗酿成猪

实习小编 热议 223
扫码手机访问手机访问:这个GAN没见过猪,却能把狗酿成猪
0

【摘要】 不用成千上万张目标图片训练,就能让 GAN 生成你想要的图片,有可能吗? 还真有可能! 来自特拉维夫大学和英伟达的研究人员成功地盲训出领域自适应的图像生成模......

不用成千上万张目标图片训练,就能让 GAN 生成你想要的图片,有可能吗?

还真有可能!

来自特拉维夫大学和英伟达的研究人员成功地盲训出领域自适应的图像生成模型——StyleGAN-NADA

也就是只需用简单地一个或几个字描述,一张目标领域的图像也不需要,StyleGAN-NADA 就能在几分钟内训练出你想要的图片:

比如现在在几张狗狗的基础图片上输入 "Sketch",不到 1 分钟,一张张草图风格狗的图片就出来了。 ( 视频没有声音可放心 " 食用 " )

再比如在人像上给出文字 "Pixar",就能生成皮克斯风格的图片:

各种人像风格都可以:

甚至把狗变成猪也行:

问题来了,AI 不可能生成它完全没有见过的照片,但是又不给它参考照片,那怎么满足要求呢?

基于 CLIP

答案就是借助CLIP的语义能力。

CLIP 是 OpenAI 提出的根据文字生成图片的 DALL 模型的图像分类模块,可以根据文字描述给图片的匹配程度打分。

今年年初,就有人用 CLIP 做出了一个用 " 大白话 " 检索图片的功能,效果还挺惊艳的。

输入 "The word love written on the wall" 的搜索结果

总的来说,StyleGAN-NADA 的训练机制包含两个紧密相连的生成器Gfrozen 和 Gtrain,它俩都使用了StyleGAN2的体系结构,并共享同一个映射网络,因此也具有同一个隐空间(latent space)和隐码(latent code),所以它们在最开始生成的图像是一样的。

首先使用在单个源域(例如人脸、狗、教堂或汽车数据集)上预训练的模型权重初始化这两个生成器。

由于最终目标是生成一个风格不一样的图像,那就要更改其中一个成对生成器的域,同时保持另一个作为参考域。

具体的话就是 Gfrozen 的权重保持不变,而 Gtrain 的权重通过优化和迭代层冻结(iterative layer-freezing)方案进行修改。

而 Gtrain 的域在通过用户提供的文本方向进行更改(shift)的同时,会保持共享隐空间(latent space)。

具体怎么 " 更改 " 呢?

这就用到了一组基于 CLIP 的损失(loss)和 "分层冻结"(layer-freezing)方案。

该方案可以自适应地确定在每次迭代训练中最相关的子层、并 " 冻结 " 其余层来提高训练稳定性保证效果。下面就详细介绍一下这两个方法。

基于 CLIP 的损失(loss)

StyleGAN-NADA 依靠预先训练的 CLIP 作目标域的唯一监督来源。为了有效地从 CLIP 中提取 " 知识 ",一共用了三种损失算法:

(1)负责确定在每次迭代中训练哪个子集层的全局目标损失 (Global CLIP loss);

(2)旨在保持多样性的局部定向损失 (Directional CLIP loss);

(3)以及防止图像生成不必要的语义伪影的嵌入范数损失 (Embedding-norm Loss)。

  局部定向损失要求源 / 目标图像 / 文字的 CLIP-space 方向一致

" 分层冻结 "(layer-freezing)

此机制分为两阶段:

(1)选层阶段,保持所有网络权重不变并对一组隐码进行优化,然后选择变化最显著的一层(优化使用目标域文本描述驱动的全局 CLIP 损失进行);

(2)优化阶段," 解冻 " 选定层的权重,然后使用定向 CLIP 损失进行优化和更改。

大多数训练只需几分钟就可完成

首先,该模型可以实现范围广泛的域外自适应,从纹理变化到大的形状修改,从现实到魔幻风格……甚至包括一些收集高质量数据成本很高的目标域。

其次,所有的这些图片的生成都只需给一个简单的文字描述,除了极端情况,大多数训练只需几分钟就能完成。

对于基于纹理的修改目标,该模型通常需要 300 次迭代,batch size 为 2,在一个 NVIDIA V100 GPU 上训练大约 3 分钟。在某些情况下(比如从 " 照片 " 到 " 草图 "),训练只需不到一分钟的时间。

然后,所有的实验用的就是这个完整当然模型,没有添加任何latent mapper。研究人员发现,对于纯粹是基于样式的图像生成,模型需要跨所有层进行训练,比如下面这种:

而对于较小的形状修改,则只需训练大约2/3数量的层数就能折中保持训练时间和效果

最后,将该模型与 StyleCLIP(结合了 StyleGAN 和 CLIP 的域内图像编辑模型)、以及只用了 Gfrozen 生成器的模型对比发现,只有 StyleGAN-NADA 可以实现目标。

再将零样本的 StyleGAN-NADA 与一些少样本的图像生成模型对比发现,别的都要么过拟合要么崩溃(MineGAN 更是只记住了训练集图像),只有 StyleGAN-NADA 在保持多样性的情况下成功生成(但它也有伪影出现)。

下面是消融实验:

  通过训练 latent mapper 可以进一步提高生成质量

ps. 在论文的最后,研究人员表示:

由于这项技术,也许在不久的将来,这类图像生成的工作将不再受到训练数据的约束,而只取决于我们的创造力。

以上内容是万软资讯小编为大家搜集整理的关于“这个GAN没见过猪,却能把狗变成猪”的热点资讯。希望能帮忙到大家!

难过!显卡公司 3dfx 不会回归了

前不久,沉寂约 20 年的 3dfx Interactive 公司突然在推特上发布一条预热消息,并表示将回归,于本周公布重大事项。然而几天过去了,这一账号已经被注销,意味着这个所谓的 官方 账号并——万软资讯wruan

推荐阅读:

俄联邦安全局第一副局长:美国试图无端质疑俄罗斯领土完整,毫无根据!

国家点名!新一批枢纽名单出炉,八大区域被委以重任

2021新款iPad Pro小心使用:一不留神就弯了

正惊GIF:自作孽不可活,小哥拥美人入怀,一个动作知悉其为何单身

XGP八月新增游戏:《人类》《脑航员2》《12分钟》等

神马专车发生了神马?

上一篇:稳固版相近,苹果希望扩大 iOS 15 Beta 版测试 下一篇:乐视照样宁德时代?锂业双巨头的未来充满变数

免责声明:

网站所有内容来源于网络,如有侵权联系我们删除!侵删请致信E-mail:wruannet#gmail.com

本文地址:https://www.wruan.net/43019.html

同类推荐
评论列表
未分类 这个GAN没见过猪,却能把狗酿成猪
不用成千上万张目标图片训练,就能让 GAN 生成你想要的图片,有可能吗? 还真有可能! 来自特拉维夫大学和英伟达的研究人员成功地盲训出领...
扫描二维码阅读原文
万软网 January, 01
生成社交图 ×