分分1分快三平台优必选悉尼 AI 研究院王超岳:基于生成对抗网络的图像编辑方法 | 分享总结

  • 时间:
  • 浏览:1
  • 来源:彩神网快3官方-彩神大发快3

雷锋网 分分1分快三平台aI科技评论按,近些年来,生成对抗网络在一点图像生成和图像编辑任务上都获得了很大的成功,并受到不多的关注。对于图像编辑任务,现在面临的另一个多 重要的挑战分别是:怎么都能不能指导网络向目标图像学习(以提升图像编辑的效果)和怎么都能不能感知输入图像内容(以提升图像编辑的精度)。

悉尼科技大学 FEIT 三年级博士生,优必选悉尼AI研究院访问学生,陶大程教授学生王超岳在雷锋网(公众号:雷锋网) AI研习社主办的学术青年分享会上结合他的两篇论文Tag Disentangled Generati分分1分快三平台ve Adversarial Networks for Object Image Re-rendering(IJCAI 2017 Best student paper)和Perceptual Adversarial Networks for Image-to-Image Transformation(arXiv 2017),分享了对图像编辑做出的相应探索。

分享内容如下:

常见的图像编辑有图像去雨(雪)、图像填充、素描到照片、风格转换、图像超分辨率、图像上色、图像旋转、时间变换等,抽象来说就是我给定一张图像以及要求,来生成新的图像。即让机器理分分1分快三平台解图像和珍成图像。

生成对抗网络是由Goodfellow在2014年提出的,否是三种新的网络架构,可都能不能做有监督或无监督的学习。

基于GANs的图像编辑框架如下所示:

接下来介绍第一篇论文,用于图像转换任务的感知对抗网络(Perceptual Adversarial Network,PAN)。

近两年基于GANs的框架,有就是我不同的优化,下图是对Pixel-wise loss、GANs loss和Perceptual loss的对比工作。

Pixel loss优点是使用简单、训练下行速度 快、稳定,缺点是输出图像模糊,质量低。

GAN loss优点是能提升生成图像质量,更加真实,锐利,缺点是学习整体生成分布,无法单独使用。

Perceptual loss优点是注重图像暗含的高维底部形态,感知效果,缺点是受限于预训练的一点网络。

下面是对提升生成图像质量做出的一点研究,引入不同的loss来生成不同的输出图像。

朋友希望有新的loss函数来弥补现有的问题图片报告 ,持续缩小生成图像和真实图像的差距。基于另另一个多 的想法提出了感知对抗损失。

使用感知对抗损失的理由如下:

感知:衡量生成图像和真实图像的高维底部形态的差异,并致力于缩小朋友。

对抗:当现有高维底部形态的差异小于一定数值m ,D网络被更新以寻找新的高维空间,以进一步缩小仍地处的不同。

统一:所有训练统一在另一个多 GAN框架中,我不多 引入一点预训练网络,且不受任务限制。

朋友引入感知对抗loss加GAN loss的底部形态,在这里引入GAN loss来让生成图像的整体分布符合真实图像的整体分布。

下面是针对于一点网络的相关实验,主要有图像的去雨、从分割后的label的图像到街景的重现、卫星图到谷歌地图的转换、图像补全、素描生成真实图像的任务。

下面是对比图像去雨雪的任务,朋友的模型在色差的控制等方面都不 所提升。

下面是图像补全任务,对比CVPR 2016的Context Encoder,PAN能得到更加优化的效果。

进行Pixel2pixel实验时与pix2pix做了对比,也可都能不能看得人明显提升。

除理图像生成的质量过后,还有另一个多 问题图片报告 :interpretable。也就是我怎么都能不能解开神经网络的黑箱,并帮助计算机进一步理解图像。

针对于怎么都能不能在图像转换过程中理解整个网络,并控制里面层信息的表征,朋友提出标签分解生成对抗网络(Tag Disentangled Generative Adversarial Networks, TDGAN),用于进行目标图像的再次渲染(Re-rendering)。

给定输入图像,里面会暗含一系列的输入信息,人脑看得人过后很容易分理出一点信息,但过后的网络不能自己理解一点信息,假若不能自己对输入图像进行精细编辑,现在朋友要我让网络能更进一步理解一点信息。

朋友提出分解表征法。

除理方案:标签。假若简单的改变标签,就能很容易生成微笑的图像。

基于此,朋友提出TDGAN,包括下图5个子网络。

网络的框架图如下:

主要有f1、f2、f3、f45个约束项:

这5个子网络采用如下交替训练的形式:

下面是工作相应的实验结果,给定单张椅子,给定一点要我的层厚,可都能不能生成不同层厚的效果,另外可都能不能生成人在不同光线及表情下的效果。

下图是朋友在另一个多 数据集下做的一点任务。可都能不能通过给定单张椅子照片,生成不同层厚的椅子;也可都能不能控制输入人脸图像的多种性质,如改变其层厚,光照,表情等。

总结如下:现有的就是我方式都不 在GANs的框架下,希望提升现有的图像编辑效果和提升图像编辑的精度,朋友做了以下尝试,去让任务表现更好。

第一是从学习的层面,不再就是我从像素层面或固定高维空间上去缩小真实图像和转换图像之间的不同,就是我利用对抗学习的思想去持续寻找并缩小真实图像和转换图像之间尚存的差异。我本人面,朋友希望算法可都能不能更深入的理解图像,并帮助计算机能更加智能,通过提取和分解图像中暗含的各种信息,让算法可都能不能更精确的编辑图像,从而得到要我的结果。

Perceptual Adversarial Networks for Image-to-Image Transformation

论文地址:https://arxiv.org/abs/1706.09138

Tag Disentangled Generative Adversarial Networks for Object Image Re-rendering

论文地址:https://www.ijcai.org/proceedings/2017/0404.pdf

本次分享的视频如下:

雷锋网 AI科技评论分类整理编辑。

雷锋网原创文章,未经授权禁止转载。详情见转载须知。