王子豪

  • 3

    获得赞
  • 2

    发布的文章
  • 0

    答辩的项目

文本生成图像(text-to-image)工作简述

LSTM CNN

最后更新 2020-04-24 11:46 阅读 638

最后更新 2020-04-24 11:46

阅读 638

LSTM CNN

多模态机器学习:我们对世界的体验是多模态的——我们看到物体,听到声音,感觉到纹理,闻到气味,尝到味道。模态是指某件事情发生或经历的方式,一个研究问题如果包含多个模态,就被称为多模态。为了让人工智能在理解我们周围的世界方面取得进展,它需要能够一起解释这种多模态信号。多模式机器学习旨在建立能够处理和关联来自多种模式的信息的模型。这是一个日益重要和具有非凡潜力的充满活力的多学科领域。

生成符合给定文本描述的真实图像(text-to-image)是多模态任务之一,具有巨大的应用潜力,如图像编辑、视频游戏和计算机辅助设计。最近,由于生成对抗网络(GANs)在生成真实感图像方面的成功,文本到图像的生成取得了显著进展。文本到图像的生成创作需要对被创造的事物有深刻的理解:厨师、小说家和电影制作人必须比食客、读者或电影观众更深刻地理解食物、写作和电影。如果我们的计算机视觉系统要真正理解视觉世界,它们不仅必须能够识别图像,而且必须能够生成图像。除了传授深刻的视觉理解,生成逼真图像的方法也可以是实际有用的。在短期内,自动图像生成可以帮助艺术家或平面设计师的工作。有一天,我们可能会用生成定制图像和视频的算法来取代图像和视频搜索引擎,以响应每个用户的个人喜好。

文本生成图像(text-to-image)相关工作相较于图像描述(image captioning),图像所包含的信息更为复杂,因此生成图像任务的提出晚于图像描述。自从GAN网络被提出,神经网络产生的图像接近真实图像,为解决Text-to-image问题找到了解决思路。 

1. text-to-image的首次提出

ScottReed S在2016年首次提出了能根据文字生成图片的GAN [10]。论文介绍了如何通过 GAN 进行从文字到图像的转化。比方说,若神经网络的输入是“粉色花瓣的花”,输出就会是一个包含了这些要素的图像。该任务包含两个部分:

  • 利用自然语言处理来理解输入中的描述。
  • 生成网络输出一个准确、自然的图像,对文字进行表达。  

image.png

 图3.1. text-conditional convolutional GAN architecture.[1] 

 2. StackGAN(Zhang H, et al, ICCV 2017) 

2017年,Shaoting Zhang等人[11]提出了基于文本描述的堆叠生成式对抗网络(StackGAN)来生成256×256的真实感图像,通过一个粗略的细化过程将难题分解为更容易处理的子问题。

第一阶段GAN根据给定的文本描述绘制对象的原始形状和颜色,生成阶段i的低分辨率图像。第二阶段GAN将第一阶段的结果和文本描述作为输入,生成具有照片般逼真细节的高分辨率图像。它能够纠正第一阶段结果中的缺陷,并通过细化过程添加引人注目的细节。为了提高合成图像的多样性,稳定conditional-GAN的训练,作者引入了一种新的条件增强技术,使潜在条件集平滑。 image.png

 图3.2 The architecture of the proposed StackGAN.[2] 

 3. Stackgan++( Zhang H, el at, TPAMI 2018) 

虽然生成式对抗网络(GANs)已经在各种任务中显示出显著的成功,但在生成高质量的图像方面仍然面临挑战。在这篇论文中,Zhang H 等人[12]对之前的StackGAN进行改进,提出了堆叠生成对抗网络(StackGANs),旨在生成高分辨率的真实感照片。首先,我们提出了一个两阶段生成式对抗网络架构,StackGAN-v1,用于文本到图像的合成。

第一阶段 GAN 根据给定的文本描述描绘场景的原始形状和颜色,生成低分辨率的图像。

第二阶段 GAN 将第一阶段的结果和文本描述作为输入,生成具有照片般逼真细节的高分辨率图像。其次,针对有条件和无条件生成任务,提出了一种先进的多阶段生成式对抗网络体系结构StackGAN-v2。StackGAN-v2由多个生成器和多个鉴别器组成,它们排列成树状结构;同一场景对应的多个尺度的图像来自于树的不同分支。通过联合逼近多个分布,StackGAN-v2比StackGAN-v1表现出更稳定的训练行为。

image.png

 图3.3 The architecture of the proposed StackGAN++.[3] 

 4. Attngan(Xu T, el at, CVPR 2018) 

在这篇论文中,Xu T等人[13]提出了一个注意力对抗生成网络(AttnGAN),它允许注意力驱动的、多阶段的细化来生成细粒度的文本到图像。该算法利用一种新颖的注意力生成网络,通过关注自然语言描述中的相关词汇,在图像的不同亚区合成精细的细节信息。此外,提出了一种基于深度注意的多模态相似度模型来计算用于训练生成器的细粒度图像-文本匹配损失。提出的AttnGAN大大优于先前的技术水平,在CUB数据集上的最佳初始记录提高了14.14%,在更具挑战性的COCO数据集上的最佳初始记录提高了170.25%。详细的分析也进行了可视化的注意层的AttnGAN。这首次表明,分层注意GAN能够自动选择字级条件来生成图像的不同部分。

image.png

 图3.4 The architecture of the proposed AttnGAN.[4] 

5. Image generation from scene graphs(Johnson J, el at, CVPR 2018)

最近在从自然语言描述生成图像方面取得了令人兴奋的进展,这些方法在有限的领域(如对鸟或花的描述)给出了惊人的结果,但很难用许多对象和关系忠实地再现复杂的句子。为了克服这一限制,李飞飞研究团队中的Johnson J等人[14]提出了一种从场景图生成图像的方法,能够显式地推理对象及其关系。我们的模型使用图形卷积来处理输入图形,通过预测物体的边界框和分割掩码来计算场景布局,并将布局转换为具有级联细化网络的图像。该网络是针对一对鉴别器进行反向训练,以确保实际输出。我们的方法能够生成具有多个对象的复杂图像。 

image.png

 图3.5 Overview of image generation network f for generating images from scene graphs.[5]     

6. Controllable text-to-image generation(Li B, el al, NeuralIPS 2019) 

Li B 等人[16]提出了一种可控的文本-图像生成对抗网络(ControlGAN),该网络既能有效地合成高质量的图像,又能根据自然语言描述控制图像生成的各个部分。为了实现这一目标,作者引入了一个词级空间和信道级注意力驱动的生成器,它可以分离不同的视觉属性,并允许模型专注于生成和操作与最相关的词对应的子区域。同时,提出了一种词级鉴别器,通过将字与图像区域相关联来提供细粒度的监督反馈,便于训练一种有效的生成器,该生成器能够在不影响其他内容生成的情况下操作特定的视觉属性。

此外,感知损失被用来减少图像生成的随机性,并鼓励生成器操作修改后文本中需要的特定属性。在基准数据集上的大量实验表明,该方法优于现有的技术水平,并且能够使用自然语言描述有效地操作合成图像。 

image.png

图3.6 The architecture of ControlGAN.[6]

参考文献:

[1]     Reed S, Akata Z, Yan X, et al. Generative adversarial text to image synthesis[J]. arXiv preprint arXiv:1605.05396, 2016.

[2]     Zhang H, Xu T, Li H, et al. Stackgan: Text to photo-realistic image synthesis with stacked generative adversarial networks[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 5907-5915. 

[3]     Zhang H, Xu T, Li H, et al. Stackgan++: Realistic image synthesis with stacked generative adversarial networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(8): 1947-1962. 

[4]     Xu T, Zhang P, Huang Q, et al. Attngan: Fine-grained text to image generation with attentional generative adversarial networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 1316-1324. 

[5]     Johnson J, Gupta A, Fei-Fei L. Image generation from scene graphs[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 1219-1228. 

[6]     Li B, Qi X, Lukasiewicz T, et al. Controllable text-to-image generation[C]//Advances in Neural Information Processing Systems. 2019: 2063-2073.

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可,转载请附上原文出处链接和本声明。
本文链接地址:https://www.flyai.com/article/413
讨论
500字
表情
每日优质讨论奖励 20FAI
发送
每日优质讨论奖励 20FAI
删除确认
是否删除该条评论?
取消 删除