更实用 谷歌人工智能可对图像插入对象

  • 时间:
  • 浏览:29
  • 来源:5分快3平台-5分快3网投平台_5分快乐8投注平台

  使用后期制作软件,在场景中真实地放置东西对计算机来说,比对人来说要困难得多。它不仅要求为所述对象选泽适当的位置,然后要求预测目标位置上的对象的外观、比例、遮挡、姿态、型态等。

  幸运的是,人工智能(AI)承诺提供帮助。NeurIPS 2018会议上的一篇论文中(上下文感知合成和匹配对象实例),首尔国立大学的研究人员,加州大学默塞德,和谷歌AI描述一一三个小 多系统,医学会 把一一三个小 多对象插入一一三个小 多图像,在语义上,令人信服 。

  在符合场景语义的图像中插入对象是一项具有挑战性和趣味性的任务。研究人员写道,这项任务与许多实际应用密切相关,包括图像合成、AR和VR内容编辑。如此 的对象插入模型都能能 潜在地利于许多图像编辑和场景解析多多线程 。

  朋友的端到端框架包括一一三个小 多模块,决定了插入的对象,应该是和第一三个小决定它应该是哪些样子,利用甘斯( GANs),或一一三个小 多神经网络组成,试图区分生成的样本和实际样品。机会系统一并对插入的图像进行分布建模,然后一一三个小 多模块都能能 相互互通并优化。

  该论文的作者写道,这项工作的主要技术新颖之存在于,它构建了一一三个小 多端到端的可培训神经网络,该网络都能能 从新对象的联合分布中对其机会的位置和型态进行采样。合成的对象实例既都能能 作为基于GAN的最好的法子的输入,也都能能 从现有数据集中检索最近的所需每段,从而生成新的图像。

  正如朋友解释的那样,在你这俩状态下,生成器都能能 预测合理的位置,生成语义上一致的比例、姿势和型态的对象掩码,特别是对象如可在场景中分布,以及如可自然地插入对象,以便使其看起来是场景的一每段。随着时间的推移,在训练过程中,AI系统会根据场景学习不同的对象类别分布,之类在城市街道的图像中,朋友往往在人行道上,而汽车通常在路上。

  在测试中,研究人员通过插入型态逼真的物体,使模型优于基线。当将YOLOv3图像识别器应用于人工智能生成的图像时,检测合成目标才能以0.79的召回率。更能说明什么的问题的是,在对亚马逊的(Mechanical Turk)公司员工进行的一项调查中,43%的人认为人工智能生成的物体是真实的。

  研究人员写道,这表明朋友的最好的法子才能执行对象合成和插入任务。机会朋友的最好的法子是在哪些和哪些东西上联合建模的,然都能能 才能用于避免其它计算机视觉什么的问题。未来有趣的工作之一将是避免对象之间的遮挡。

有好的文章希望站长之家帮助分享推广,猛戳这里我都能能 投稿