澳尼斯人娱乐网址_人工智能的想象力在哪里?微软的这个机器人画家告诉你答案

 新闻资讯     |      2024-01-25 05:21:02    |      澳尼斯人娱乐网址
本文摘要:按:人工智能需要构建什么?

按:人工智能需要构建什么?毫无疑问它可以协助我们构建很多事情,但微软公司最近研发的一项人工智能技术创下了我们对于人工智能的理解。基于计算机辨识和自然语言处置,微软公司研发出有一种可以根据用户叙述来绘图的机器人,它甚至可以协助用户重构不一定叙述的细节。目前微软公司早已通过官方博客发布了这一成果,(公众号:)对这篇博客展开了不转变本意的编译器。

比如说一下,你手中拿着稿纸和画笔,被拒绝画一幅关于鸟的照片,这只鸟要有黄色的身体,黑色的翅膀和短短的鸟喙。你大约不会再行所画出有鸟的大约轮廓,之后检查改动一下,之后看看黄色的身体部分,然后用黄色的画笔填满鸟的身体。接着再行用黑色的画笔已完成鸟的翅膀,最后检查一下,所画上短短的有些发光的鸟喙。

为了使之更加生动形象,你也许会画上鸟所栖息于的树干。如今,机器人也可以如你一样做这一点了!微软公司研究实验室正在研发的新型人工智能技术需要从字幕式的文本叙述中撷取单个的词语分解图像。网站 arXiv.org 上公开发表的一篇研究报告称之为,根据行业标准测试的结果,这项技术产生的图像质量与之前的文本到图像分解技术比起,提升了将近三倍。

研究人员非常简单地称作绘图机器人,该技术可以分解从普通的田园风光(如耕种家畜)到可笑无意义的(如浮动的双层巴士)所有图像。每幅图像都包括了文字描述中没提到的细节,指出该人工智能技术享有一种人造的想象力。

“如果你用 Bing 搜寻一只鸟,你不会获得一张鸟的图片。但是在这里,图片是由计算机逐一像素地从头开始创立的,”坐落于微软公司在华盛顿州雷蒙德市的研究实验室,深度自学技术中心的首席研究员和研究主管 Xiaodong He回应。“这些鸟在现实世界中有可能会不存在——它们只是指出了计算机对鸟类想像力的一个方面”。这项绘图机器人技术已完成了他和他的同事在过去五年中,探寻过的计算机视觉和自然语言处置的交叉学科研究。

他们从自动撰写照片字幕 —— CaptionBot ——的技术开始,然后改向另外一种技术,问人类对图像明确提出的问题,例如对象的方位或属性,这点对盲人尤其简单。这些研究工作必须训练机器学习模型来辨识对象,已完成不道德和自然语言间的交互。

“现在我们要用文字来分解图像,”该的组织的博士后研究员,论文年出版者 Qiuyuan Huang 回应, “所以,这就是一个循环。”图像分解是一个比图像字幕极具挑战性的任务,团队中的副研究员 Pengchuan Zhang 补足说道,因为这个过程必须绘图机器人想象没包括在标题中的细节。

他说道:“这意味著你必须运营人工智能的机器学习算法来想象一些图像中的缺陷部分。”精细的图像分解微软公司绘图机器人的核心是一种被称作“分解对付网络”(Generative Adversarial Network,GAN)的技术。

网络由两个机器学习模型构成,一个从文本叙述分解图像,另一个称作鉴别器,用于文本叙述来辨别分解图像的真实性。发生器企图通过假照片看穿鉴别器,同时鉴别器展开辨别。二者一起起到,将发生器大大极致。

微软公司的绘图机器人在包括对应图像和标题的数据集上展开了训练,这些容许模型自学如何将单词与这些单词的可视化图片回应相匹配。例如, GAN 学会在标题说道鸟的时候分解鸟的图像,并且某种程度自学鸟的图像应当是什么样的。他说道:这是我们坚信机器可以自学的根本原因。

当从非常简单的文字描述(例如蓝鸟或常青树)产生图像时, GAN 可以很好地工作,但在更加简单的文本叙述中效果不欠佳,例如具备绿色的冠,黄色的翅膀和红色腹部的鸟。这是因为整个句子作为发生器的单一输出。其中详尽的信息再次发生了遗失。

因此,分解的图像是一种模糊不清的带上绿色和微黄色的鸟,而不是与叙述中密切给定。在人类的绘画过程中,我们重复提及文本,并紧密注目叙述我们正在绘制的图像区域和单词叙述。

为了捕猎这种人的特质,研究人员创立了他们所谓的 attentional GAN或 AttnGAN,它们在数学上仿真了人类注目的概念。它是通过将输出文本分解成为单个单词并将这些单词与图像的特定区域相匹配来构建的。“留意是一个人的概念,我们用数学来展开计算出来。

”他说明说道。该模型还从训练数据中自学到人类称作常识的东西,并且利用这个自学的概念来填满回到想象中图像的细节。例如,由于训练数据中的许多鸟类图像表明了躺在树枝上的鸟, AttnGAN 一般来说使鸟栖息于在树枝上,除非文本另有规定。

“从数据来看,机器学习算法自学鸟站在树枝上应当归属于这类常识,”Zhang 说道。作为一项测试,该团队为漫画图像获取了绘图机器人所需的字幕,例如“一辆红色的双层巴士飘浮在湖面上”。它分解了一个模糊不清的,别致的双层巴士图像,类似于两层甲板船或双层甲板船,飘浮在群山环绕的湖上。

该图像指出,关于船只能飘浮在湖泊上和公共汽车的文本叙述之间,机器人内部有一个争斗。“我们可以掌控我们叙述的东西,想到机器如何作出反应。

” 他说明说道,“我们可以干预和测试机器究竟教给了什么东西。这台机器早已具备一些背景常识,但它依然可以按照你所拒绝的运营,有时候,这或许有点可笑荒谬。”实际应用于方面这项文本到图像的分解技术可以运用到实际应用于中,可以作为画家和室内设计师的草图助手,或作为语音掌控的照片美化工具。

预示更加强劲的计算能力,他想象这项技术可以分解基于电影剧本的动画电影,为电影制作人增加一些必须人工的成本。但就目前来看,这项技术还不完备。

对图像展开仔细检查后,完全总能找到瑕疵,例如蓝鸟喙,而不是黑色的,水果和基因突变的香蕉宽在一起。这些缺失确切地指出,是电脑而不是人类建构了这些图像。尽管如此, AttnGAN 图像的质量比以前最差的 GAN 图像质量提升了近 3 倍,并且这是通向强化人类自身能力的类人工智能道路上的一个里程碑。

“因为人工智能和人类生活在同一个世界,他们之间必需寻找一种相互交流的方式。”他说明道,“语言和视觉是人类与机器交流的两个最重要的途径。”除了微软公司的 Xiaodong He, Pengchuan Zhang and Qiuyuan Huang,合作者还包括前微软公司实习生利理海大学的Tao Xu和杜克大学的 Zhe Gan,罗格斯大学的 Han Zhang,理海大学的 Xiaolei Huang。

有关参考资料1.读者关于 AttnGAN 的研究论文2.理解更加多关于微软公司在视觉和语言智能方面的 AI 研究成果3.查阅 CaptionBot 和 Seeing AI 这两个应用于4.数十年的计算机视觉研究,“Swiss Army Knife”Viablogs.microsoft.。


本文关键词:澳尼斯人娱乐网址

本文来源:澳尼斯人娱乐网址-www.datangrq.com