当前位置:河北快3 > 河北快3产品 >
英伟达:从图像中抽象出概念再生成新的图像,网友:人类幼崽这个技能 AI 终于学会了
发布日期:2022-08-14

人类幼崽 2 岁就能做的事,AI 竟然才学会?

早在 2017 年,就有网友吐槽:2 岁幼童只要见过一次犀牛的照片,就能在其他图片里认出不同姿势、视角和风格的卡通犀牛,但 AI 却做不到。

直到现在,这一点终于被科学家攻克了!

最新研究发现,只要给 AI 喂 3-5 张图片,AI 就能抽象出图片里的物体或风格,再随机生成个性化的新图片。

有网友评价:非常酷,这可能是我这几个月来看到的最好的项目。

它是如何工作的?

让我们先来看几个例子。

当你上传 3 张不同角度的陶瓷猫照片,可能会得到以下 4 张新图像:两只在船上钓鱼的陶瓷猫、陶瓷猫书包、班克斯艺术风格的猫以及陶瓷猫主题的午餐盒。

同样的例子还有艺术品:

铠甲小人:

碗:

不只是提取图像中的物体,AI 还能生成特定风格的新图像。

例如下图,AI 提取了输入图像的绘画风格,生成了一系列该风格的新画作。

更神奇的是,它还能将两组输入图像相结合,提取一组图像中的物体,再提取另一组的图像风格,两者结合,生成一张崭新的图像。

除此之外,有了这个功能,你还可以对一些经典图像 " 下手 ",给它们添加一些新元素。

那么,这么神奇的功能背后是什么原理呢?

尽管近两年来,大规模文本 - 图像模型,如 DALL · E、CLIP、GLIDE 等,已经被证明有很强的自然语言推理能力。

但有一点:如果用户提出一些特定的需求,比如生成一张包含我最喜欢的童年玩具的新照片,或者把孩子的涂鸦变成一件艺术品,这些大规模模型都很难做到。

为了应对这一挑战,研究给出了一个固定的、预先训练好的文本 - 图像模型和一个描述概念的小图像集(用户输入的 3-5 张图像),目标是找到一个单一的词嵌入,从小集合中重建图像。由于这种嵌入是通过优化过程发现的,于是称之为 " 文本倒置(Textual Inversion)"。

具体来说,就是先抽象出用户输入图像中的物体或风格,并转换为 "S " 这一伪词(pseudo-word),这时,这个伪词就可以被当作任何其他词来处理,最后根据 "S " 组合成的自然语句,生成个性化的新图像,比如:

" 一张 S 在海滩上的照片 "、" 一幅挂在墙上的 S 的油画 "、" 以 S2 的风格画一幅 S1 "。

值得注意的是,由于本次研究应用了一个小规模、经过策划的数据集,因此在生成图像时能有效地避免刻板印象。

例如下图,当提示 " 医生 " 时,其他模型倾向于生成白种人和男性的图像,而本模型生成图像中则增加了女性和其他种族的人数。

目前,该项目的代码和数据已开源,感兴趣的小伙伴可以关注一下。

作者介绍

该篇论文来自特拉维夫大学和英伟达的研究团队,作者分别是 Rinon Gal、Yuval Alaluf、Yuval Atzmon、Or Patashnik、Amit H. Bermano、Gal Chechik、Daniel Cohen-Or。

第一作者 Rinon Gal,是特拉维夫大学的计算机科学博士生,师从 Daniel Cohen-Or 和 Amit Bermano,主要研究方向是在减少监督的条件下生成 2D 和 3D 模型,目前在英伟达工作。

参考链接:

[ 1 ] https://textual-inversion.github.io/

[ 2 ] https://github.com/rinongal/textual_inversion

[ 3 ] https://arxiv.org/abs/2208.01618

[ 4 ] https://twitter.com/_akhaliq/status/1554630742717726720

[ 5 ] https://rinongal.github.io/

上一篇:一个人最好的修行:顺境不狂、逆境不颓、闲境不废
下一篇:人民车评:以诚信安全守护摩托行业发展“加速度”

河北快3平台,河北快3官网,河北快3网址,河北快3下载,河北快3app,河北快3开户,河北快3投注,河北快3购彩,河北快3注册,河北快3登录,河北快3邀请码,河北快3技巧,河北快3手机版,河北快3靠谱吗,河北快3走势图,河北快3开奖结果
主页    |     河北快3首页    |     河北快3服务    |     河北快3产品    |    

Powered by 河北快3 @2018 RSS地图 HTML地图