人工智能绘图的与人类语言互动 vs 三维建模绘图的与人类动作互动

百名博士谈科学

王坚：博士，芝加哥教授学者协会会长。

十万个为什么 3.0 丛书

2024年八月，于美国密尔沃基

***

在2022年底，出现生成式人工智能在写作领域中的应用，大语言模型ChatGPT，能生成类似人写的句子，轰动世界。语言的三个基本要素是词汇、语音、语法。就汉语来讲，也就是几千个汉字、几百个语音，几十个语法规则。世界语甚至只有16条语法规则，更容易学。语言的基本要素的数量有限，适合用生成式人工智能处理语言，大语言模型风靡世界，在中国就产生了几百种大语言模型。

接下来，生成式人工智能扩展到图像等领域，出现Stable Diffusion、Midjourney等人工智能图像生成软件。

电脑图像的要素有像素、色彩、亮度等。一张大的医学影像，可有40万×40万=1600亿像素，人眼最多可以辨别数百万种不同的颜色，人眼能分辨的最小亮度与最大亮度相差10亿倍，都是接近无限的数字。图像领域的生成式人工智能能处理这么多的像素、颜色、亮度吗？

实际情况是，生成式人工智能还真的不能像人类那样绘画，而是通过网络搜索得到几亿张图片，并且有图片的文字描述。Stable Diffusion、Midjourney等人工智能图像生成软件，是文本转图像模型，根据用户的文字提示中的Token，找到几张匹配的图像，再融合而生成用户所要求的图像。

△ 用快影 APP生成的

2种不同风格的海景豪宅‍‍‍‍‍‍

人工智能绘图是与人类语言互动，根据用户的提示语生成图像，再根据用户的提示语修改图像。然后用各种插件对图像进行处理。

人类的绘画，则是动作的产物，很难用语言描述绘画。有的画家讲，他的绘画作品有18个层次。画家没有事先规划每个层次如何画，而是前面的绘画动作启发后面的绘画动作，前面的绘画层次启发后面的绘画层次，最后生成完整的绘画作品。

传统的绘画软件，也是与人类的动作互动。比如Photoshop绘画软件，如果是加项链，就用手驱动鼠标，将项链图像拉到颈部就行了。颜色有几百万种，也是人驱动鼠标，点击调色板，选择合适的颜色放在图像上。

△ 以“颜色有几百万种”为关键词，

用美图秀秀 APP 生成的

2张 “文生图” 图片

颜色有几百万种，但人类关于颜色的词汇很有限，人工智能图像生成软件与人类的语言互动，根据用户在提示语中给出的颜色来生成图像，能使用的颜色就很有限。

选取素材，也是绘图软件与人类动作的互动，用户用手驱动鼠标，选择自己喜欢的素材。

很多传统绘图软件有自己的素材库。美图秀秀绘图软件有海量素材，覆盖电商、自媒体、办公等多元场景。即使无设计基础，用户也能选择合适的素材，迅速制作精美海报、Banner、Logo等作品。

△ 以“绘图软件与人类动作的互动”为关键词，用美图秀秀生成的 “文生图” 图片

生成式人工智能软件，几亿图片素材都是从网络上抓取的，Midjourney被控告侵犯知识产权。这样，生成式人工智能软件就不能展示自己的丰富素材库，只能是用户通过提示语对图片做粗线条的描述，Midjourney找到一些匹配的图片，然后先加噪声，再去噪声，经过一系列图片炒作，让人认不出图片的来源，避免被指控侵权。

△ 知名AI绘图工具MidJourney也因版权问题被多名艺术家集体起诉，据悉涉及到的艺术家有16000余名，名单长达24页，其中年龄最小的作者只有6岁。

考察Midjourney、DALL E 3生成的图片，有六条路的交叉路口没红绿灯，几条路是死路，飞行器没翅膀，电脑在桌面上腾空、没显示提示语讲的垂直绿墙，提示语讲读报纸却生成读书等一系列问题。

△ Midjourney、DALL E 3生成的图片：有六条路的交叉路口没红绿灯

考察Midjourney的局部重绘，又有不能指定项链的位置，只能粗线条地指出将项链放在颈部，而且项链的珠子前大后小，提示语讲牙齿白亮却连嘴唇的颜色也变红了等问题。色彩，只能粗线条地讲几个有限的颜色词汇；位置，只能粗线条地勾勒颈部。用语言，很难对图片做精细的描述。

生成式人工智能图像软件，与人的语言互动，就局限性很大。而Maya三维建模绘图软件，与人类动作高度互动，用户可以像捏粘土一样，随意更改三维图面。Unreal Engine 5三维建模绘图软件，也是与人类动作高度互动，里面有各种素材制作工具，做各种素材都很方便。

卷积神经网络之父杨立昆院士（Yann LeCun）讲，可以删掉句子最后一个词来训练大语言模型预测被删掉的词，但是没法训练大型神经网络来恢复破损的图片，也没法训练大型神经网络去预测视频故事会如何发展。也就是讲，生成式人工智能处理一维的语言很好，但是在处理二维的图片和三维的视频上，则是困难重重。

△ 杨立昆（Yann LeCun，原中文译名扬·勒丘恩），1960年出生于法国巴黎附近，纽约大学教授、Meta首席人工智能科学家、2018年图灵奖（Turing Award）得主， 2021年8月1日出版图书《科学之路：人，机器与未来》。

个人观点，仅供参考

星辉看世界 – Xinhui Times

人工智能绘图的与人类语言互动 vs 三维建模绘图的与人类动作互动

发表评论取消回复

人工智能绘图的与人类语言互动 vs 三维建模绘图的与人类动作互动

Related posts:

发表评论取消回复

了解 星辉看世界 - Xinhui Times 的更多信息

了解星辉看世界 - Xinhui Times 的更多信息