人工智能绘图的与人类语言互动 vs 三维建模绘图的与人类动作互动

百名博士谈科学     
王坚:博士,芝加哥教授学者协会会长。
版权所有,转载请联系作者)
十万个为什么 3.0 丛书 
2024年八月,于美国密尔沃基

***

在2022年底,出现生成式人工智能在写作领域中的应用,大语言模型ChatGPT,能生成类似人写的句子,轰动世界。语言的三个基本要素是词汇、语音、语法。就汉语来讲,也就是几千个汉字、几百个语音,几十个语法规则。世界语甚至只有16条语法规则,更容易学。语言的基本要素的数量有限,适合用生成式人工智能处理语言,大语言模型风靡世界,在中国就产生了几百种大语言模型。
接下来,生成式人工智能扩展到图像等领域,出现Stable Diffusion、Midjourney等人工智能图像生成软件。
电脑图像的要素有像素、色彩、亮度等。一张大的医学影像,可有40万×40万=1600亿像素,人眼最多可以辨别数百万种不同的颜色,人眼能分辨的最小亮度与最大亮度相差10亿倍,都是接近无限的数字。图像领域的生成式人工智能能处理这么多的像素、颜色、亮度吗?
实际情况是,生成式人工智能还真的不能像人类那样绘画,而是通过网络搜索得到几亿张图片,并且有图片的文字描述。Stable Diffusion、Midjourney等人工智能图像生成软件,是文本转图像模型,根据用户的文字提示中的Token,找到几张匹配的图像,再融合而生成用户所要求的图像。

△ 用快影 APP生成的
2种不同风格的海景豪宅‍‍‍‍‍‍‍‍‍‍
人工智能绘图是与人类语言互动,根据用户的提示语生成图像,再根据用户的提示语修改图像。然后用各种插件对图像进行处理。
人类的绘画,则是动作的产物,很难用语言描述绘画。有的画家讲,他的绘画作品有18个层次。画家没有事先规划每个层次如何画,而是前面的绘画动作启发后面的绘画动作,前面的绘画层次启发后面的绘画层次,最后生成完整的绘画作品。
传统的绘画软件,也是与人类的动作互动。比如Photoshop绘画软件,如果是加项链,就用手驱动鼠标,将项链图像拉到颈部就行了。颜色有几百万种,也是人驱动鼠标,点击调色板,选择合适的颜色放在图像上。

△ 以“颜色有几百万种”为关键词,

用美图秀秀 APP 生成的

2张 “文生图” 图片

颜色有几百万种,但人类关于颜色的词汇很有限,人工智能图像生成软件与人类的语言互动,根据用户在提示语中给出的颜色来生成图像,能使用的颜色就很有限。

选取素材,也是绘图软件与人类动作的互动,用户用手驱动鼠标,选择自己喜欢的素材。
很多传统绘图软件有自己的素材库。美图秀秀绘图软件有海量素材,覆盖电商、自媒体、办公等多元场景。即使无设计基础,用户也能选择合适的素材,迅速制作精美海报、Banner、Logo等作品。
△ 以“绘图软件与人类动作的互动”为关键词,用美图秀秀生成的 “文生图” 图片
生成式人工智能软件,几亿图片素材都是从网络上抓取的,Midjourney被控告侵犯知识产权。这样,生成式人工智能软件就不能展示自己的丰富素材库,只能是用户通过提示语对图片做粗线条的描述,Midjourney找到一些匹配的图片,然后先加噪声,再去噪声,经过一系列图片炒作,让人认不出图片的来源,避免被指控侵权。

△ 知名AI绘图工具MidJourney也因版权问题被多名艺术家集体起诉,据悉涉及到的艺术家有16000余名,名单长达24页,其中年龄最小的作者只有6岁 。
考察Midjourney、DALL E 3生成的图片,有六条路的交叉路口没红绿灯,几条路是死路,飞行器没翅膀,电脑在桌面上腾空、没显示提示语讲的垂直绿墙,提示语讲读报纸却生成读书等一系列问题。

△ Midjourney、DALL E 3生成的图片:有六条路的交叉路口没红绿灯

考察Midjourney的局部重绘,又有不能指定项链的位置,只能粗线条地指出将项链放在颈部,而且项链的珠子前大后小,提示语讲牙齿白亮却连嘴唇的颜色也变红了等问题。色彩,只能粗线条地讲几个有限的颜色词汇;位置,只能粗线条地勾勒颈部。用语言,很难对图片做精细的描述。
生成式人工智能图像软件,与人的语言互动,就局限性很大。而Maya三维建模绘图软件,与人类动作高度互动,用户可以像捏粘土一样,随意更改三维图面。Unreal Engine 5三维建模绘图软件,也是与人类动作高度互动,里面有各种素材制作工具,做各种素材都很方便。

卷积神经网络之父杨立昆院士(Yann LeCun)讲,可以删掉句子最后一个词来训练大语言模型预测被删掉的词,但是没法训练大型神经网络来恢复破损的图片,也没法训练大型神经网络去预测视频故事会如何发展。也就是讲,生成式人工智能处理一维的语言很好,但是在处理二维的图片和三维的视频上,则是困难重重。

杨立昆(Yann LeCun,原中文译名扬·勒丘恩),1960年出生于法国巴黎附近,纽约大学教授、Meta首席人工智能科学家、2018年图灵奖(Turing Award)得主, 2021年8月1日出版图书《科学之路:人,机器与未来》。

个人观点,仅供参考

评分:0 分,总分为 5 分。

WeChat: 1256668848 =125+666+888+48=256(2^8)-668-8848(珠穆朗玛)

亚伯拉罕 人生哲理 人生感悟 保罗 信仰 信心 创世记 利未记 十字架 圣经 圣经解经 基督 基督信仰 大卫 属灵争战 属灵成长 希伯来书 彼得 律法 心灵鸡汤 恩典 悔改 戎翰牧师 救恩 救赎 新生命 旷野 正能量 法利赛人 洁净 盼望 真理 神的主权 神迹 祷告 约翰福音 耶稣 苦难 诗篇 路加福音 门徒 顺服 风川渝 马可福音 马太福音


发表评论

了解 星辉看世界 - Xinhui Times 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读