***
在2022年底,出现生成式人工智能在写作领域中的应用,大语言模型ChatGPT,能生成类似人写的句子,轰动世界。语言的三个基本要素是词汇、语音、语法。就汉语来讲,也就是几千个汉字、几百个语音,几十个语法规则。世界语甚至只有16条语法规则,更容易学。语言的基本要素的数量有限,适合用生成式人工智能处理语言,大语言模型风靡世界,在中国就产生了几百种大语言模型。接下来,生成式人工智能扩展到图像等领域,出现Stable Diffusion、Midjourney等人工智能图像生成软件。电脑图像的要素有像素、色彩、亮度等。一张大的医学影像,可有40万×40万=1600亿像素,人眼最多可以辨别数百万种不同的颜色,人眼能分辨的最小亮度与最大亮度相差10亿倍,都是接近无限的数字。图像领域的生成式人工智能能处理这么多的像素、颜色、亮度吗?实际情况是,生成式人工智能还真的不能像人类那样绘画,而是通过网络搜索得到几亿张图片,并且有图片的文字描述。Stable Diffusion、Midjourney等人工智能图像生成软件,是文本转图像模型,根据用户的文字提示中的Token,找到几张匹配的图像,再融合而生成用户所要求的图像。
人工智能绘图是与人类语言互动,根据用户的提示语生成图像,再根据用户的提示语修改图像。然后用各种插件对图像进行处理。人类的绘画,则是动作的产物,很难用语言描述绘画。有的画家讲,他的绘画作品有18个层次。画家没有事先规划每个层次如何画,而是前面的绘画动作启发后面的绘画动作,前面的绘画层次启发后面的绘画层次,最后生成完整的绘画作品。传统的绘画软件,也是与人类的动作互动。比如Photoshop绘画软件,如果是加项链,就用手驱动鼠标,将项链图像拉到颈部就行了。颜色有几百万种,也是人驱动鼠标,点击调色板,选择合适的颜色放在图像上。
△ 以“颜色有几百万种”为关键词,
用美图秀秀 APP 生成的
颜色有几百万种,但人类关于颜色的词汇很有限,人工智能图像生成软件与人类的语言互动,根据用户在提示语中给出的颜色来生成图像,能使用的颜色就很有限。
选取素材,也是绘图软件与人类动作的互动,用户用手驱动鼠标,选择自己喜欢的素材。很多传统绘图软件有自己的素材库。美图秀秀绘图软件有海量素材,覆盖电商、自媒体、办公等多元场景。即使无设计基础,用户也能选择合适的素材,迅速制作精美海报、Banner、Logo等作品。△ 以“绘图软件与人类动作的互动”为关键词,用美图秀秀生成的 “文生图” 图片生成式人工智能软件,几亿图片素材都是从网络上抓取的,Midjourney被控告侵犯知识产权。这样,生成式人工智能软件就不能展示自己的丰富素材库,只能是用户通过提示语对图片做粗线条的描述,Midjourney找到一些匹配的图片,然后先加噪声,再去噪声,经过一系列图片炒作,让人认不出图片的来源,避免被指控侵权。
△ 知名AI绘图工具MidJourney也因版权问题被多名艺术家集体起诉,据悉涉及到的艺术家有16000余名,名单长达24页,其中年龄最小的作者只有6岁 。考察Midjourney、DALL E 3生成的图片,有六条路的交叉路口没红绿灯,几条路是死路,飞行器没翅膀,电脑在桌面上腾空、没显示提示语讲的垂直绿墙,提示语讲读报纸却生成读书等一系列问题。△ Midjourney、DALL E 3生成的图片:有六条路的交叉路口没红绿灯
考察Midjourney的局部重绘,又有不能指定项链的位置,只能粗线条地指出将项链放在颈部,而且项链的珠子前大后小,提示语讲牙齿白亮却连嘴唇的颜色也变红了等问题。色彩,只能粗线条地讲几个有限的颜色词汇;位置,只能粗线条地勾勒颈部。用语言,很难对图片做精细的描述。生成式人工智能图像软件,与人的语言互动,就局限性很大。而Maya三维建模绘图软件,与人类动作高度互动,用户可以像捏粘土一样,随意更改三维图面。Unreal Engine 5三维建模绘图软件,也是与人类动作高度互动,里面有各种素材制作工具,做各种素材都很方便。卷积神经网络之父杨立昆院士(Yann LeCun)讲,可以删掉句子最后一个词来训练大语言模型预测被删掉的词,但是没法训练大型神经网络来恢复破损的图片,也没法训练大型神经网络去预测视频故事会如何发展。也就是讲,生成式人工智能处理一维的语言很好,但是在处理二维的图片和三维的视频上,则是困难重重。
△ 杨立昆(Yann LeCun,原中文译名扬·勒丘恩),1960年出生于法国巴黎附近,纽约大学教授、Meta首席人工智能科学家、2018年图灵奖(Turing Award)得主, 2021年8月1日出版图书《科学之路:人,机器与未来》。
发表评论