最火的“赛博COSER”作者,怎么看待AI创作的现状与未来

“人类文明有五千年历史,地球生命史长达几十亿年,而现代技术是在三百年时间内发展起来的,从宇宙的时间尺度上看,这根本不是什么发展,是爆炸!”

这段话出自知名科幻作品《三体》,作者刘慈欣以他的“技术爆炸”理论,引出了三体人与地球人之间的核心矛盾——猜疑链,并由此延展出了更多的奇思妙想,编织出了一部壮阔的宇宙史诗。

《三体》的故事发生在近未来,这些天马行空的科幻概念理应与2023年的我们隔着一段遥远的距离。不过事实是,在过去的半年里,真正意义上的技术爆炸与猜疑链,其实已经悄然而至。一方面,AI绘画正在以前所未有的进化速度席卷世界,每隔几天都会出现全新的技术探索;

另一方面,画师圈人心惶惶,在集体抵制AI的大背景下,谁也不知道屏幕那头的画作是否出自AI之手。网络上的“赛博猎巫”愈演愈烈,AI与画师之间的战争至今仍未平息。

同人二创平台Lofter近日上线的“AI头像生成器”功能惹恼了大量用户

AI绘画能有如今的成果,很大程度上归功于去年8月大范围传播的SD(Stable Diffusion,稳定扩散模型)的开源属性,自SD公开之后,大量基于该模型的全新AI模型应运而生,开放共享的互联网精神加速了行业的发展进步,用“日新月异”一词来描述这个领域的近况再合适不过。

国内知名度较高的NovelAI同样基于SD模型

在这股科技浪潮之中,上一次破圈的热点话题正是半个月前红极一时的“赛博COSER”,当时的 AI训练师们模糊了现实与幻想的边界,以难辨真伪的写实风格让一众网友重新认识到了AI的实力。

这其中,科技博主“勘云工造”创作的一系列作品尤为突出,由他训练而成的AI COSER不仅在国内的社交媒体疯狂刷屏,更在日本引起了热议,一时之间,AI绘画的相关话题再次登上了热搜,成了每个人都在关注的话题。

勘云工造的AI COS作品在日推引起波澜

但与此同时,这项新兴技术同样也背负着与生俱来的争议——版权。AI绘画不可避免地借鉴了海量画师苦练多年而成的画风,未经授权的AI训练总会让画师群体产生本能的厌恶与反感。在整个世界建立起一套可供参考的法律标准之前,围绕着AI绘画数字版权的争议恐怕不会停歇。

现在AI绘画的“技术痛点”是什么,今后又该朝着哪个方向发展;AI作品的版权该怎么界定, 创作者的权益又要如何保证……在AI绘画相关话题持续霸榜的今天,这些问题成为了迷雾中的重点。

带着这些问题,我们采访到了前文提到的AI COSER创作者“勘云工造”,与他聊了聊AI绘画的现状与未来。

以下是采访正文:

游研社:

“勘云工造”这个账号现在算是小有名气了,请问这次火出圈有对自己产生了什么影响么?

勘云工造:

感觉有一点责任感了,毕竟我也算传播推广者,目前正在编写AI绘画的教程,只是写的东西不如AI的技术迭代快。我还打算做一些关于未来前景的分析探讨,很多人担心的不是科技进步,而是担心科技进步能否让他们的生活变得更好,所以我坚持AI开源,技术共享。

游研社:

你大概是什么时候开始关注AI绘画的呢?当时对AI绘画这项新兴技术有什么看法吗?

勘云工造:

AI也算是一种技术嘛,只要是科技相关的内容我都有兴趣。我大概是去年三四月份开始接触AI绘画,当时申请了DALLE·2的试用。那个时候觉得生成类AI都挺有意思的,会在未来几年内改变传统行业,但没想到AI的进步会这么快。

OpenAI于去年4月推出的DALLE·2,基于扩散模型,自此text2image(文字转图像)技术开始广为人知

游研社:

的确,AI的进步速度远超大家想象。所以你这段时间在持续不断地跟进AI绘画技术的进步吗?还是说中途暂时离开了这个领域?

勘云工造:

我在NovelAI推出后暂时放下了相关研究,因为觉得AI的增速太快了,不如等一段时间再看看,说不定我现在花很多时间才能实现的效果过几个月可以轻松实现。LoRA推出的时候我感觉机会到了,于是重新返回了这个领域。

LoRA,AI模型训练之一,能方便快捷地固定画风、角色、动作等细节,赛博COSER的实现正是基于此技术

游研社:

这些“赛博COSER”选取的角色是出于兴趣,还是有技术上的考量?是否会出现特定角色设计更有辨识度因此更容易生成的情况?

勘云工造:

个人兴趣占比较大,从技术上来说也是有挑战性的,因为需要针对每个角色训练单独的LoRA模型,每个模型根据训练的情况,使用的效果也各不相同,基本上换个模型就要从头调整参数。由于我训练的模型比较少,碰到过最难的部分可能还是细节处理方面,比如手指,但是现在已经有新技术保证手指可以不出问题了。

游研社:

在解决了AI的“一生之敌”手指问题之后,今后的AI绘画还可能在哪些有待改善的方向继续进化?

勘云工造:

主要是三个方向,AI的基础性能、可操作性,以及模型训练方式。

其中,AI的基础性能需要等待算法、采样器的进一步研究发展,毕竟这是AI生成图片的底层原理,能从根本上改变出图的效果和效率;

可操作性是指找到让AI可以彻底被控制的方法,就像车的方向盘,可操作性不强的话AI就只能停留在随机出图的玩具层面,没法加入工业化流程。实际上现在以Controlnet为基础开发出的很多操作方式都非常牛逼,除了之前的骨骼识别、边缘检测、深度检测等功能,目前最新的seg语义控制的表现也很优秀;

新晋AI绘画插件Controlnet,能大幅优化细节部分的处理与把控,大家普遍认为这是全新的技术突破

Seg插件通过色值绑定语义,然后直接在画面里构图来指定不同地方的组成元素。

游研社:

这是否可以理解为,AI的下一个进化方向是从娱乐性较强的出图软件,变成指向性更高、效率更高的工具?

勘云工造:

AI本身就应该是工具,没有人操控的AI没有意义。而且通过构建人机闭环系统,AI的效率能成倍提高,由AI进行重复作业,人来指定总体方向是理想状态。

游研社:

所以你自己如何看待互联网上鼓吹的“AI即将取代绘画从业者”之类的论调呢?

勘云工造:

AI不会取代人,只有人才会取代人。说白了AI就是个高级点的PS。我认为在AI的使用中,人机闭环系统的建立是最重要的过程,哈佛商学院的标志性刊物《哈佛商业评论》近年对大约1500家大型企业进行了调研,最后得出的结论是相比于只靠人或者只靠AI,只有人和AI合作才能最大化地提升效率。

2018年《哈佛商业评论》通过对12个行业的1075家公司的调查,发现这些公司对AI与人类的合作越是重视,他们的工作效率、成本节约、收入或其他运营措施方面的表现就越好

画师其实才是AI的最佳使用者 ,画师不但具有长久锻炼得到的审美,而且可以直接在基于高度定制化生成的图片上进一步修改,再把修改后的图片传回AI进行重新生成。AI的迭代与进化必须要由人类来引导方向,否则无法实现对于人类的价值。

游研社:

但是就如同很多工具一样,工具的使用方式有时候也会引来争议,例如目前受人追捧的几个真人模型,由于热度太高,作者担心产生法律纠纷,于是干脆将模型的所有权转交给了平台方。请问你对AI画真人存在的伦理道德问题以及潜在的违法问题怎么看?

勘云工造:

AI画真人是摆在台面上的违法问题。对于各种犯罪,国家早就有比较周全的规定,比如用AI换脸很明显是侵犯肖像权,这方面可以参考去年国家出台的《互联网信息服务深度合成管理规定》。

我认为这个问题的关键点不在于真人,而是做出来的人在现实中存不存在。AI一直都是做写实风格的,直到去年NovelAI开始兴起后才有人做二次元,只做二次元虽然可以规避肖像权风险,但也相当于自断经脉了。而且做二次元的争议完全不比写实风格的要少,AI的问题在于数据来源的合法性,写实类的数据源是照片,二次元的是画作,后者在版权上的争议还更大些。

游研社:

AI绘图的版权纠纷确实是长期站在风口浪尖的话题,美国版权局在最近明确声明AI制作的图片不受版权保护,请问这算是为行业设立了可供参考的法律标准吗?

勘云工造:

如果使用PS制作一张米老鼠的图片并盈利,迪士尼会起诉图片的使用者而不是Adobe公司,同理如果使用AI进行侵权行为,被侵权者直接起诉图片的使用者才是合适的做法。

美国版权局的声明是针对去年9月围绕着Midjourney产生的一起版权保护申请案。当时Midjourney产出的图片基本还是半随机生成的,AI的部分远大于人工部分,没有今天的可操作性。如果AI的可操作性完善了,或者说AI帮助了作者更好地实现自我表达,那么AI的版权问题可能会被重新定义。

美国版权局近日表示,AI绘画工具Midjourney制作的一部漫画中的插图不受版权保护,因为作者只为AI绘画工具提供文本提示(输入关键字),并非最后生成图像的“主脑”(Master Mind),不能算是创作者。

只不过,未经授权将他人创作的图片用于AI的i2i(image2image,图像转图像)这一行为,需要整个行业的抵制。 i2i洗稿跟用写实模型换脸其实是同样的性质,现在很多人指责AI抄袭然后放叠图对比,就是因为有人用i2i来洗稿才会败坏风气。 有些模型会跑出跟训练素材一模一样的图,实际上这是一种过拟合现象,证明这个模型是失败的。

i2i技术会在图片生成阶段叠一张底图控制AI的创作方向,很容易形成相似度过高的“抄袭”行为

游研社:

想问问以你的视角来看,距离AI具备真正的“创造性”还有多远?

勘云工造:

要看怎么定义创造性了。如果说创造出现实中不存在的东西,比如半猫半狗,AI很轻松就可以做到;如果说是在艺术上的突破,那AI也只是对作者意识的投射,上限取决于作者的审美,因为科技进步不会推动审美进步。

游研社:

最后请展望一下AI绘画的前景吧。

勘云工造:

首先,AI在小说行业可以广泛使用廉价高质的插画来提供更具视觉冲击力的阅读体验。让小说能够更加全面的满足读者的需求,提高文学作品的传播率;

其次,AI在动画和漫画行业可以优化工作流程,使用AI辅助制作原画和中割。这将显著减少制作动画的时间和成本,并为创作者提供更多的时间去优化故事情节和角色表现,提高作品的质量和文化价值;

另外,AI在游戏和电影行业可以辅助制作各种美术资产生成和自动建模,实现高效低费的产出。这将加速游戏和电影的开发速度,同时也使得更多的游戏和电影可以被制作和推广,丰富了人们的文化娱乐生活。

AI的出现有助于解放人类的创造力,使人们不再受制于资本异化的束缚,更多地关注于个人的兴趣和创造力。我认为在可预见的未来,将会有更多优质文化产品诞生。

结语

采访结束后,勘云工造给我们发来了一份3000字的文章,详细阐述了他对AI绘画的见解。受限于篇幅,我们稍作整理,从中挑出了几条最有价值的观点。

AI绘画的原理:

目前主流的AI工具都是基于扩散算法的生成类AI。在模型训练阶段,AI会对训练目标图片其添加噪点并进行编码,使作品进入一个“图像信息空间”。在训练和生成的过程中,AI使用扩散概率模型来处理图片,它的基本原理是通过从若干随机样本中学习来生成新的样本,举个例子的话,就是在一个装有很多苹果的篮子里随机挑选苹果,然后再挑选一个比之前更大的苹果,这个过程重复的越多,你挑出篮子中最大苹果的概率也就越高。

不同于人类作画的起点是从无到有,即逐渐增加颜色形成图像。AI作画是从有到无,从一个由噪点组成的图像中不断去掉无关的噪点,定向降噪直至保留最终目标图像的过程。

扩散模型的原理示意图,AI绘画的本质其实是数学问题,将画风转换为公式,再通过解算公式获取相似的像素排列方式

AI创作相关法律落实有何难点:

从原理上来说,AI学习的过程和人类学习没有太多的本质区别,同样是从浏览大量图片并且模仿开始,只是效率超出了人类无数倍。而从法律角度出发,法律的落实首先要考虑可执行性,现有手段已经无法分辨部分经过修改过的AI作品与人类作品之间的区别,随着技术发展只会更难分辨。假如认定AI参与工作流的作品均无版权,表面是维护版权,实际是在支持更广泛的侵权行为,因为侵权方只需要声称侵权作品是AI生成,即可侵害任何人的版权。

为了防止被大家认为是个天真的理想主义者,勘云工造叮嘱我们为文章加上两个必要的前提:首先 AI 作为一项技术,在问世后便无法被消灭,目前开源后全世界至少有上百万本地备份;其次是生产力和生产关系的问题,当生产力突破生产关系的限制时,必然需要新的生产关系来适配。

作为人类使用的绘图工具, Al 如今面临的问题早已超出了单纯的“科技”范畴,围绕着这项新兴技术产生的矛盾与争议,并非一篇文章能说得清道得明。勘云工造会在今后将他的思考与理解分享出来,想进一步深入探讨AI 前景的朋友,可以持续关注 AI 绘画今后是否还能跟得上时代与法律的变革和冲击。

热门相关:天神下凡   致灿烂的你   明月照大江   时间都知道   巡狩万界