您还未登录! 登录 | 注册 | 帮助  

您的位置: 首页 > 软件开发专栏 > 网络/安全 > 正文

AI制造网络垃圾:旧互联网正在消亡,新网络艰难中诞生

发表于:2023-06-28 作者:佚名 来源:网易科技

网易科技报道6月27日消息,最近几个月,种种迹象表明,互联网的风向已经变了。

谷歌搜索试图取消经典的10个蓝色链接页面、推特被聊天机器人占领、亚马逊和TikTok变得垃圾化。各大在线媒体也在不断缩减人员,而招聘“人工智能编辑”的广告要求每周产出200至250篇文章。电商网站Etsy上充斥着“AI生产的废品”。聊天机器人正参与其中,造成了大量的信息误导。LinkedIn正在利用AI来吸引疲惫的用户,Snapchat和Instagram正希望机器人在你的朋友不在的时候与你交流。Reddit用户正在抗议,Stack Overflow版主发起罢工。互联网档案馆(Internet Archive) 正在与数据爬虫作斗争,而“AI正在破坏维基百科”。

旧互联网正在消亡,而新互联网正在艰难地诞生。

互联网一直在消亡,这一点毫不意外。多年以来,应用程序一直在夺取网站的流量,而算法则使得人们的注意力时间越来越短。但在2023年,网络再次面临消亡的威胁,人工智能成为新的催化剂。

人工智能超越了互联网的规模能力

多年前,网络曾经是个人创造内容的地方。人们制作主页、论坛和邮件列表,并从中赚取一些小钱。然后,公司认为他们可以做得更好,创建了功能丰富的平台,向所有人开放。他们提供了一个盒子,我们用文字和图片填充,其他人来浏览。这些公司都在追求规模效应,因为只要有足够多的人聚集在一起,通常就有赚钱的机会。但人工智能改变了这一切。

人工智能系统(特别是生成式模型)凭借更多的资金和计算能力,可以轻松扩大规模。它们能够生成大量的文本、图像,甚至音乐和视频。它们的产出可能超过我们所依赖的新闻、信息和娱乐平台。然而,这些系统的质量通常很差,它们是以一种寄生在当前网络上的方式构建的。

这些模型依赖于上一个网络时代的数据进行训练,无法完美地重建这些数据。公司从开放的网络中抓取信息,将其提炼成机器生成的内容,成本低廉但可靠性不高。然后,这些产品与之前的平台竞争用户的注意力。网站和用户正在关注这些变化,试图决定如何适应新的趋势。

近几个月来,Reddit、维基百科、Stack Overflow和谷歌等受欢迎的网站上的讨论和实验揭示了人工智能系统带来的压力。

Reddit宣布大幅提高访问其API的费用,版主们进行抗议。Reddit高管表示,这是对人工智能公司抓取其数据的回应。Reddit创始人兼首席执行官史蒂夫·霍夫曼(Steve Huffman)称:“Reddit的数据库非常有价值,我们不需要将这些价值全部免费奉献给全球最大的几家公司。”此外,Reddit试图在今年晚些时候进行IPO之前从该平台榨取更多收入。Reddit的举动表明,数据抓取对当前网络既是威胁又是机遇,并促使公司重新考虑平台的开放性。

维基百科对数据抓取非常熟悉,谷歌长期以来一直使用其信息支持“知识面板”。近年来,这家搜索巨头开始为这些信息付费。但维基百科的版主们正在讨论如何使用功能强大的新人工智能语言模型为网站撰写文章。他们敏锐地意识到与这些系统相关的问题,这些系统可能会编造误导性信息,但他们不得不承认它们在速度和范围方面具有明显优势。在线社区教授、《你应该相信维基百科吗?》(Should You Believe Wikipedia?)一书的作者艾米·布鲁克曼(Amy Bruckman)表示:“我不认为将人工智能生成的内容作为初稿有什么错,但每一点都必须经过核实。”

ChatGPT生成的答案错误率很高

Stack Overflow提供了一个类似但更极端的例子。像Reddit一样,Stack Overflow版主也在罢工,他们同样担心机器生成内容的质量。当ChatGPT去年上线时,Stack Overflow成为第一个禁止其输出的主要平台。版主们当时写道:“尽管ChatGPT生成的答案错误率很高,但它们通常看起来可能是正确的,而且答案很容易生成。”由于排序结果需要花费太多时间,版主们决定完全禁止它。

然而,Stack Overflow的管理层另有打算。此后,该公司通过增加阻止用户发布人工智能内容所需的证据,从根本上扭转了这一禁令,并宣布希望利用这项技术。与Reddit类似,Stack Overflow计划向那些自己构建人工智能工具并收集数据的公司收费,可能是为了与它们竞争。Stack Overflow与版主们的争执在于网站的标准以及谁来执行这些标准。版主们认为人工智能的输出不可信,但高管们认为值得冒险。

然而,与谷歌正在发生的变化相比,这些困难都显得微不足道。谷歌搜索为现代网络经济提供了保障,将注意力和收入分散到大部分互联网上。随着Bing AI和ChatGPT作为替代搜索引擎变得越来越流行,谷歌开始采取行动,并试验用人工智能生成的摘要取代传统的10个蓝色链接。如果谷歌继续实施这一计划,将迎来巨大的变革。

科技网站Tom’s Hardware的总编辑阿夫拉姆·皮尔奇(Avram Piltch)在一篇关于谷歌人工智能搜索测试版的文章中强调了其中的某些问题。皮尔奇称,谷歌的新系统实质上是一个“抄袭引擎”。它的人工智能生成摘要经常逐字逐句地从网站上复制文本,但将这些内容放在源链接上方,导致它们缺乏流量。如果这种新的搜索模式成为常态,它可能会损害整个网络。收入拮据的网站可能会被挤出市场,而谷歌自己也将耗尽可供重新打包的人工生成内容。

人工智能领域的变化(基于他人的工作生成廉价的内容)正在推动这种变化,如果谷歌继续当前的人工智能搜索体验,其影响将很难预测。这可能破坏我们目前认为有用的网络,从产品评论到食谱博客、业余爱好者主页、新闻媒体和维基。网站可以通过封锁入口和收费来保护自己,但这也将对网络经济进行巨大重组。最终,谷歌可能会杀死为其创造价值的生态系统,或者以不可逆转的方式改变它,以至于自己的生存也受到威胁。

然而,如果让人工智能掌控局面,并开始向大众提供信息,会发生什么?会有什么不同吗?

目前的证据表明,它会降低网络的总体质量。正如皮尔奇在他的评论中所指出的那样,尽管人工智能有重新组合文本的能力,但最终创造底层数据的是人类,无论是核实事实的记者,还是遇到电池问题的Reddit用户,他们乐意分享解决问题的方法。相比之下,人工智能语言模型和聊天机器人生成的信息往往是不正确的。更棘手的是,当它们出错时,很难发现这些错误。

举个例子,今年早些时候,笔者研究人工智能代理时发现了一个问题。这类系统使用像ChatGPT这样的语言模型,与网络服务连接,代表用户订购杂货或预订航班。推特上有很多人都在称赞这项技术的潜力,于是笔者想象了一个场景:一家防水鞋公司想要进行一些市场调研,于是便求助AutoGPT(一个建立在OpenAI语言模型之上的系统),来生成一份关于潜在竞争对手的报告。

生成的内容基本上是可预测的。它列出了五家公司,并列出了它们产品的优点和缺点。AutoGPT写道:“(某某品牌)是一家出色的户外装备和鞋类品牌”、“他们的防水鞋有多种样式”、“他们在市场上的价格具有竞争力”。你可能会认为这些内容太过陈腐,几乎没有用处(你说得没错),但是这些信息也是有微妙错误的。

人工智能生成内容往往隐含错误

为了检查报告内容,笔者请Reddit上著名版主克里斯(Chris)进行了核对。克里斯表示,这份报告基本上是凭空捏造的。他说:“尽管内容很多,但没有真正的价值。”它没有提到一些重要因素,比如男女鞋的区别或所用的面料类型。它错误地将网络曝光率更高的品牌列为更有价值的品牌。克里斯表示,总的来说,这份报告不专业,大部分都是猜测。“如果有人问我同样的问题,我会给出完全不同的答案,”他说。“接受人工智能的建议,很可能会导致脚受伤。”

这与Stack Overflow版主们的抱怨相似,他们认为人工智能生成的错误信息是隐蔽的,因为通常不容易发现。人工智能系统给出的报告看起来很好,但没有基于现实世界的经验,所以需要时间和专业知识进行分析。如果机器生成的内容取代了人类的创作,我们将很难(甚至不可能)完全描绘出这种损害。是的,人类也会创造大量错误信息,但如果人工智能系统扼杀了目前人类专业知识蓬勃发展的平台,那么纠正我们集体错误的机会就会减少。

人工智能对网络的影响无法简单概括。即使在上述几个例子中,也有许多不同的机制在起作用。在某些情况下,人工智能的威胁似乎被用来为其他原因所期望的改变辩护(比如Reddit),而在其他情况下,人工智能是创造网站价值的人和运营网站的人之间斗争的武器(比如Stack Overflow)。在其他领域,人工智能填满盒子的能力也产生了不同的影响,从试图让人工智能参与的社交网络,到人工智能生成的垃圾与其他商品竞争的购物网站。

在每一种情况下,人工智能的扩展能力都改变了平台。许多最成功的网站都是利用规模优势的网站,它们要么增加社交联系或产品选择,要么对构成互联网本身的大量信息进行分类。但这种规模依赖于大量的人类来创造潜在价值,而在大规模生产方面,人类无法击败人工智能。

机器学习领域有一篇著名的文章,名为《痛苦的教训》(the Bitter Lesson)。指出,几十年的研究证明,改进人工智能系统的最佳方式不是试图设计智能,而是简单地投入更多的计算机能力和数据。这是一个痛苦的教训,因为它表明机器规模胜过人类管理。同样的道理也适用于网络。

但这一定是坏事吗?如果我们所知道的网络在面对人工丰裕时发生了变化,结果会如何?有些人会说,这就是世界运行的方式,他们指出,网络本身也扼杀了它之前的东西,而且往往是向好的方向发展。例如,印刷版百科全书几乎绝迹了,但我更喜欢维基百科的广度和可访问性,而不是大英百科全书的分量和保证。对于与人工智能生成内容相关的所有问题,也有很多方法可以改进它,比如改进引用功能、增加人类监督等。此外,即使网络上充斥着人工智能垃圾,也可能被证明是有益的,可以刺激资金更充足的平台发展。例如,如果谷歌在搜索中总是提供垃圾结果,你可能更倾向于为你信任的资源付费,并直接访问它们。

事实上,人工智能目前引发的变化只是网络历史上长期斗争中的最新进展。从本质上讲,这是一场关于信息的战争,关于谁在制造信息,你如何获取信息,以及谁得到报酬。但是,仅仅因为这场战斗是熟悉的,并不意味着它不重要,也不能保证接下来的系统会比我们现在的系统更好。新的网络正艰难地诞生,而我们现在所做出的决定将决定它的发展方式。