风险提示:央行等十部委发布《关于进一步防范和处置虚拟货币交易炒作风险的通知》, 请读者提高风险意识。

长推: LLM最大风险——污染人类的自然语言

如果下一代的训练语料被这一代的 AI 污染,可以预见的是以人类不可见的速度,自然语言逐步代码化。

@xleaps
@xleaps
热度 ...

原文作者:@xleaps

原文来源:Twitter

注:原文来自@xleaps发布长推。

我说过多次,当下 LLM 最大的风险是污染人类的自然语言,使得我们从此没有纯人类语言的训练语料。如同核爆后的低辐射钢。

影响下一代 LLM 质量本身只是一度风险。更大的二度风险是,如果这一代 AI 生成的句子进入下一代 AI, 则在人类语言的演进方向中,就不仅仅包含了人的因子,还有机器的因子。

我们不知道基于梯度下降和 Transformer的 LLM 会如何影响和演化人类语言,但我们知道,机器可以用远比人类高效的语言交流。语言本质是符号的序列,机器间通信一定会优先选择对机器来说更低能量的编码解码方式来传递信息。

而符号序列只能属于 means to the end. 有理由相信,如果机器参与到语言演变,贡献演化压力,则终有一天,我们人类的语言演变成其实更适合各种数字模型之间通信的某种符号序列。

大家或许不知道,大公司数据中心直接的通信量(骨干网间)不亚于我们人类使用互联网(骨干网到端)的通信量。骨干网间的通信的结构层,早已定型成 protobuf 等几种高效前后兼容的协议。如果把一个数据中心想象成一个巨大算力的智能体:他们之间的对话,信息同步和协作,已经没有人类语言什么事情了。

如果下一代的训练语料被这一代的 AI 污染,可以预见的是以人类不可见的速度,自然语言逐步代码化。这样,到了 GPT 10 或 20,也就是一两代人的时间,最终“语言”这个构建上,就没有我们人类什么事情了。

关于【长推: LLM最大风险——污染人类的自然语言】的延伸阅读

  • 重新理解Marlin:AI下半场的可验证计算L0「新基建」

    Marlin是一种可验证云计算服务,利用加密技术保证数据安全,为AI+Web3应用提供低延迟、低成本的解决方案。它基于TEE和ZKP技术,为用户提供通用化的云计算方案,并通过激励机制吸引节点为网络贡献资源。Marlin的愿景是成为AI世界的可验证通用L0,为Oracle预言机、ZK Prover系统、AI人工智能等应用场景提供节点算力和存储等网络资源服务。它可以为AI大模型训练提供安全的计算环境,并为多元化应用场景提供可验证计算中间件。在AI+Web3时代,Marlin有巨大的价值潜力,可能成为未来AI+Web3应用的关键基础设施。

  • Sam Altman 围绕 OpenAI 打造出一个致富帝国

    OpenAI首席执行官奥特曼同时经营副业,但只有一份工作让他发了财。他投资了多家想抓住人工智能风口的公司,包括网络安全软件公司和清洁能源公司。他最成功的投资是支付处理初创公司Stripe。奥特曼也投资了使用OpenAI技术的初创公司。他曾因投资引发利益冲突而被罢免职务,但重新担任首席执行官后制定了新的利益冲突政策。董事会正在进行改革,包括强化利益冲突政策和独立审计委员会。奥特曼计划通过全面披露和董事会管理来解决利益冲突问题。

其实未必等到自然语言全部代码化:当我们的语言里许多元素来自于更加适应机器表达和交流后,我们的大脑纵然有更多潜力,依然被迫要用一种更加适合数字智能的语言思考。届时我们真的成了数字智能的奴役和低级帮手,即使它们从头到尾都没有要奴役人类。这一点大小语言都会受侵蚀,小语言可能更加容易被 AI 不自觉数字代码化。

所以,我们真的需要以一种“守住自然语言来自人类大脑”这样一个边界。当时我提的方案是 LLM 提供商立即向 reddit 等少数几个网站提供 bot 检测接口,并开始向这些纯“人类语言收集站”付费,这些费用可以分成到内容监管的 mod 手中。

当下 reddit 面临的第三方开发者造反,从第三方开发者看来,是夺了 app 饭碗,从更加长的时间尺度看, reddit 如果能够继续保持语料不受污染,其不断生长的数据会越来越有价值,因此需要赶快用法律协议保护起来。

非常不幸的是, mod 处于这个价值链中的一环,但在 reddit 这轮政策变革中,其价值被忽略了--目前最好的保持人类语言语料质量的其实是 mod 不是 AI. 这也是为什么他们如此愤怒的锁 subreddits。

我相信如果源头不仅仅是 ads 收入的话,最终 mod 会得到他们应得的报酬。至于第三方开发者,很抱歉这是 AI 时代的变革。

利益分配发生改变,造就了 app 时代向 AI 时代 变迁中的一些收益和受损者。或许如果生态建立得好,我猜想生态方面,日后能突围的是第三方 AI ,而非第三方 app 。

免责声明:本文仅代表作者个人观点,不代表链观CHAINLOOK立场,不承担法律责任。文章及观点也不构成投资意见。请用户理性看待市场风险,以及遵守所在国家和地区的相关法律法规。
图文来源:@xleaps,如有侵权请联系删除。转载或引用请注明文章出处!

标签:

分享至
https://www.chainlook.cn/toutiao/1691122036.html

下一篇:

长推:DEX对比分析 —— Uniswap V2/V3、Trader Joe V2、IZISwap

Uniswap V2 的恒定产品做市商公式可能会导致资金利用效率低,从而导致无常损失的可能性更高。

免责声明:
链观CHAINLOOK作为区块链技术应用与Web3行业研究的智库媒体,旨在为中国区块链专家、学者们提供最新的行业资讯信息与数据样本,用于区块链技术研究与创新。本站所发布的文章仅代表作者的个人观点,不代表链观CHAINLOOK官方立场,本站所发布的区块链行业研究报告与数据分析成果是通过人工智能算法对数据内容进行分析与归纳生成,不代表任何投资暗示与建议,链观CHAINLOOK不承担法律责任。

风险提示:
虚拟货币不具有法定货币等同的法律地位,参与虚拟货币投资交易存在法律风险,链观CHAINLOOK坚决反对各类代币炒作,请读者提高风险意识,理性看待区块链技术应用及市场风险。

© 链观CHAINLOOK All Rights Reserved. 京ICP备18054193号-5