风险提示:央行等十部委发布《关于进一步防范和处置虚拟货币交易炒作风险的通知》, 请读者提高风险意识。

Atom Capital: 揭秘Gemini 1.5和Sora背后的AI进化 – 视频生成自对弈及其他

Google发布Gemini 1.5,OpenAI推出Sora,引发媒体关注。Sora表现出色,但Gemini 1.5带来的超长上下文能力也具有重要意义。AGI架构的核心要素逐步清晰,MoE架构将带来更多竞争机遇,视频生成领域的自进化闭环已开启。2024年,大模型竞争激烈,多模态、长上下文、MoE架构和视频生成自对弈是关注重点。视频生成技术将让AI实现自学习和自进化,多模态技术提升智能和推理能力,MoE技术为开源社区带来新机遇。个性化Agent和视觉生成技术将成为未来重点关注对象,为元宇宙构建带来巨大机遇。

科技最前沿的
科技最前沿的
热度 ...

原文作者:科技最前沿的

原文来源:Atom Capital

最近AI领域的卷王们卷得风生水起,Google刚发布Gemini1.5,OpenAI就祭出了Sora炸场。Sora惊艳的效果让其在媒体舆论上占尽风头,使得Gemini 1.5一发布便“黯然失色”。但实际上,Gemini 1.5所带来的超长上下文能力意义非同小可。从两大巨头最新的发布中,我们窥见了24年AI进化的一些新线索——AGI架构的几大核心要素已逐步清晰、MoE架构将给开源世界带来更多竞争机遇、以及AI在视频生成领域的“自进化闭环”已经开启…… 这其中也蕴藏着许多新的机遇,在此跟大家一同分享和探讨。

 01  AGI四个核心要素逐步明晰

随着Gemini 1.5和Sora发布,我们觉得,大模型或者说AGI的基本结构又进一步清晰。目前可以看到有四个核心要素:

模态层

模态包括语言、代码、语音、视觉等各种模态。这部分类似于representation, 其实是编解码,不同模态用不同的编解码头。这块相对浅层。背后的原因,我们推测是因为LLM作为基准,其他模态可以在此基础上做跨模态的知识迁移,因而模态部分的学习变得简单。例如,Sora 利用Transformer架构学习文本与视频之间以及视频本身的时空关系,通过将视频数据token化,实现了视频生成模型与大型语言模型(LLM)在架构上的无缝集成。Transformer架构本身跟语言关系不大,它只是在处理token之间的关系,最后再把这些token折换成语言。从这个意义上来说,不同模态的”语料“之间并没有质的区别。由于LLM是目前能力最强的模型,未来多模态模型很可能以LLM作为出发点,将LLM的认知能力迁移到其他模态,这不仅提高了其他模态的智能上限,也显著减少了对数据的依赖。

在Gemini 1.5里有一个例子令人印象深刻。卡拉芒语是一种全球使用人数不足200 人的语言,几乎从未在互联网上留下痕迹。把卡拉芒语语法手册放在prompt里,模型仅仅通过上下文学习(in-context learning),就能够学会将英语翻译成卡拉芒语,质量可与使用相同材料学习的人相媲美。这意味着,长提示效果非常好,模型可以从上下文给出的信息中学习新技能,而不需要额外的微调。

世界模型(World Model)

AI落地到具体应用场景,要理解当下任务并预测未来情景,需要超越简单的文本学习,深入获取各个领域知识、领域相关的私有数据以及相关任务的“过程数据”(即领域专家是如何分解任务、产生结果的)。人类的世界模型是非常复杂的网络。目前对于Sora到底多深地真正认知物理世界,是有争议的。

推理能力(Reasoning)

指AI解决复杂问题的能力,其中涉及规划、调整、组织、反馈、执行、预测等等。只有AI具备了足够的推理能力,才能真正落地到生产环境解决真实的问题。这是智能的核心。

记忆和学习能力

Gemini 1.5带来的1M token长上下文是个非常重要的突破,意味着模型已经能够一次性处理海量信息,而且是多模态——如1小时的视频、11小时的音频、超过30,000行的代码库、或是超过700,000个单词。这说明它的session context已经是一个有效的memory了。长上下文增强了in-context learning能力(Google最近发布https://arxiv.org/pdf/2402.09727.pdf,介绍了一种非常有效的in-context learning方法)。这样一来,AI的学习从pre-train阶段挪到了上下文prompt中,极大降低了学习的成本,让实时学习成为可能。最近,OpenAI也提到未来将支持cross session的long term memory。可见这是大模型发力解决的重点之一。

以上四个核心要素构成了基础的AI架构。其中,模态层相对简单,真正的壁垒在于其他三个要素。类比人脑,人脑也是靠浅层的多模态信息编码成更深层的神经元信号,来实现更深入的理解。除模态层外,其他三要素是通过embedding来交流的。不论什么模态的信息,最终都是抽象成跨模态通用的embedding来处理。其中,记忆和学习能力的技术相对成熟,大模型最核心的挑战还在于世界模型的构建以及推理能力的提升。

 02   MoE架构给开源带来更多机遇

Gemini 1.5采用的是MoE架构(此前Mistral也是采用了此架构,据称GPT4也是采用此架构)。与传统的作为一个庞大的神经网络运行的Transformer不同,MoE模型由众多小型的「专家」神经网络组成。这些模型可根据不同的输入类型,学会仅激活最相关的专家网络路径。这样的专门化可以使模型效率大幅提升。随着Mistral 8X7B、Gemini 1.5等一系列业内头部大模型相继采用MoE架构,可以看到,MoE已经成为一种主流的AI大模型架构。简单地类比,MoE架构为大模型提供了类似人类大脑的脑区分工。虽然整体模型的参数量不小,但解决任何单一任务只需要运用对应的专家模型,实时调用的参数量小很多,推理效率和成本得到了很大优化。我们认为,MoE架构的普及有可能会打破目前大模型领域闭源与开源的格局,让开源大模型迎来新的发展机遇—— MoE的每个专家模型都很小,开源社区完全可以“拼齐”这些模块;或者基于开源的MoE大模型,针对一两个专家模型做对应的优化,从而提升其在某个专业领域的能力。开源模型之前的主要问题是在算力、数据和资本上比拼不过闭源巨头,而训练MoE这些小的专家模型极大降低了对这方面的资源要求,可能给竞争格局带来一些全新的变量。

关于【Atom Capital: 揭秘Gemini 1.5和Sora背后的AI进化 – 视频生成自对弈及其他】的延伸阅读

  • 重新理解Marlin:AI下半场的可验证计算L0「新基建」

    Marlin是一种可验证云计算服务,利用加密技术保证数据安全,为AI+Web3应用提供低延迟、低成本的解决方案。它基于TEE和ZKP技术,为用户提供通用化的云计算方案,并通过激励机制吸引节点为网络贡献资源。Marlin的愿景是成为AI世界的可验证通用L0,为Oracle预言机、ZK Prover系统、AI人工智能等应用场景提供节点算力和存储等网络资源服务。它可以为AI大模型训练提供安全的计算环境,并为多元化应用场景提供可验证计算中间件。在AI+Web3时代,Marlin有巨大的价值潜力,可能成为未来AI+Web3应用的关键基础设施。

  • Sam Altman 围绕 OpenAI 打造出一个致富帝国

    OpenAI首席执行官奥特曼同时经营副业,但只有一份工作让他发了财。他投资了多家想抓住人工智能风口的公司,包括网络安全软件公司和清洁能源公司。他最成功的投资是支付处理初创公司Stripe。奥特曼也投资了使用OpenAI技术的初创公司。他曾因投资引发利益冲突而被罢免职务,但重新担任首席执行官后制定了新的利益冲突政策。董事会正在进行改革,包括强化利益冲突政策和独立审计委员会。奥特曼计划通过全面披露和董事会管理来解决利益冲突问题。

 03   Sora的启示:视频生成自对弈的“恐怖闭环”即将开启

这两天关于Sora大模型对于“物理世界”的模拟已经被讨论的很多,这当然是Sora最为重要的影响,鉴于很多文章阐述清晰,在此不再赘述。在我们看来,除了对于物理世界模拟之外,Sora带来的另一突破可能是开启了视频生成自对弈(self-play) 的恐怖闭环:生成视频 -> 理解视频生成文本 -> 增强文本(augment)-> 生成视频 -> ...既可以用来改进每个步骤,让这个循环尽可能做成每轮生成的一样;也可以在中间通过改变text 或其它特征进行创作——这个自反馈自学习闭环的形成意味AI已经可以通过自对弈完成自学习和自进化,一旦进入这个循环,未来的AI将会以一种超乎想象的速度自我进化,不断地扩展其知识边界和创造力。对于人类而言,这意味着在视频生成这一领域,未来人类将很难与AI Agent“抢饭碗”了——正如当今的顶尖人类棋手面对AlphaGo时的处境一样。

 04  2024年值得关注的方向

2024一开年,就有两大巨头的新作炸场,大模型的竞争越来越激烈,也让我们对于这一年AI技术的发展更加兴奋和期待,根据Gemini 1.5与Sora揭示的线索,在24年我们认为AI领域如下值得从业者关注,也是我们会重点关注的投资方向。

多模态正如我们在2023年终盘点文章(Atom Capital: AI年度回顾与展望)中所提及,我们预计随着多模态(尤其是视觉模态)的引入,大模型的智能及推理能力会再上一个台阶。主要是如下两个原因:

  • 视觉在某些方面对信息的抽象能力更强,带宽比文字要大很多。举个简单的例子,一张城市地图可以把一个城市landscape表达得一清二楚,而如果用文字描述,可能花费非常多Token也解释不清。有了视觉模态,大模型与人类互动的带宽大了很多,可以更低成本、更有效地获得大量信息。
  • 视觉模态引入了时间维度,这样很好地表达了因果逻辑。大量的时间序列信息将把许多因果逻辑自然地给到大模型,而这些信息如果用语言描述,将是非常庞大的工作量。我们预计这将让大模型对物理世界的认知有巨大提升,从而大幅提升它的推理能力。

而随着视觉模态的引入、大模型智能的提升,我们预计将有非常多全新的应用场景和应用形态被解锁,也是应用层最值得期待的变量。

MoE带来的开源机会

正如上文所提,MoE所带来的模型成本上的大幅降低,将给开源社区带来一些全新机遇。我们会持续关注由MoE所带来的大模型开源闭源生态格局的变化及其中的创投机遇。

Personalized Agent

Agent仍然会是我们关注的重点,随着AI学习能力的持续进化,在2024年我们会格外关注Personalized Agent。即Agent基于用户个人数据进行持续学习,实现个性化。这背后的核心技术就是Agent如何学习,一旦这个问题得到解决,就可以通过培训Agent来落地不同场景,实现低成本的定制化。我们相信,未来会看到AI workers、AI customers等大量出现在生活和工作中,它们会像人一样通过选育用留,成为社会的一部分。

视觉生成带来的元宇宙的机遇

Sora极大降低了构建一个”物理世界“的成本,对于元宇宙来说,这意味着”虚拟宇宙"的构建到海量内容填充在成本上的大幅下降。虽然“元宇宙”已经不是一个新概念,但我们认为Sora的到来可能才真正意义上让“元宇宙”的广泛应用变得可能。

免责声明:本文仅代表作者个人观点,不代表链观CHAINLOOK立场,不承担法律责任。文章及观点也不构成投资意见。请用户理性看待市场风险,以及遵守所在国家和地区的相关法律法规。
图文来源:科技最前沿的,如有侵权请联系删除。转载或引用请注明文章出处!

标签:

分享至
https://www.chainlook.cn/toutiao/1708483812.html

下一篇:

技术解析API3:预言机赛道的又一批黑马?

API3提出的第一方预言机,去除了预言机平台的中间环节,直接连接数据源和项目方。它选择了分散、灵活的预言机长尾市场,通过轻量化的基础infra服务和DAO Staking奖惩机制来构建一个去中间链的预言机市场。与成熟的Chainlink共同分割市场。API3基于Polygon构建了OEV Network,通过治理机制来约束API节点在DeFi场景下的清算行为,使MEV利润回归用户。预言机赛道的竞争激烈,但仍有可能出现黑马。

免责声明:
链观CHAINLOOK作为区块链技术应用与Web3行业研究的智库媒体,旨在为中国区块链专家、学者们提供最新的行业资讯信息与数据样本,用于区块链技术研究与创新。本站所发布的文章仅代表作者的个人观点,不代表链观CHAINLOOK官方立场,本站所发布的区块链行业研究报告与数据分析成果是通过人工智能算法对数据内容进行分析与归纳生成,不代表任何投资暗示与建议,链观CHAINLOOK不承担法律责任。

风险提示:
虚拟货币不具有法定货币等同的法律地位,参与虚拟货币投资交易存在法律风险,链观CHAINLOOK坚决反对各类代币炒作,请读者提高风险意识,理性看待区块链技术应用及市场风险。

© 链观CHAINLOOK All Rights Reserved. 京ICP备18054193号-5