长推:a16z 新论文构建LLM工作流程的三个阶段
当用户提交一个查询时,应用程序会构建一系列的提示词给大语言模型。
原文作者:@indigo11
原文来源:Twitter
注:原文来自@indigo11发布长推。
A16Z 最新的这篇“LLM 应用的新兴架构”来自他们对 AI 初创企业中创始人与工程师的对谈总结,非常清晰的概括了现在基于大语言模型的开发模式。不过这一切非常早期,随着底层技术的发展,可能会有很大的变化。
https://a16z.com/2023/06/20/emerging-architectures-for-llm-applications/…
大家有很多方法来构建LLM,从头开始训练模型,微调开源模型,或者直接使用托管 API。这里展示的设计模式是只有在大模型中可以做到的 In-context Learning(语境学习),其工作流程可以分为三个阶段: 1. 数据预处理与嵌入 2. 提示词构建与检索 3. 提示词执行与推理。
1. Data preprocessing / embedding:这个阶段涉及存储私人数据,以便以后检索。通常情况下,文件被分成几块,通过一个嵌入模型,然后存储在一个称为矢量数据库的专门数据库中。
关于【长推:a16z 新论文构建LLM工作流程的三个阶段】的延伸阅读
AI 与Web3 数据行业融合现状、竞争格局与未来机遇探析(上)
LLM是一种AI技术,可以处理非结构化数据,如Twitter情感分析,计算核心指标,查询数据,指标选择、排序和相关性分析,以及产生业务抽象的自然语言描述。它可以应用于不同的链上数据场景,但仍有一些挑战,如生成代码、数据标注、准确性和幻觉问题等。LLM可以加速区块链数据生产的各个流程,支持决策和战略规划,但开发者和研究者在应用LLM时需要保持谨慎,以找到更适合的应用场景并最大程度地发挥其优势。
机器人、终端和 LLM–加密用户体验逐渐”内卷“
交易机器人已经变得流行,Stephane Gosselin推出了Alfred新的Telegram机器人,Unibot机器人终端Thunder也在开发一款网络产品,Uniswap Labs等接口收费,BananaGun每天增加新用户,大型语言模型支持定制化交互界面,但安全问题仍然存在。现在是改进加密货币用户体验的关键时刻,一些创始人认为在交互层面获取价值潜力巨大。
2. Prompt construction / retrieval:当用户提交一个查询时,应用程序会构建一系列的提示词给大语言模型。提示词通常结合了由开发者硬编码的提示模板;为得到有效输出,使用 few-shots 的方式,可以是从外部 API 检索的任何必要信息,或者是从矢量数据库检索到相关文件。
3. Prompt execution / inference::一旦提示词被编译,它们就被提交给预先训练好的 LLM 进行推理,这里包括了闭源模型的 API、开源或自我训练的模型。一些开发者还在这一阶段添加了日志、缓存和验证等系统操作。
这种模式有效地将人工智能问题变成了数据工程问题。对于相对较小的数据集,它的表现往往优于微调,或者自己训练模型。预训练的大模型代表了自互联网以来,软件中最重要的架构变化,文中列举的模式只是整合 LLM 的起点,而不是最终形态。
免责声明:本文仅代表作者个人观点,不代表链观CHAINLOOK立场,不承担法律责任。文章及观点也不构成投资意见。请用户理性看待市场风险,以及遵守所在国家和地区的相关法律法规。
图文来源:@indigo11,如有侵权请联系删除。转载或引用请注明文章出处!
标签:LLM