长推:聊聊大杀器QLoRA——单个GPU可部署ChatBot,达到ChatGPT 99%的能力
单个GPU即可部署的ChatBot,甚至达到了ChatGPT 99%的能力。
原文作者:St4r
原文来源:twitter
注:本文来自@xinqiu_bot 推特,其是TikTok后端开发工程师,原推文内容由 CHAINLOOK整理如下:
前几天刷到的大杀器QLoRA终于放出了论文和相关实现。单个GPU即可部署的ChatBot,甚至达到了ChatGPT 99%的能力。只需使用消费级GPU微调12个小时就可以达到97%的ChatGPT水平。同时只用4B就可以保持16B精度的效果。
PDF: https://arxiv.org/abs/2305.14314
Github: https://github.com/artidoro/qlora
QLoRA通过以下三个创新点来优化资源:
1. 4Bit NormalFloat 4比特量化
2. Double Quantization 双重量化
关于【长推:聊聊大杀器QLoRA——单个GPU可部署ChatBot,达到ChatGPT 99%的能力】的延伸阅读
当 ChatGPT 的广东话「讲唔正」:AI 年代,低资源语言是否注定被边缘化?
ChatGPT是一款粤语语音助手,但发音和语法存在问题,因为训练集主要来自书面语。粤语在人工智能时代的劣势反映出来,因为它主要存在于口语而非书面语中。深度学习技术为广东话语音合成带来变革,但仍面临挑战。香港人认为粤语是本地文化的关键载体,但政府却推动普教中,令粤语面临压力。人工智能也存在对非英语语言的偏差和不公平,缺乏适用于非洲语言的工具会使非洲人民难以参与全球经济。作者认为应该让人与人之间的沟通更顺畅,而不是仅仅与电脑交流。
一文盘点AI赋能Crypto落地方向与协议
ChatGPT开放公测,带动LLM类AI发展,各类AI项目数量快速增加。2024年,AI赋能Crypto应用层面,Odaily星球日报盘点各类结合应用,包括代码审计、交易辅助、土狗交易和平台功能增强。市场仍期待颠覆性的AI+Crypto产品。
3. Paged Optimizers 分页优化器
QLoRA是在LORA的基础上,先对Transformer进行4Bit量化,之后再利用GPU分页优化将65B大模型控制在41G显存。从下图中可以看出,同等参数量显存节省了一半。
作者在实验中也发现了一些有趣的点:
1. 指令调优虽然效果比较好,但只适用于指令相关的任务,在Chatbot上相关并不佳,而Chatbot更适合用Open Assistant数据集去进行finetune。通过指令类数据集的调优更像是提升大模型的推理能力,并不是为聊天而生的。
2. 高质量的数据对于微调性能比样本数量更重要,这一点也一直是大家的共识,使用Open Assistant的9000条数据调优12小时即可达到很好的效果,相比FLAN v2使用了超过100万条指令数据。这也和前两天看到的论文对应上,finetune可能并不需要非常多的数据集,少部分高质量的数据就能带来较好结果。
QLoRA的出现确实能给人带来一些新的思考,不管是finetune还是自己部署大模型之后都会变得更加容易。每个人都可以快速利用自己的私有数据进行finetune,同时又能轻松的部署推理大模型。后面我会利用QLoRA的方式来构建私有化QA Bot,看看在中文推理上是否也能取得不错的效果。
免责声明:本文仅代表作者个人观点,不代表链观CHAINLOOK立场,不承担法律责任。文章及观点也不构成投资意见。请用户理性看待市场风险,以及遵守所在国家和地区的相关法律法规。
图文来源:St4r,如有侵权请联系删除。转载或引用请注明文章出处!