7x24h快讯︎
MyShell与MIT联合官宣大语言模型训练研究,LLaMA2级别的大语言模型训练成本仅为10万美金

深潮 TechFlow 消息,Web3 AI 平台 MyShell 与 MIT 计算机科学与人工智能实验室联合发布一种新型的大型语言模型(LLM)JetMoE-8B,根据论文数据,其训练成本不到 10 万美元,该模型的性能超越了Llama2-7B,甚至在基于聊天的任务中胜过了Llama2-13B-Chat,后者拥有数十亿美元的训练资源。JetMoE-8B 非常开放且对学术界友好,它仅使用公共数据集进行训练,并且代码是开源的,不需要专有资源。它可以通过大多数实验室可以承受的有限的计算预算(例如消费级 GPU)进行微调。