息壤代理-Nvidia 和 Mistral AI 的超精确小语言模型适用于笔记本电脑和 PC
Nvidia 和 Mistral AI 发布了一款新式的小型言语模型,据称该模型在小体积下依然具有「最先进」的准确性。该模型名为 Mistral-NemMo-Minitron 8B,是 NeMo 12B 的迷你版别,参数量从 120 亿减缩到了 80 亿。
英伟达
据 Nvidia 深度学习研讨副总裁 Bryan Catanzaro 在博客文章中介绍,这款 80 亿参数的小型言语模型经过两种不同的 AI 优化办法完成了规划减缩。开发团队使用了结合剪枝和蒸馏的技能。「剪枝经过去除对准确性奉献最小的模型权重来缩小神经网络的规划。蒸馏过程中,团队在一个较小的数据集上重新练习了这个经过剪枝的模型,然后大幅进步了因剪枝导致的准确性下降。」
这些优化使得开发人员可以在「原始数据集的一小部分」上练习优化后的言语模型,然后在核算成本上节约高达 40 倍。通常情况下,AI 模型需要在模型规划和准确性之间进行权衡,但经过 Nvidia 和 Mistral AI 的新剪枝和蒸馏技能,言语模型可以同时统筹这两者。
装备了这些增强功能的 Mistral-NeMo-Minitron 8B 据称在九项同类规划的言语驱动 AI 基准测试中表现出色。(息壤代理)所节约的核算资源足以让笔记本电脑和工作站 PC 本地运转 Minitron 8B,使其比云服务更快且更安全。
Nvidia 围绕消费者级核算硬件规划了 Minitron 8B。该言语模型被封装为 Nvidia NIM 微服务,并针对低延迟进行了优化,以进步响应速度。Nvidia 经过其定制模型服务 AI Foundry,将 Minitron 8B 调整为可以在低装备设备(如智能手机)上运转。尽管功能和准确性或许略有下降,但 Nvidia 表明该模型仍然是高准确性的言语模型,而且只需很少的练习数据和核算资源。
剪枝和蒸馏技能似乎是人工智能功能优化的下一前沿。理论上,开发者可以将这些优化技能应用于一切现有的言语模型,然后明显提高整体功能,包括那些只能由 AI 加快服务器群组运转的大型言语模型。
共有 0 条评论