紧急域名升级通知-重磅!微软开源最强小模型Phi-4,超GPT-4o、可商用
今日凌晨,微软研讨院开源了现在最强小参数模型——phi-4。
上一年12月12日,微软初次展示了phi-4,参数只要140亿功用却极强,在GPQA研讨生水平、MATH数学基准测验中,超过了OpenAI的GPT-4o,也超过了同类尖端开源模型Qwen2.5-14B和Llama-3.3-70B。
在美国数学比赛AMC的测验中phi-4更是达到了91.8分,超过了Gemini Pro1.5、GPT-4o、Claude3.5Sonnet、Qwen2.5等闻名开闭源模型,乃至整体功用可以与4050亿参数的Llama-3.1比美。
紧急域名升级通知,其时很多人就希望微软开源这款超强的小参数模型,乃至还有人在HuggingFace上传盗版的phi-4权重。现在,总算开源了,并且支撑MIT许可证下商业用途。
开源地址:https://huggingface.co/microsoft/phi-4/tree/main
图片
连HuggingFace官推都来祝贺,phi-4面子不小。
图片
2025年夸姣的开端!有史以来最好的14B模型!!!
图片
140参数的模型在MMLU取得84.8分,太疯狂了。恭喜!
图片
谢谢你的模型和许可证变更!真棒。
图片
你们都是英雄,赶忙下起来吧!
图片
我期待Phi-4在Azure上完成无服务器功用。什么时候会可用?
图片
小参数模型十分好。
图片
Phi的小参数对于创意写作来说是十分惊人的。
图片
哇,phi-4模型能在苹果的M4Pro笔记本上,以每秒约12个tokens的速度流通运转,这太棒了,感谢!
图片
phi-4简略介绍
phi-4能以如此小的参数在众多测验基准中打败著名开闭源模型,高质量的组成数据发挥了重要作用。
与传统的从网络爬取的有机数据比较,高质量的组成数据更具优势。组成数据可以供给结构化、逐步的学习材料,使得模型可以愈加高效地学习语言的逻辑与推理过程。例如,在数学问题的回答中,组成数据可以依照解题过程逐步呈现,协助模型更好地理解问题的结构与解题思路。
此外,组成数据可以更好地与模型的推理上下文对齐,更接近于模型在实际运用中需求生成的输出格局,这有助于模型在预练习阶段就适应实际运用场景的需求。例如,将网络论坛中的现实信息改写成类似 大模型交互的风格,使得这些信息在模型生成的对话中愈加天然、合理。
phi-4的组成数据生成遵从多样性、细腻性与复杂性、准确性和推理链等原则。涵盖了50多种不同类型的组成数据集,经过多阶段提示流程、种子策划、改写与增强、自我修订等多种方法,生成了约4000亿个未加权的 tokens。
除了组成数据,phi-4还对有机数据进行了严厉的挑选与过滤。研讨团队从网络内容、授权书本和代码库等多渠道搜集数据,并经过两阶段过滤过程,提取出具有高教育价值和推理深度的种子数据。
图片
这些种子数据为组成数据的生成供给了基础,一起也直接用于预练习,进一步丰厚了模型的知识储备。在挑选过程中,微软采用了根据小分类器的过滤方法,从大规划网络数据中挑选出高质量的文档。还针对多语言数据进行了专门的处理,保证模型可以处理包含德语、西班牙语、法语、葡萄牙语、意大利语、印地语和日语在内的多种语言。
预练习方面,phi-4主要运用组成数据进行练习,一起辅以少量的高质量有机数据。这种数据混合策略使得模型可以在学习推理和问题解决才能的一起,也可以吸收丰厚的知识内容。
在中期练习阶段,phi-4将上下文长度从4096扩展到16384,以进步模型对长文本的处理才能。协助模型进一步增加了对长文本数据的练习,包含从高质量非组成数据集中挑选出的善于8K 上下文的样本,以及新创立的满足4K 序列要求的组成数据集。
后练习阶段是 phi-4优化模型的要害。微软采用了监督微调(SFT)和直接偏好优化(DPO)技术。在 SFT 阶段,运用来自不同范畴的高质量数据生成的约8B tokens对预练习模型进行微调,学习率为10-6,并添加了40种语言的多语言数据,所有数据均采用 chatml 格局。
DPO 技术则经过生成偏好数据来调整模型的输出,使其更契合人类偏好。微软还引入了要害tokens搜索(PTS)技术来生成DPO 对,该技术可以识别对模型回答正确性有严重影响的要害tokens,并针对这些tokens创立偏好数据,然后进步模型在推理使命中的功用。
图片
为了评价 phi-4的功用,微软在多个基准测验上进行了测验。在学术基准测验方面,如 MMLU、GPQA、MATH、HumanEval 等,phi-4表现出色。
在 MMLU测验中,phi-4取得了84.8的高分,在 GPQA 和 MATH 测验中,乃至超越了GPT -4o,在数学比赛相关的使命中展现出强壮的推理才能。在与其他类似规划和更大规划的模型比较中,phi-4在12个基准测验中的9个上优于同类开源模型 Qwen -2.5-14B – Instruct。
共有 0 条评论