首页 > 读书写作 > 读书写作 > 性能超DeepSeek-V3.2!国产大模型又开源了,限时免费用

性能超DeepSeek-V3.2!国产大模型又开源了,限时免费用

发布时间:2025-10-27 15:50:27来源: 18811119908

10月27日报道,刚刚,MiniMax发布并开源MiniMax-M2,一款为Max可视化编程和智能体工作流构建的轻量级模型。
图片
▲MiniMax-M2在Hugging Face的开源界面截图
MiniMax-M2聚焦智能体的效率提升,是一款总参数达2300亿个的MoE(混合专家)模型,其中活跃参数达100亿个,兼顾编程和智能体任务以及通用智能。
在权威基准测评中,MiniMax-M2的测试成绩赶超Gemini 2.5 Pro、DeepSeek-V3.2等领先模型,接近GPT-5(thinking)模型性能,据称可提供匹敌这些模型的端到端工具使用性能,同时部署和扩展更便捷。
图片
▲MiniMax-M2的基准测试概况
具体来看,MiniMax-M2有以下几大亮点:
1、智能提升。根据知名分析机构Artificial Analysis的基准测试,MiniMax-M2在数学、科学、指令遵循、编程和智能体工具使用方面展现出具竞争力的通用智能。其综合得分在全球开源模型中排名第一。
2、高级编程。MiniMax-M2专为端到端开发人员工作流程而设计,擅长多文件编辑、编码-运行-修复循环以及测试验证修复。在Terminal-Bench和(Multi-)SWE-Bench风格的任务中展现了其在跨语言终端、IDE和CI中的实用有效性。
3、智能体性能。MiniMax-M2能够规划并执行跨Shell、浏览器、检索和代码运行器的复杂、长周期工具链。在类似BrowseComp的评估中,它能够持续定位难以发现的漏洞来源,保持证据的可追溯性,并优雅地从不稳定的步骤中恢复。
4、高效设计。MiniMax-M2拥有100亿个激活参数,可为交互式智能体和批量采样提供更低的延迟、更低的成本和更高的吞吐量,这与向高度可部署的模型转变契合,这些模型在编程和智能体任务中仍然表现出色。
以下更全面的评估测试了端到端编程和智能体工具的使用情况,涉及编辑真实的代码库、执行命令、浏览网页以及交付实用的解决方案等方面。MiniMax-M2在Multi-SWE-Bench、Terminal-Bench、ArtifactsBench、BrowseComp等多项测试中超越了Claude Sonnet 4、Gemini 2.5 Pro、DeepSeek-V3.2等顶尖模型。

读书写作更多>>

JAPANNEXT推出18.5\"大型便携显示器,FHD 60Hz规格 酷比魔方iWork GT Ultra上架:U5-125H + 16G + 1T售4949元 iQOO 15 Ultra手机双配色首发亮相,2月初见 小米澎湃OS 3 Beta第二期招募开启:小米17系列等8款机型抢先适配 真我realme手机今年4月全面接入OPPO售后服务 美团:2025年快乐生活相关订单增36%,95后消费者占近6成 天猫超市启动闪购年货节 杭州将率先实现闪购4小时送达 马斯克下场抢人!xAI组建「人才狙击队」,极客版HR年薪168万 基础研究进入“从0到1”突破期 Intel纯大核Bartlett Lake最新消息:最高12个P核5.9GHz! 手机周报份额再次出炉:苹果险胜华为,小米陷入苦战! 美团高调入局汽车销售 只剩5年?诺奖得主Hassabis放出AGI时间表:还差一两个技术突破 爆款刚诞生,德邦基金为何急下“谢客令”? 最赚钱对冲基金,要来A股了 新能源车的“硬核”战事,2026年卷向何处? AYANEO首款手机Pocket PLAY跳票 苹果iPhone 18系列、Air2屏幕配置曝光,部分Face ID屏下化 华为智选新品WIKO Hi畅享80 Plus上架,内置6620mAh电池 河声丨推动优化电商“长辈模式”,激发银发消费活力 自变量:具身模型不是把DeepSeek塞进机器人 荣耀Power2发布:10080mAh大电池+2699元起,户外党狂喜 iQOO新机炸场,ROG退场,游戏手机只剩一家? 折叠屏手机领衔 摩托罗拉2026年全系手机型号遭曝光! 2026年了,iPhone se3使用体验分享 苹果上新马年手机壳,售价449元 刷新纪录!智己汽车2025全盘点:销量口碑双丰收,领跑新势力 ​卢放:岚图L3级有条件自动驾驶进入实车测试 沃尔沃汽车12月销量达16063辆,全新XC70蝉联品牌销冠 比亚迪狂销460万完胜!日产破60万,理想意外大跌