智源发布“百模”评测新成果，揭示模型生态变革趋势

2024-12-23 00

千龙网讯 12月19日，智源研究院重磅发布国内外百余个语言、视觉语言等多模态大模型的综合及专项评测结果，深度剖析模型生态的最新变局。

此次评测较今年5月更为全面深入，不仅扩展了任务解决能力的内涵，还新增数据处理、高级编程等评测维度，并首次将金融量化交易场景纳入评估，同时创新性地采用模型辩论方式，对模型的核心能力进行深度挖掘。

评测结果显示，大模型发展正聚焦综合能力提升与实际应用，多模态模型迅速崛起，而语言模型发展则相对放缓。在开源生态中，新的开源贡献者不断涌现，为模型发展注入新活力。

在各模态评测榜单中，国内外知名模型如字节跳动Doubao-pro、百度ERNIE等表现出色，但国内模型在复杂场景任务上仍与国际一流水平存在差距。视觉语言多模态模型中，开源模型正逐步缩小与闭源模型的差距，但仍需提升长尾视觉知识与复杂数据分析能力。

文生图、文生视频多模态模型在画质、动态性等方面取得显著进步，但仍面临人物变形、物理规律理解等挑战。语音语言模型则得益于文本大模型的进步，能力提升显著，但开源模型中性能强、通用性好的仍较少。

此外，智源研究院还联合海淀区教师进修学校进行了K12全学段、多学科试卷评测，发现模型整体表现有所提升，但仍与人类学生存在差距，尤其在理科方面表现偏弱。

值得一提的是，智源研究院推出的FlagEval大模型角斗场和模型辩论平台FlagEval Debate，为用户提供了模型对战和辩论评测服务，进一步揭示了模型间的差异和潜力。在金融量化交易评测中，大模型已展现出生成有回撤收益策略代码的能力，头部模型能力已接近初级量化交易员水平。

此次评测依托智源研究院的FlagEval评测平台，目前已覆盖全球800多个开闭源模型，包含20多种任务、90多个评测数据集和200多万条评测题目。智源研究院副院长兼总工程师林咏华表示，FlagEval评测体系将坚守科学、权威、公正、开放的准则，持续创新，为大模型技术生态发展提供有力洞察。未来，评测体系将进一步探索动态评测与多任务能力评估，以更准确地感知大模型的发展趋势。

点赞 0举报收藏 0打赏 0评论 0

更多>同类新闻资讯

zhanghuans..
加关注0
~~没有留下签名~~~~

推荐图文

推荐新闻资讯

点击排行

• 地方谋划2025年经济工作主打“三张牌”	• 央行加码呵护流动性资金面平稳跨年有支撑
• 看多中国资产！多家外资机构发布2025年投资展望	• 多地提出“取消公摊” 计价更透明
• 北交所建立上市公司信息披露评价体系	• 写好“第二张财报” 上市公司升级装备疏堵点
• “偿二代”二期规则过渡期延长至2025年底	• 新央企接连亮相国企改革加力重组整合
• 如何让冰雪经济这团“火”烧得更长久？	• “首发经济”打造消费新增长点