智源发布“百模”评测新成果，揭示模型生态变革趋势

2024-12-22 20

千龙网讯 12月19日，智源研究院重磅发布国内外百余个语言、视觉语言等多模态大模型的综合及专项评测结果，深度剖析模型生态的最新变局。

此次评测较今年5月更为全面深入，不仅扩展了任务解决能力的内涵，还新增数据处理、高级编程等评测维度，并首次将金融量化交易场景纳入评估，同时创新性地采用模型辩论方式，对模型的核心能力进行深度挖掘。

评测结果显示，大模型发展正聚焦综合能力提升与实际应用，多模态模型迅速崛起，而语言模型发展则相对放缓。在开源生态中，新的开源贡献者不断涌现，为模型发展注入新活力。

在各模态评测榜单中，国内外知名模型如字节跳动Doubao-pro、百度ERNIE等表现出色，但国内模型在复杂场景任务上仍与国际一流水平存在差距。视觉语言多模态模型中，开源模型正逐步缩小与闭源模型的差距，但仍需提升长尾视觉知识与复杂数据分析能力。

文生图、文生视频多模态模型在画质、动态性等方面取得显著进步，但仍面临人物变形、物理规律理解等挑战。语音语言模型则得益于文本大模型的进步，能力提升显著，但开源模型中性能强、通用性好的仍较少。

此外，智源研究院还联合海淀区教师进修学校进行了K12全学段、多学科试卷评测，发现模型整体表现有所提升，但仍与人类学生存在差距，尤其在理科方面表现偏弱。

值得一提的是，智源研究院推出的FlagEval大模型角斗场和模型辩论平台FlagEval Debate，为用户提供了模型对战和辩论评测服务，进一步揭示了模型间的差异和潜力。在金融量化交易评测中，大模型已展现出生成有回撤收益策略代码的能力，头部模型能力已接近初级量化交易员水平。

此次评测依托智源研究院的FlagEval评测平台，目前已覆盖全球800多个开闭源模型，包含20多种任务、90多个评测数据集和200多万条评测题目。智源研究院副院长兼总工程师林咏华表示，FlagEval评测体系将坚守科学、权威、公正、开放的准则，持续创新，为大模型技术生态发展提供有力洞察。未来，评测体系将进一步探索动态评测与多任务能力评估，以更准确地感知大模型的发展趋势。

点赞 0举报收藏 0打赏 0评论 0

更多>同类新闻资讯

zhanghuans..
加关注0
~~没有留下签名~~~~

推荐图文

推荐新闻资讯

点击排行

• 政策组合拳助力多地市场回暖楼市止跌回稳初见	• 蚂蚁集团否认借壳上市传言
• 个人养老金制度在全国范围内实施	• 10部门将留学人才纳入国家统一的就业政策体系
• 【数说经济】保持物价在合理水平	• 南水北调支撑北方地区超16万亿元GDP增长
• 美元走强遇阻，人民币汇率将如何演绎？	• 超预期表态提振信心内外资机构看好A股
• 银行理财年底"冲刺" 个人养老金理财频现"C位"	• 欧洲央行宣布下调欧元区三大关键利率