千龙网讯 12月19日,智源研究院重磅发布国内外百余个语言、视觉语言等多模态大模型的综合及专项评测结果,深度剖析模型生态的最新变局。
此次评测较今年5月更为全面深入,不仅扩展了任务解决能力的内涵,还新增数据处理、高级编程等评测维度,并首次将金融量化交易场景纳入评估,同时创新性地采用模型辩论方式,对模型的核心能力进行深度挖掘。
评测结果显示,大模型发展正聚焦综合能力提升与实际应用,多模态模型迅速崛起,而语言模型发展则相对放缓。在开源生态中,新的开源贡献者不断涌现,为模型发展注入新活力。
在各模态评测榜单中,国内外知名模型如字节跳动Doubao-pro、百度ERNIE等表现出色,但国内模型在复杂场景任务上仍与国际一流水平存在差距。视觉语言多模态模型中,开源模型正逐步缩小与闭源模型的差距,但仍需提升长尾视觉知识与复杂数据分析能力。
文生图、文生视频多模态模型在画质、动态性等方面取得显著进步,但仍面临人物变形、物理规律理解等挑战。语音语言模型则得益于文本大模型的进步,能力提升显著,但开源模型中性能强、通用性好的仍较少。
此外,智源研究院还联合海淀区教师进修学校进行了K12全学段、多学科试卷评测,发现模型整体表现有所提升,但仍与人类学生存在差距,尤其在理科方面表现偏弱。
值得一提的是,智源研究院推出的FlagEval大模型角斗场和模型辩论平台FlagEval Debate,为用户提供了模型对战和辩论评测服务,进一步揭示了模型间的差异和潜力。在金融量化交易评测中,大模型已展现出生成有回撤收益策略代码的能力,头部模型能力已接近初级量化交易员水平。
此次评测依托智源研究院的FlagEval评测平台,目前已覆盖全球800多个开闭源模型,包含20多种任务、90多个评测数据集和200多万条评测题目。智源研究院副院长兼总工程师林咏华表示,FlagEval评测体系将坚守科学、权威、公正、开放的准则,持续创新,为大模型技术生态发展提供有力洞察。未来,评测体系将进一步探索动态评测与多任务能力评估,以更准确地感知大模型的发展趋势。