“弈衡”多模态大模型评测体系白皮书（2024年）

当前位置：亦朵智库智能化 “弈衡”多模态大模型评测体系白皮书（2024年）

随着人工智能技术的迅猛发展，它已成为全球科技革命的核心驱动力。特别是 2017 年Transformer模型提出后，人工智能大模型以超凡的性能和无限的可能性，迅速成为科技界的焦点。2023 年初，GPT-4的问世更是在全球范围内引起了巨大反响，标志着大模型技术首次进入公众视野。

随着大模型技术的不断演进，其处理能力已从单一的文字信息扩展至图像、语音等多模态数据，多模态大模型进入快速发展阶段。它们不仅在日常生活中的辅助作画、图片解读等场景中展现出应用潜力，更在视频数据分析、多目标识别等生产领域发挥着重要作用。目前典型的多模态大模型有国外的GPT-4Vision、Gemini，国内的文心一言、讯飞星火、智谱清言等。这些大模型算法各异，在不同的任务场景下各有优劣，如何对这些多模态大模型开展客观、科学的评测，评估特定任务场景下的最优选择，对大模型的研发迭代以及应用落地都具有重要意义。

相比于语言类大模型，多模态大模型具备对文本、图像、视频和音频等数据进行综合处理的能力，在生产生活领域中具有广泛的应用前景。同时，多模态大模型评测面临评测数据更多样、评测任务更丰富、评测方式更复杂、评测成本更昂贵等挑战。如何应对上述挑战，构建全面、客观的多模态大模型评测体系，成为业界关注的热点问题。目前，部分业界企业和研究机构，如微软、谷歌、智源研究院、上海AI实验室、腾讯优图实验室、厦门大学、南洋理工大学等，发布了相关论文、评测报告，从性能、参数量等维度对业界主流多模态大模型进行了评测，并基于评测结果形成了榜单，如MMbench、MME等。为提升多模态大模型的实际应用效果，推动大模型与生产生活的快速结合，有必要从用户视角出发，构建一套客观全面、公平公正的多模态大模型评测体系。

“弈衡”多模态大模型评测体系白皮书（2024年）,弈衡,多模态,大模型,AI,弈衡,多模态,大模型,AI,第1张