弈衡

“弈衡”多模态大模型评测体系白皮书(2024年)

随着人工智能技术的迅猛发展,它已成为全球科技革命的核心驱动力。特别是 2017 年Transformer模型提出后,人工智能大模型以超凡的性能和无限的可能性,迅速成为科技界的焦点。2023 年初,GPT-4的问世更是在全球范围内引起了巨大反响,标志着大模型技术首次进入公众视野。 随着大模型技术的不断演进,其处理能力已从单一的文字信息扩展至图像、语音等多模态数据,多模态大模型进入快速发展阶段。它们不仅在日常生活中的辅助作画、图片解读等场景中展现出应用潜力,更在视频数据分析、多目标识别等生产领域发挥着重要作用。目前典型的多模态大模型有国外的GPT-4Vision、Gemini,国内的文心一言、讯飞星火、智谱清言等。这些大模型算法各异,在不同的任务场景下各有优劣,如何对这些多模态大模型开展客观、科学的评测,评估特定任务场景下的最优选择,对大模型的研发迭代以及应用落地都具有重要意义。
加载更多