📊 CMMLU|中文大模型多任务理解评估基准|67学科/11528题 完全免费开源


官网/网页工具地址:点击访问

📌 一、基础信息概述

CMMLU(Chinese Massive Multitask Language Understanding)是一个专为评估中文大语言模型(LLM)在中文语境下的知识储备与推理能力而设计的综合性基准数据集。该项目由MBZUAI(穆罕默德·本·扎耶德人工智能大学)、上海交通大学、微软亚洲研究院合作完成,相关论文发表于 arXiv(2306.09212)

CMMLU 涵盖了从基础学科到高级专业水平的 67 个主题,共包含 11,528 道四选一单选题。其学科覆盖自然科学、社会科学、工程、人文以及大量具有中国特色的内容(如中国饮食文化、中国驾驶规则、民族学等),能够全面评估模型在中文知识和文化背景下的理解水平。研究团队使用该基准测试了近 20 个先进大模型,包括 GPT-4、ChatGLM2、Baichuan-7B 等,发现大多数模型的准确率难以达到 50%(随机基线为 25%),而 GPT-4 达到了 70.95% 的最佳成绩

CMMLU 完全开源免费,提供完整的数据集、评估代码和排行榜,旨在为中文 NLP 社区提供一个标准化的能力评估平台。其技术核心在于参考 MMLU 的评测方法,通过计算选项 token 概率或正则表达式提取答案,支持 zero-shot 和 few-shot 两种评估设置

🎯 产品定位

  • 一句话定位:一套全面、标准化、专为中文语境设计的大语言模型知识与推理能力评估基准。
  • 目标用户群体:AI 研究员、大模型开发者、NLP 工程师、中文语言技术评测人员。
  • 解决的行业痛点:缺乏一个覆盖广泛中文学科、包含中国特色知识、能公平对比中文 LLM 能力的标准化基准;已有的英文基准(如 MMLU)无法体现中文语言和文化的独特性

💪 核心优势

  • 📚 学科广度:覆盖 67 个主题,从小学到专业水平,包含自然科学、人文社科、工程技术和中国特色内容。
  • 🎯 中国文化深度:包含大量中国特定答案的任务(如中国驾驶规则、公务员考试、中医等),使评估更贴合中文实际应用
  • 🧪 标准评测流程:提供完整的评估脚本和提示词模板,支持 zero-shot / few-shot,结果可复现、可对比
  • 🏆 公开排行榜:在 GitHub 上维护最新排行榜,可追踪 GPT-4、ChatGLM 等主流模型的表现。
  • 💰 完全开源免费:数据集、代码全部公开,无需付费,无授权限制。
  • 🔬 学术权威性:由国际知名机构联合发布,论文被广泛引用,是中文 LLM 评测的首选基准之一。

🎬 适配场景

  • 🏫 学术研究:作为论文实验的标准基准,对比不同模型在中文多任务上的能力差异。
  • 🛠️ 模型开发:在预训练或微调后,使用 CMMLU 快速检验模型的中文知识掌握程度。
  • 📊 产品选型:企业评估不同大模型在中文场景下的适用性,辅助技术选型。
  • 🎓 教育评估:用于构建智能辅导系统,测试模型在学科知识上的准确性。
  • 🏥 垂直领域评估:针对医学、法律等专业学科(如 college_medicine、jurisprudence)验证模型的专业知识水平

👥 核心受众

  • 自然语言处理研究员
  • 大语言模型训练与微调工程师
  • AI 产品经理与技术评估人员
  • 高校计算机/人工智能专业师生
  • 对中文 NLP 基准测试感兴趣的开发者

🎪 适配定位

CMMLU 定位于中文大语言模型的多任务知识评估赛道,其核心强项在于:

  • 专为中文设计:与 MMLU 等英文基准不同,CMMLU 包含大量中国特有的知识点和表达方式。
  • 学科覆盖全面:67 个主题是所有中文基准中最多之一。
  • 评估方式灵活:支持 zero-shot、few-shot,并提供标准化的预处理代码。

其差异化壁垒在于:区别于其他仅聚焦单一领域或通用知识的基准,CMMLU 同时兼顾了自然科学、人文社科和中国文化特色,是当前中文 LLM 评测体系中最具综合性的工具之一

🧩 二、核心功能清单

  • 📊 多学科评测数据集:提供 67 个学科的 11,528 道单选题(训练集 5 题/科,测试集 100+ 题/科)。技术细节:所有题目为四选一,采用 Latex 与纯文本混合表示公式,确保专业领域表达准确
  • ⚙️ 标准化评估代码:提供完整的 Python 评估脚本,支持零样本(zero-shot)和少样本(five-shot)模式。对于开源模型,通过计算选项 token 概率确定答案;对于闭源模型,使用正则表达式提取选项字符
  • 🏆 实时排行榜:在 GitHub 页面维护最新 Leaderboard,展示 GPT-4、ChatGLM2、Baichuan-7B 等模型的准确率对比,支持社区提交新结果
  • 🧹 预处理工具:提供提示词生成方法(如“以下是关于[主题]的单项选择题,请直接给出正确答案的选项”),以及动态截断长文本的功能,降低使用门槛
  • 🌐 多平台数据源:数据集在 GitHub 和 Hugging Face 上同步发布,支持通过 datasets 库直接加载,如 load_dataset("haonan-li/cmmlu", "agronomy")

补充说明:CMMLU 的核心差异化壁垒在于它不仅仅是一个数据集,更是一套完整的、中文专属的评测生态,其涵盖的中国特色学科(如中国公务员考试、中国驾驶规则)是其他语言基准完全无法覆盖的。

💰 三、免费与收费规则(仅供参考以官网最新为准)

CMMLU 是一个完全开源的非盈利项目,面向全球所有用户免费。

     
🆓 数据集与代码 完全免费 可通过 GitHub 或 Hugging Face 直接下载,无需注册。
🚀 排行榜提交 完全免费 任何研究者均可通过 Pull Request 或邮件提交结果,免费更新。
🏢 商业使用 完全免费 基于 MIT 等开放许可证,可自由用于研究和商业用途。

真实费用规则:

  • 所有数据、代码、文档均免费获取。
  • 无需 API key 或任何付费订阅。
  • 使用时仅需引用原始论文(arXiv: 2306.09212)。

🖥️ 四、支持使用方式与运行说明

🚀 1. 支持使用方式

  • 使用方式:本地 Python 环境进行模型评估。
  • 标准使用流程
    1. 获取数据:从 GitHub 仓库克隆代码,或通过 Hugging Face datasets 库直接加载
    2. 安装依赖:确保已安装 transformersdatasetstorch 等 Python 库。
    3. 预处理数据:使用 src/mp_utils/preprocess.py 脚本将原始 CSV 转换为模型输入格式。
    4. 运行评估:执行 script/evaluate.py --model <model_name>,支持 zero-shot 和 five-shot 模式。
    5. 获取结果:脚本输出各学科准确率及总体准确率,结果可保存为 JSON 或 CSV。
  • 技术参数:单个学科测试集超过 100 题,题目平均长度约 30-50 字,模型最大长度需支持 512 tokens 以上。评估时对开源模型使用 next_token probability 方法,对 GPT-4 等使用 regex extraction
  • 架构说明:完全本地化运行,无需联网(除下载模型权重外)。数据存储在本地文件系统。

⚙️ 2. 运行说明

  • 💻 本地推理:所有计算在用户自己的 GPU/CPU 上完成,不依赖云端服务。
  • 🐍 Python 环境:依赖 transformerstorchdatasetstqdm 等常见库。
  • 📦 数据格式:CSV 文件,列包含 QuestionABCDAnswer。支持一键加载全部 67 个学科。
  • ⏱️ 时间参考:在单张 A100 上评估 7B 模型约需 10-20 分钟;评估 175B 模型可能需要数小时。
  • 📊 结果输出:自动生成详细报告,按学科分类显示准确率,并汇总 Overall 分数。
  • 🔒 安全机制:所有代码和数据均为公开,不含任何隐蔽后门或数据污染。

📍 五、产品核心优势与适用人群落地场景

  1. 中文大模型综合能力评估

    • 场景:企业对比不同开源中文模型(如 ChatGLM、Baichuan、Qwen)的通用能力。
    • 技术能力:使用 CMMLU 的 67 个学科进行五样本测试,通过对比 Overall 准确率(如 ChatGLM2-6B 约 50%+,GPT-4 达 70.95%)
    • 可量化指标:准确率差距一目了然,便于横向比较。
    • 与传统方案对比:过去依赖脑洞或小范围测试;CMMLU 提供标准题库和官方结果,评估更权威。
  2. 模型微调效果验证

    • 场景:技术团队对 LLaMA 进行中文增量预训练后,需要验证效果提升。
    • 技术能力:分别评测微调前后的模型在 CMMLU 上的得分,观察在“中国历史”“高中政治”等学科上的变化。
    • 可量化指标:微调后准确率提升 5-15 个百分点,尤其是在中国特定学科上提升明显
    • 技术路径:使用统一评估脚本,控制 seed 和 prompt,确保公平。
  3. 教育领域智能问答系统开发

    • 场景:构建一个面向高中生的学习助手,需要测试其物理、化学等学科知识掌握度。
    • 技术能力:选取 CMMLU 中 high_school_physicshigh_school_chemistry 等子集进行专门测试
    • 可量化指标:若模型准确率 > 80%,可认为具备辅导能力。
    • 技术实现:通过 load_dataset 加载特定学科,使用 few-shot 或 fine-tune 适配。
  4. 多模型选型决策支持

    • 场景:企业需要选择成本最低且能达到业务要求的模型。
    • 技术能力:将候选模型在 CMMLU 上进行全量测试,结合参数量和推理速度综合评估。
    • 可量化指标:例如 Baichuan-7B 准确率 40% 但速度快;ChatGLM2-6B 准确率 50% 但需更多显存
    • 技术对比:CMMLU 作为统一标尺,避免不同基准带来的比较偏差。
  5. 学术研究与论文发表

    • 场景:研究员提出一种新的模型架构或训练方法,需要展示其在中文理解上的优势。
    • 技术能力:在 CMMLU 的 zero-shot 和 five-shot 设置下报告结果,并与官方排行榜对比。
    • 可量化指标:达到或超越当前 SOTA(GPT-4 70.95%)或特定类别最佳。
    • 技术实现:使用官方评估代码,结果可复现,被审稿人信赖。

⚠️ 六、官方使用须知

  • 📝 产品定位重申:CMMLU 是一个评估基准,而非可直接使用的 AI 应用。它提供的是数据集和评测工具。
  • 💲 计费模式完全免费,无任何隐藏费用。
  • 🔬 新用户指引:建议先阅读 README 和论文,了解任务格式(四选一)和评估方法(概率/正则)。
  • 🧪 核心技术:多选题测试;模型权重需用户自行获取;评估时遵循 MMLU 类似的方法。
  • 📊 核心功能:67 学科题库、评估脚本、排行榜。
  • 📈 关键数据:11,528 题,67 主题;GPT-4 准确率 70.95%,人类基线约为 78%?但论文中未提供人类对比主要关注模型。
  • 🔗 生态集成:可被第三方评估框架(如 MindIE Benchmark、OpenCompass)集成作为精度测试数据集。
  • 🌐 官方渠道重要性:所有最新数据、排行榜变化、提交结果均应以 GitHub 仓库 为准,切勿使用第三方转载数据作为权威参考。

❓ 七、常见问题解答

  • 问:CMMLU 和 MMLU 有什么区别?

    • 答:MMLU 是英文通用基准,CMMLU 专门针对中文设计,包含许多中国特有的知识和文化题目,且学科分类更侧重于中国市场
  • 问:如何提交我的模型结果到排行榜?

    • 答:开源模型可通过 GitHub Pull Request 更新结果,未开源模型可将代码和结果发送至指定邮箱(haonan.li@librai.tech),验证后即可上榜。
  • 问:是否支持多轮对话或生成式问答?

    • 答:不支持。CMMLU 仅支持单选题格式,评估方式为选项分类,而非对话。
  • 问:数据集有版权问题吗?

    • 答:数据集完全开源,论文中声明可自由用于研究和商业用途(MIT 许可),只需引用论文即可。
  • 问:我可以只测试部分学科吗?

    • 答:可以。通过 load_dataset 指定学科名称即可加载单个子集,支持灵活定制评估范围

🔍 八、替代方案与对比参考

1. 云端 AI 产品竞品对比分析

云AI工具/数据集 核心优势 相比CMMLU短板 官网下载渠道网址
MMLU (云端评估) 国际通用,覆盖57学科,是英文主流基准 非中文,无中国特色内容,评估需翻墙或购买API https://github.com/hendrycks/test
CEval (中文云端评测) 专门中文基准,覆盖52学科,含主观题 题目数较少(约1.4万),学科数低于CMMLU,更新频率低 https://github.com/SJTU-LIT/ceval
AGIEval (云端) 涵盖通用考试(GRE、GMAT等) 偏向推理而非常识知识;非全部中文 https://github.com/microsoft/AGIEval
中文SuperGLUE (云) 传统NLU任务(情感、推理等) 非知识型选择题,任务形式不同,不适合衡量知识广度 https://github.com/CLUEbenchmark/CLUE
CMMLU(被分析产品) 专门中文、67学科、中国特色、开源免费 —— ——

2. 本地部署方案竞品对比分析

本地软件/工具 核心优势 相比CMMLU短板 官网下载渠道网址
CLUE Benchmark 包含分类、匹配等九大任务,成熟度高 非单选题形式,不适合测知识记忆,且部分任务收费 https://github.com/CLUEbenchmark/CLUE
FewCLUE 专门少样本中文NLU,含9任务 侧重小样本学习,非多学科知识评估 https://github.com/CLUEbenchmark/FewCLUE
BQ NLP 中文智能问答数据集(金融) 领域单一,未覆盖67个学科 https://github.com/brightmart/nlp_chinese_corpus
ChineseGLUE 历史任务集合,已停止维护 过时,缺乏现代大模型评测所需的知识广度 https://github.com/chinese-glue/corpus
CMMLU(被分析产品) 67学科、持续更新、中国特色 —— ——

3. 通用大模型能力横向评估

本表对比在 CMMLU 上有公开得分的代表性模型。

大模型 核心优势 相比CMMLU能力 官网下载渠道网址
GPT-4 最强大的通用推理,CMMLU Acc 70.95% 闭源,无中文预训练,在中国特色学科表现略低于中文模型 https://openai.com
ChatGLM2-6B 中文优化,6B参数达到最佳中文模型性能 整体低于GPT-4,STEM学科偏弱 https://github.com/THUDM/ChatGLM2-6B
Baichuan-7B 中文原生,参数量适中 整体略低于ChatGLM2,尤其在人文社科上 https://github.com/baichuan-inc/Baichuan-7B
LLaMA-65B 大规模英文基础模型 零样本中文仅约30-40%,需微调 https://github.com/facebookresearch/llama
CMMLU(被分析产品) 评测基准,非模型 —— ——

4. 模型选型适配场景推荐指南

适用场景 推荐选型方案 选型说明 获取渠道网址
学术论文基线对比 CMMLU + MMLU 同时使用中文和英文基准,全面体现模型多语言能力 https://github.com/haonan-li/CMMLU (自身行留空)
中文通用能力快速验证 CMMLU zero-shot 无需标注数据,快速测试模型的中文初始能力 自身行留空
模型微调效果检验 CMMLU five-shot 5个示例可提升稳定性,适合评估微调后模型 自身行留空
教育领域知识测试 CMMLU high_school_* 专门抽取高中学科子集,评估辅导能力 自身行留空
多模型横向对比 CMMLU Leaderboard 查看官方排行榜,了解各模型相对水平 自身行留空

5. 开源模型生态与安全下载渠道

渠道平台 官方网址 渠道核心优势与安全说明 适配场景与使用说明
GitHub https://github.com/ 代码开源、版本控制、可审查安全问题 下载 CMMLU 数据集及评估代码;仓库官方维护
Hugging Face https://huggingface.co/datasets/haonan-li/cmmlu 数据与模型一体化,支持datasets库直接加载 快速加载数据集,适合与 transformers 配合使用
ModelScope https://modelscope.cn/datasets/opencompass/cmmlu 国内加速下载,中国网络友好 适用于国内开发者,避免连接海外超时
Papers with Code https://paperswithcode.com/dataset/cmmlu 绑定论文、代码、排行榜,一站式查阅 用于学术调研和状态追踪

6. 开源替代方案与本地自建评估

开源方案名称 官方网址 核心能力说明 是否可本地部署 与CMMLU对比优劣
MMLU https://github.com/hendrycks/test 英文57学科多任务基准 优势:国际认可度高;劣势:非中文,无中国特色内容
CEval https://github.com/SJTU-LIT/ceval 中文52学科,含主观题 优势:含主观题;劣势:学科数少于CMMLU,且更新较慢
AGIEval https://github.com/microsoft/AGIEval 通用人类考试(SAT、LSAT等) 优势:考试场景真实;劣势:不是纯中文知识,且任务形式不一致
CLUE https://github.com/CLUEbenchmark/CLUE 传统NLU九任务 优势:任务多样;劣势:非选择题形式,无法直接评估知识记忆
CMMLU(被分析产品) —— 中文67学科,中国特色 ——

7. 选型建议

选型建议: 从技术能力、使用场景、隐私需求、功能覆盖等多维度分析,CMMLU 是目前中文大模型知识评估的最佳选择之一,但并非唯一选择。

  • 严格思考:如果你需要评估模型的中文知识广度尤其是中国特有文化知识,CMMLU 的 67 个学科无可替代。如果你的场景需要主观生成能力(如作文、多步推理),则需补充 CEval(含主观题)或 AGIEval。如果重点是英文能力,应优先使用 MMLU。

  • 搭配选型:一个完整的大模型评估体系建议采用 CMMLU + CEval + MMLU 的组合,分别覆盖中文客观知识、中文主观能力、英文通用能力。

  • 详细说明

    • 技术实现成本:CMMLU 使用成本极低,下载数据后运行一行命令即可评估。
    • 效果差异:CMMLU 在中国特定学科(如中国历史、公务员考试)上能显著区分中英文模型;MMLU 在这类任务上完全无效。
    • 维护负担:CMMLU 持续更新(排行榜每月有新模型加入),但数据本身稳定,无需额外维护。
  • 保持客观:CMMLU 的优势在于全面且深度中文,但如果你需要的是视觉问答多模态评估,CMMLU 不适用;此时应考虑 MMBench 或 SEED-Bench。

  • 分用户推荐

    • 小白用户(无技术团队):可以直接使用第三方平台(如 OpenCompass)集成好的 CMMLU 评测,无需自己写代码。手动测试也可通过少量样本观察模型表现。
    • 技术用户(有开发能力):强烈建议使用官方 GitHub 仓库,自行跑完整评估。可定制只测特定学科,并调整 prompt 模板。
    • 企业用户(需合规/私有化):CMMLU 可完全离线部署,无数据泄露风险。建议将 CMMLU 作为模型选型的否决指标(若准确率 < 30% 则直接淘汰)。

开源方案对比与本地自建段落:

开源方案需要组合 CEval(主观题) + MMLU(英文) + CLUE(传统NLU) 等多个项目,才能接近 CMMLU 单一基准覆盖的知识广度。但:
① 每一环都需要独立部署和调试,评估维度不统一,技术门槛极高;

② 中国文化类知识(如中国饮食、公务员考试)在这些组合中难以保证覆盖;
③ 各项目之间的分数无法直接对比,缺乏 CMMLU 那样的统一排行榜生态。
因此,对于需要深度评估中文语言模型综合知识水平的研究者和企业来说,CMMLU 是最便捷、最权威的基线选择。