📊 CMMLU|中文大模型多任务理解评估基准|67学科/11528题 完全免费开源

官网/网页工具地址:点击访问
📌 一、基础信息概述
CMMLU(Chinese Massive Multitask Language Understanding)是一个专为评估中文大语言模型(LLM)在中文语境下的知识储备与推理能力而设计的综合性基准数据集。该项目由MBZUAI(穆罕默德·本·扎耶德人工智能大学)、上海交通大学、微软亚洲研究院合作完成,相关论文发表于 arXiv(2306.09212)
CMMLU 涵盖了从基础学科到高级专业水平的 67 个主题,共包含 11,528 道四选一单选题。其学科覆盖自然科学、社会科学、工程、人文以及大量具有中国特色的内容(如中国饮食文化、中国驾驶规则、民族学等),能够全面评估模型在中文知识和文化背景下的理解水平。研究团队使用该基准测试了近 20 个先进大模型,包括 GPT-4、ChatGLM2、Baichuan-7B 等,发现大多数模型的准确率难以达到 50%(随机基线为 25%),而 GPT-4 达到了 70.95% 的最佳成绩
CMMLU 完全开源免费,提供完整的数据集、评估代码和排行榜,旨在为中文 NLP 社区提供一个标准化的能力评估平台。其技术核心在于参考 MMLU 的评测方法,通过计算选项 token 概率或正则表达式提取答案,支持 zero-shot 和 few-shot 两种评估设置
🎯 产品定位
- 一句话定位:一套全面、标准化、专为中文语境设计的大语言模型知识与推理能力评估基准。
- 目标用户群体:AI 研究员、大模型开发者、NLP 工程师、中文语言技术评测人员。
- 解决的行业痛点:缺乏一个覆盖广泛中文学科、包含中国特色知识、能公平对比中文 LLM 能力的标准化基准;已有的英文基准(如 MMLU)无法体现中文语言和文化的独特性
💪 核心优势
- 📚 学科广度:覆盖 67 个主题,从小学到专业水平,包含自然科学、人文社科、工程技术和中国特色内容。
- 🎯 中国文化深度:包含大量中国特定答案的任务(如中国驾驶规则、公务员考试、中医等),使评估更贴合中文实际应用
- 🧪 标准评测流程:提供完整的评估脚本和提示词模板,支持 zero-shot / few-shot,结果可复现、可对比
- 🏆 公开排行榜:在 GitHub 上维护最新排行榜,可追踪 GPT-4、ChatGLM 等主流模型的表现。
- 💰 完全开源免费:数据集、代码全部公开,无需付费,无授权限制。
- 🔬 学术权威性:由国际知名机构联合发布,论文被广泛引用,是中文 LLM 评测的首选基准之一。
🎬 适配场景
- 🏫 学术研究:作为论文实验的标准基准,对比不同模型在中文多任务上的能力差异。
- 🛠️ 模型开发:在预训练或微调后,使用 CMMLU 快速检验模型的中文知识掌握程度。
- 📊 产品选型:企业评估不同大模型在中文场景下的适用性,辅助技术选型。
- 🎓 教育评估:用于构建智能辅导系统,测试模型在学科知识上的准确性。
- 🏥 垂直领域评估:针对医学、法律等专业学科(如 college_medicine、jurisprudence)验证模型的专业知识水平
👥 核心受众
- 自然语言处理研究员
- 大语言模型训练与微调工程师
- AI 产品经理与技术评估人员
- 高校计算机/人工智能专业师生
- 对中文 NLP 基准测试感兴趣的开发者
🎪 适配定位
CMMLU 定位于中文大语言模型的多任务知识评估赛道,其核心强项在于:
- 专为中文设计:与 MMLU 等英文基准不同,CMMLU 包含大量中国特有的知识点和表达方式。
- 学科覆盖全面:67 个主题是所有中文基准中最多之一。
- 评估方式灵活:支持 zero-shot、few-shot,并提供标准化的预处理代码。
其差异化壁垒在于:区别于其他仅聚焦单一领域或通用知识的基准,CMMLU 同时兼顾了自然科学、人文社科和中国文化特色,是当前中文 LLM 评测体系中最具综合性的工具之一。
🧩 二、核心功能清单
- 📊 多学科评测数据集:提供 67 个学科的 11,528 道单选题(训练集 5 题/科,测试集 100+ 题/科)。技术细节:所有题目为四选一,采用 Latex 与纯文本混合表示公式,确保专业领域表达准确
- ⚙️ 标准化评估代码:提供完整的 Python 评估脚本,支持零样本(zero-shot)和少样本(five-shot)模式。对于开源模型,通过计算选项 token 概率确定答案;对于闭源模型,使用正则表达式提取选项字符
- 🏆 实时排行榜:在 GitHub 页面维护最新 Leaderboard,展示 GPT-4、ChatGLM2、Baichuan-7B 等模型的准确率对比,支持社区提交新结果
- 🧹 预处理工具:提供提示词生成方法(如“以下是关于[主题]的单项选择题,请直接给出正确答案的选项”),以及动态截断长文本的功能,降低使用门槛
- 🌐 多平台数据源:数据集在 GitHub 和 Hugging Face 上同步发布,支持通过
datasets库直接加载,如load_dataset("haonan-li/cmmlu", "agronomy")
补充说明:CMMLU 的核心差异化壁垒在于它不仅仅是一个数据集,更是一套完整的、中文专属的评测生态,其涵盖的中国特色学科(如中国公务员考试、中国驾驶规则)是其他语言基准完全无法覆盖的。
💰 三、免费与收费规则(仅供参考以官网最新为准)
CMMLU 是一个完全开源的非盈利项目,面向全球所有用户免费。
| 🆓 数据集与代码 | 完全免费 | 可通过 GitHub 或 Hugging Face 直接下载,无需注册。 |
| 🚀 排行榜提交 | 完全免费 | 任何研究者均可通过 Pull Request 或邮件提交结果,免费更新。 |
| 🏢 商业使用 | 完全免费 | 基于 MIT 等开放许可证,可自由用于研究和商业用途。 |
真实费用规则:
- 所有数据、代码、文档均免费获取。
- 无需 API key 或任何付费订阅。
- 使用时仅需引用原始论文(arXiv: 2306.09212)。
🖥️ 四、支持使用方式与运行说明
🚀 1. 支持使用方式
- 使用方式:本地 Python 环境进行模型评估。
- 标准使用流程:
- 获取数据:从 GitHub 仓库克隆代码,或通过 Hugging Face
datasets库直接加载 - 安装依赖:确保已安装
transformers、datasets、torch等 Python 库。 - 预处理数据:使用
src/mp_utils/preprocess.py脚本将原始 CSV 转换为模型输入格式。 - 运行评估:执行
script/evaluate.py --model <model_name>,支持 zero-shot 和 five-shot 模式。 - 获取结果:脚本输出各学科准确率及总体准确率,结果可保存为 JSON 或 CSV。
- 获取数据:从 GitHub 仓库克隆代码,或通过 Hugging Face
- 技术参数:单个学科测试集超过 100 题,题目平均长度约 30-50 字,模型最大长度需支持 512 tokens 以上。评估时对开源模型使用
next_token probability方法,对 GPT-4 等使用regex extraction - 架构说明:完全本地化运行,无需联网(除下载模型权重外)。数据存储在本地文件系统。
⚙️ 2. 运行说明
- 💻 本地推理:所有计算在用户自己的 GPU/CPU 上完成,不依赖云端服务。
- 🐍 Python 环境:依赖
transformers、torch、datasets、tqdm等常见库。 - 📦 数据格式:CSV 文件,列包含
Question、A、B、C、D、Answer。支持一键加载全部 67 个学科。 - ⏱️ 时间参考:在单张 A100 上评估 7B 模型约需 10-20 分钟;评估 175B 模型可能需要数小时。
- 📊 结果输出:自动生成详细报告,按学科分类显示准确率,并汇总 Overall 分数。
- 🔒 安全机制:所有代码和数据均为公开,不含任何隐蔽后门或数据污染。
📍 五、产品核心优势与适用人群落地场景
-
中文大模型综合能力评估
- 场景:企业对比不同开源中文模型(如 ChatGLM、Baichuan、Qwen)的通用能力。
- 技术能力:使用 CMMLU 的 67 个学科进行五样本测试,通过对比 Overall 准确率(如 ChatGLM2-6B 约 50%+,GPT-4 达 70.95%)
- 可量化指标:准确率差距一目了然,便于横向比较。
- 与传统方案对比:过去依赖脑洞或小范围测试;CMMLU 提供标准题库和官方结果,评估更权威。
-
模型微调效果验证
- 场景:技术团队对 LLaMA 进行中文增量预训练后,需要验证效果提升。
- 技术能力:分别评测微调前后的模型在 CMMLU 上的得分,观察在“中国历史”“高中政治”等学科上的变化。
- 可量化指标:微调后准确率提升 5-15 个百分点,尤其是在中国特定学科上提升明显
- 技术路径:使用统一评估脚本,控制 seed 和 prompt,确保公平。
-
教育领域智能问答系统开发
- 场景:构建一个面向高中生的学习助手,需要测试其物理、化学等学科知识掌握度。
- 技术能力:选取 CMMLU 中
high_school_physics、high_school_chemistry等子集进行专门测试 - 可量化指标:若模型准确率 > 80%,可认为具备辅导能力。
- 技术实现:通过
load_dataset加载特定学科,使用 few-shot 或 fine-tune 适配。
-
多模型选型决策支持
- 场景:企业需要选择成本最低且能达到业务要求的模型。
- 技术能力:将候选模型在 CMMLU 上进行全量测试,结合参数量和推理速度综合评估。
- 可量化指标:例如 Baichuan-7B 准确率 40% 但速度快;ChatGLM2-6B 准确率 50% 但需更多显存
- 技术对比:CMMLU 作为统一标尺,避免不同基准带来的比较偏差。
-
学术研究与论文发表
- 场景:研究员提出一种新的模型架构或训练方法,需要展示其在中文理解上的优势。
- 技术能力:在 CMMLU 的 zero-shot 和 five-shot 设置下报告结果,并与官方排行榜对比。
- 可量化指标:达到或超越当前 SOTA(GPT-4 70.95%)或特定类别最佳。
- 技术实现:使用官方评估代码,结果可复现,被审稿人信赖。
⚠️ 六、官方使用须知
- 📝 产品定位重申:CMMLU 是一个评估基准,而非可直接使用的 AI 应用。它提供的是数据集和评测工具。
- 💲 计费模式:完全免费,无任何隐藏费用。
- 🔬 新用户指引:建议先阅读 README 和论文,了解任务格式(四选一)和评估方法(概率/正则)。
- 🧪 核心技术:多选题测试;模型权重需用户自行获取;评估时遵循 MMLU 类似的方法。
- 📊 核心功能:67 学科题库、评估脚本、排行榜。
- 📈 关键数据:11,528 题,67 主题;GPT-4 准确率 70.95%,人类基线约为 78%?但论文中未提供人类对比主要关注模型。
- 🔗 生态集成:可被第三方评估框架(如 MindIE Benchmark、OpenCompass)集成作为精度测试数据集。
- 🌐 官方渠道重要性:所有最新数据、排行榜变化、提交结果均应以 GitHub 仓库 为准,切勿使用第三方转载数据作为权威参考。
❓ 七、常见问题解答
-
问:CMMLU 和 MMLU 有什么区别?
- 答:MMLU 是英文通用基准,CMMLU 专门针对中文设计,包含许多中国特有的知识和文化题目,且学科分类更侧重于中国市场
-
问:如何提交我的模型结果到排行榜?
- 答:开源模型可通过 GitHub Pull Request 更新结果,未开源模型可将代码和结果发送至指定邮箱(haonan.li@librai.tech),验证后即可上榜。
-
问:是否支持多轮对话或生成式问答?
- 答:不支持。CMMLU 仅支持单选题格式,评估方式为选项分类,而非对话。
-
问:数据集有版权问题吗?
- 答:数据集完全开源,论文中声明可自由用于研究和商业用途(MIT 许可),只需引用论文即可。
-
问:我可以只测试部分学科吗?
- 答:可以。通过
load_dataset指定学科名称即可加载单个子集,支持灵活定制评估范围
- 答:可以。通过
🔍 八、替代方案与对比参考
1. 云端 AI 产品竞品对比分析
| 云AI工具/数据集 | 核心优势 | 相比CMMLU短板 | 官网下载渠道网址 |
|---|---|---|---|
| MMLU (云端评估) | 国际通用,覆盖57学科,是英文主流基准 | 非中文,无中国特色内容,评估需翻墙或购买API | https://github.com/hendrycks/test |
| CEval (中文云端评测) | 专门中文基准,覆盖52学科,含主观题 | 题目数较少(约1.4万),学科数低于CMMLU,更新频率低 | https://github.com/SJTU-LIT/ceval |
| AGIEval (云端) | 涵盖通用考试(GRE、GMAT等) | 偏向推理而非常识知识;非全部中文 | https://github.com/microsoft/AGIEval |
| 中文SuperGLUE (云) | 传统NLU任务(情感、推理等) | 非知识型选择题,任务形式不同,不适合衡量知识广度 | https://github.com/CLUEbenchmark/CLUE |
| CMMLU(被分析产品) | 专门中文、67学科、中国特色、开源免费 | —— | —— |
2. 本地部署方案竞品对比分析
| 本地软件/工具 | 核心优势 | 相比CMMLU短板 | 官网下载渠道网址 |
|---|---|---|---|
| CLUE Benchmark | 包含分类、匹配等九大任务,成熟度高 | 非单选题形式,不适合测知识记忆,且部分任务收费 | https://github.com/CLUEbenchmark/CLUE |
| FewCLUE | 专门少样本中文NLU,含9任务 | 侧重小样本学习,非多学科知识评估 | https://github.com/CLUEbenchmark/FewCLUE |
| BQ NLP | 中文智能问答数据集(金融) | 领域单一,未覆盖67个学科 | https://github.com/brightmart/nlp_chinese_corpus |
| ChineseGLUE | 历史任务集合,已停止维护 | 过时,缺乏现代大模型评测所需的知识广度 | https://github.com/chinese-glue/corpus |
| CMMLU(被分析产品) | 67学科、持续更新、中国特色 | —— | —— |
3. 通用大模型能力横向评估
本表对比在 CMMLU 上有公开得分的代表性模型。
| 大模型 | 核心优势 | 相比CMMLU能力 | 官网下载渠道网址 |
|---|---|---|---|
| GPT-4 | 最强大的通用推理,CMMLU Acc 70.95% | 闭源,无中文预训练,在中国特色学科表现略低于中文模型 | https://openai.com |
| ChatGLM2-6B | 中文优化,6B参数达到最佳中文模型性能 | 整体低于GPT-4,STEM学科偏弱 | https://github.com/THUDM/ChatGLM2-6B |
| Baichuan-7B | 中文原生,参数量适中 | 整体略低于ChatGLM2,尤其在人文社科上 | https://github.com/baichuan-inc/Baichuan-7B |
| LLaMA-65B | 大规模英文基础模型 | 零样本中文仅约30-40%,需微调 | https://github.com/facebookresearch/llama |
| CMMLU(被分析产品) | 评测基准,非模型 | —— | —— |
4. 模型选型适配场景推荐指南
| 适用场景 | 推荐选型方案 | 选型说明 | 获取渠道网址 |
|---|---|---|---|
| 学术论文基线对比 | CMMLU + MMLU | 同时使用中文和英文基准,全面体现模型多语言能力 | https://github.com/haonan-li/CMMLU (自身行留空) |
| 中文通用能力快速验证 | CMMLU zero-shot | 无需标注数据,快速测试模型的中文初始能力 | 自身行留空 |
| 模型微调效果检验 | CMMLU five-shot | 5个示例可提升稳定性,适合评估微调后模型 | 自身行留空 |
| 教育领域知识测试 | CMMLU high_school_* | 专门抽取高中学科子集,评估辅导能力 | 自身行留空 |
| 多模型横向对比 | CMMLU Leaderboard | 查看官方排行榜,了解各模型相对水平 | 自身行留空 |
5. 开源模型生态与安全下载渠道
| 渠道平台 | 官方网址 | 渠道核心优势与安全说明 | 适配场景与使用说明 |
|---|---|---|---|
| GitHub | https://github.com/ | 代码开源、版本控制、可审查安全问题 | 下载 CMMLU 数据集及评估代码;仓库官方维护 |
| Hugging Face | https://huggingface.co/datasets/haonan-li/cmmlu | 数据与模型一体化,支持datasets库直接加载 | 快速加载数据集,适合与 transformers 配合使用 |
| ModelScope | https://modelscope.cn/datasets/opencompass/cmmlu | 国内加速下载,中国网络友好 | 适用于国内开发者,避免连接海外超时 |
| Papers with Code | https://paperswithcode.com/dataset/cmmlu | 绑定论文、代码、排行榜,一站式查阅 | 用于学术调研和状态追踪 |
6. 开源替代方案与本地自建评估
| 开源方案名称 | 官方网址 | 核心能力说明 | 是否可本地部署 | 与CMMLU对比优劣 |
|---|---|---|---|---|
| MMLU | https://github.com/hendrycks/test | 英文57学科多任务基准 | 是 | 优势:国际认可度高;劣势:非中文,无中国特色内容 |
| CEval | https://github.com/SJTU-LIT/ceval | 中文52学科,含主观题 | 是 | 优势:含主观题;劣势:学科数少于CMMLU,且更新较慢 |
| AGIEval | https://github.com/microsoft/AGIEval | 通用人类考试(SAT、LSAT等) | 是 | 优势:考试场景真实;劣势:不是纯中文知识,且任务形式不一致 |
| CLUE | https://github.com/CLUEbenchmark/CLUE | 传统NLU九任务 | 是 | 优势:任务多样;劣势:非选择题形式,无法直接评估知识记忆 |
| CMMLU(被分析产品) | —— | 中文67学科,中国特色 | 是 | —— |
7. 选型建议
选型建议: 从技术能力、使用场景、隐私需求、功能覆盖等多维度分析,CMMLU 是目前中文大模型知识评估的最佳选择之一,但并非唯一选择。
-
严格思考:如果你需要评估模型的中文知识广度尤其是中国特有文化知识,CMMLU 的 67 个学科无可替代。如果你的场景需要主观生成能力(如作文、多步推理),则需补充 CEval(含主观题)或 AGIEval。如果重点是英文能力,应优先使用 MMLU。
-
搭配选型:一个完整的大模型评估体系建议采用 CMMLU + CEval + MMLU 的组合,分别覆盖中文客观知识、中文主观能力、英文通用能力。
-
详细说明:
- 技术实现成本:CMMLU 使用成本极低,下载数据后运行一行命令即可评估。
- 效果差异:CMMLU 在中国特定学科(如中国历史、公务员考试)上能显著区分中英文模型;MMLU 在这类任务上完全无效。
- 维护负担:CMMLU 持续更新(排行榜每月有新模型加入),但数据本身稳定,无需额外维护。
-
保持客观:CMMLU 的优势在于全面且深度中文,但如果你需要的是视觉问答或多模态评估,CMMLU 不适用;此时应考虑 MMBench 或 SEED-Bench。
-
分用户推荐:
- 小白用户(无技术团队):可以直接使用第三方平台(如 OpenCompass)集成好的 CMMLU 评测,无需自己写代码。手动测试也可通过少量样本观察模型表现。
- 技术用户(有开发能力):强烈建议使用官方 GitHub 仓库,自行跑完整评估。可定制只测特定学科,并调整 prompt 模板。
- 企业用户(需合规/私有化):CMMLU 可完全离线部署,无数据泄露风险。建议将 CMMLU 作为模型选型的否决指标(若准确率 < 30% 则直接淘汰)。
开源方案对比与本地自建段落:
开源方案需要组合 CEval(主观题) + MMLU(英文) + CLUE(传统NLU) 等多个项目,才能接近 CMMLU 单一基准覆盖的知识广度。但:
① 每一环都需要独立部署和调试,评估维度不统一,技术门槛极高;
② 中国文化类知识(如中国饮食、公务员考试)在这些组合中难以保证覆盖;
③ 各项目之间的分数无法直接对比,缺乏 CMMLU 那样的统一排行榜生态。
因此,对于需要深度评估中文语言模型综合知识水平的研究者和企业来说,CMMLU 是最便捷、最权威的基线选择。