📊 CMMLU｜中文大模型多任务理解评估基准｜67学科/11528题完全免费开源

官网/网页工具地址:点击访问

📌 一、基础信息概述

CMMLU（Chinese Massive Multitask Language Understanding）是一个专为评估中文大语言模型（LLM）在中文语境下的知识储备与推理能力而设计的综合性基准数据集。该项目由MBZUAI（穆罕默德·本·扎耶德人工智能大学）、上海交通大学、微软亚洲研究院合作完成，相关论文发表于 arXiv（2306.09212）

CMMLU 涵盖了从基础学科到高级专业水平的 67 个主题，共包含 11,528 道四选一单选题。其学科覆盖自然科学、社会科学、工程、人文以及大量具有中国特色的内容（如中国饮食文化、中国驾驶规则、民族学等），能够全面评估模型在中文知识和文化背景下的理解水平。研究团队使用该基准测试了近 20 个先进大模型，包括 GPT-4、ChatGLM2、Baichuan-7B 等，发现大多数模型的准确率难以达到 50%（随机基线为 25%），而 GPT-4 达到了 70.95% 的最佳成绩

CMMLU 完全开源免费，提供完整的数据集、评估代码和排行榜，旨在为中文 NLP 社区提供一个标准化的能力评估平台。其技术核心在于参考 MMLU 的评测方法，通过计算选项 token 概率或正则表达式提取答案，支持 zero-shot 和 few-shot 两种评估设置

🎯 产品定位

一句话定位：一套全面、标准化、专为中文语境设计的大语言模型知识与推理能力评估基准。
目标用户群体：AI 研究员、大模型开发者、NLP 工程师、中文语言技术评测人员。
解决的行业痛点：缺乏一个覆盖广泛中文学科、包含中国特色知识、能公平对比中文 LLM 能力的标准化基准；已有的英文基准（如 MMLU）无法体现中文语言和文化的独特性

💪 核心优势

📚 学科广度：覆盖 67 个主题，从小学到专业水平，包含自然科学、人文社科、工程技术和中国特色内容。
🎯 中国文化深度：包含大量中国特定答案的任务（如中国驾驶规则、公务员考试、中医等），使评估更贴合中文实际应用
🧪 标准评测流程：提供完整的评估脚本和提示词模板，支持 zero-shot / few-shot，结果可复现、可对比
🏆 公开排行榜：在 GitHub 上维护最新排行榜，可追踪 GPT-4、ChatGLM 等主流模型的表现。
💰 完全开源免费：数据集、代码全部公开，无需付费，无授权限制。
🔬 学术权威性：由国际知名机构联合发布，论文被广泛引用，是中文 LLM 评测的首选基准之一。

🎬 适配场景

🏫 学术研究：作为论文实验的标准基准，对比不同模型在中文多任务上的能力差异。
🛠️ 模型开发：在预训练或微调后，使用 CMMLU 快速检验模型的中文知识掌握程度。
📊 产品选型：企业评估不同大模型在中文场景下的适用性，辅助技术选型。
🎓 教育评估：用于构建智能辅导系统，测试模型在学科知识上的准确性。
🏥 垂直领域评估：针对医学、法律等专业学科（如 college_medicine、jurisprudence）验证模型的专业知识水平

👥 核心受众

自然语言处理研究员
大语言模型训练与微调工程师
AI 产品经理与技术评估人员
高校计算机/人工智能专业师生
对中文 NLP 基准测试感兴趣的开发者

🎪 适配定位

CMMLU 定位于中文大语言模型的多任务知识评估赛道，其核心强项在于：

专为中文设计：与 MMLU 等英文基准不同，CMMLU 包含大量中国特有的知识点和表达方式。
学科覆盖全面：67 个主题是所有中文基准中最多之一。
评估方式灵活：支持 zero-shot、few-shot，并提供标准化的预处理代码。

其差异化壁垒在于：区别于其他仅聚焦单一领域或通用知识的基准，CMMLU 同时兼顾了自然科学、人文社科和中国文化特色，是当前中文 LLM 评测体系中最具综合性的工具之一。

🧩 二、核心功能清单

📊 多学科评测数据集：提供 67 个学科的 11,528 道单选题（训练集 5 题/科，测试集 100+ 题/科）。技术细节：所有题目为四选一，采用 Latex 与纯文本混合表示公式，确保专业领域表达准确
⚙️ 标准化评估代码：提供完整的 Python 评估脚本，支持零样本（zero-shot）和少样本（five-shot）模式。对于开源模型，通过计算选项 token 概率确定答案；对于闭源模型，使用正则表达式提取选项字符
🏆 实时排行榜：在 GitHub 页面维护最新 Leaderboard，展示 GPT-4、ChatGLM2、Baichuan-7B 等模型的准确率对比，支持社区提交新结果
🧹 预处理工具：提供提示词生成方法（如“以下是关于[主题]的单项选择题，请直接给出正确答案的选项”），以及动态截断长文本的功能，降低使用门槛
🌐 多平台数据源：数据集在 GitHub 和 Hugging Face 上同步发布，支持通过 datasets 库直接加载，如 load_dataset("haonan-li/cmmlu", "agronomy")

补充说明：CMMLU 的核心差异化壁垒在于它不仅仅是一个数据集，更是一套完整的、中文专属的评测生态，其涵盖的中国特色学科（如中国公务员考试、中国驾驶规则）是其他语言基准完全无法覆盖的。

💰 三、免费与收费规则（仅供参考以官网最新为准）

CMMLU 是一个完全开源的非盈利项目，面向全球所有用户免费。


🆓 数据集与代码	完全免费	可通过 GitHub 或 Hugging Face 直接下载，无需注册。
🚀 排行榜提交	完全免费	任何研究者均可通过 Pull Request 或邮件提交结果，免费更新。
🏢 商业使用	完全免费	基于 MIT 等开放许可证，可自由用于研究和商业用途。

真实费用规则：

所有数据、代码、文档均免费获取。
无需 API key 或任何付费订阅。
使用时仅需引用原始论文（arXiv: 2306.09212）。

🖥️ 四、支持使用方式与运行说明

🚀 1. 支持使用方式

使用方式：本地 Python 环境进行模型评估。
标准使用流程：
1. 获取数据：从 GitHub 仓库克隆代码，或通过 Hugging Face datasets 库直接加载
2. 安装依赖：确保已安装 transformers、datasets、torch 等 Python 库。
3. 预处理数据：使用 src/mp_utils/preprocess.py 脚本将原始 CSV 转换为模型输入格式。
4. 运行评估：执行 script/evaluate.py --model <model_name>，支持 zero-shot 和 five-shot 模式。
5. 获取结果：脚本输出各学科准确率及总体准确率，结果可保存为 JSON 或 CSV。
技术参数：单个学科测试集超过 100 题，题目平均长度约 30-50 字，模型最大长度需支持 512 tokens 以上。评估时对开源模型使用 next_token probability 方法，对 GPT-4 等使用 regex extraction
架构说明：完全本地化运行，无需联网（除下载模型权重外）。数据存储在本地文件系统。

⚙️ 2. 运行说明

💻 本地推理：所有计算在用户自己的 GPU/CPU 上完成，不依赖云端服务。
🐍 Python 环境：依赖 transformers、torch、datasets、tqdm 等常见库。
📦 数据格式：CSV 文件，列包含 Question、A、B、C、D、Answer。支持一键加载全部 67 个学科。
⏱️ 时间参考：在单张 A100 上评估 7B 模型约需 10-20 分钟；评估 175B 模型可能需要数小时。
📊 结果输出：自动生成详细报告，按学科分类显示准确率，并汇总 Overall 分数。
🔒 安全机制：所有代码和数据均为公开，不含任何隐蔽后门或数据污染。

📍 五、产品核心优势与适用人群落地场景

中文大模型综合能力评估
- 场景：企业对比不同开源中文模型（如 ChatGLM、Baichuan、Qwen）的通用能力。
- 技术能力：使用 CMMLU 的 67 个学科进行五样本测试，通过对比 Overall 准确率（如 ChatGLM2-6B 约 50%+，GPT-4 达 70.95%）
- 可量化指标：准确率差距一目了然，便于横向比较。
- 与传统方案对比：过去依赖脑洞或小范围测试；CMMLU 提供标准题库和官方结果，评估更权威。
模型微调效果验证
- 场景：技术团队对 LLaMA 进行中文增量预训练后，需要验证效果提升。
- 技术能力：分别评测微调前后的模型在 CMMLU 上的得分，观察在“中国历史”“高中政治”等学科上的变化。
- 可量化指标：微调后准确率提升 5-15 个百分点，尤其是在中国特定学科上提升明显
- 技术路径：使用统一评估脚本，控制 seed 和 prompt，确保公平。
教育领域智能问答系统开发
- 场景：构建一个面向高中生的学习助手，需要测试其物理、化学等学科知识掌握度。
- 技术能力：选取 CMMLU 中 high_school_physics、high_school_chemistry 等子集进行专门测试
- 可量化指标：若模型准确率 > 80%，可认为具备辅导能力。
- 技术实现：通过 load_dataset 加载特定学科，使用 few-shot 或 fine-tune 适配。
多模型选型决策支持
- 场景：企业需要选择成本最低且能达到业务要求的模型。
- 技术能力：将候选模型在 CMMLU 上进行全量测试，结合参数量和推理速度综合评估。
- 可量化指标：例如 Baichuan-7B 准确率 40% 但速度快；ChatGLM2-6B 准确率 50% 但需更多显存
- 技术对比：CMMLU 作为统一标尺，避免不同基准带来的比较偏差。
学术研究与论文发表
- 场景：研究员提出一种新的模型架构或训练方法，需要展示其在中文理解上的优势。
- 技术能力：在 CMMLU 的 zero-shot 和 five-shot 设置下报告结果，并与官方排行榜对比。
- 可量化指标：达到或超越当前 SOTA（GPT-4 70.95%）或特定类别最佳。
- 技术实现：使用官方评估代码，结果可复现，被审稿人信赖。

⚠️ 六、官方使用须知

📝 产品定位重申：CMMLU 是一个评估基准，而非可直接使用的 AI 应用。它提供的是数据集和评测工具。
💲 计费模式：完全免费，无任何隐藏费用。
🔬 新用户指引：建议先阅读 README 和论文，了解任务格式（四选一）和评估方法（概率/正则）。
🧪 核心技术：多选题测试；模型权重需用户自行获取；评估时遵循 MMLU 类似的方法。
📊 核心功能：67 学科题库、评估脚本、排行榜。
📈 关键数据：11,528 题，67 主题；GPT-4 准确率 70.95%，人类基线约为 78%？但论文中未提供人类对比主要关注模型。
🔗 生态集成：可被第三方评估框架（如 MindIE Benchmark、OpenCompass）集成作为精度测试数据集。
🌐 官方渠道重要性：所有最新数据、排行榜变化、提交结果均应以 GitHub 仓库 为准，切勿使用第三方转载数据作为权威参考。

❓ 七、常见问题解答

问：CMMLU 和 MMLU 有什么区别？
- 答：MMLU 是英文通用基准，CMMLU 专门针对中文设计，包含许多中国特有的知识和文化题目，且学科分类更侧重于中国市场
问：如何提交我的模型结果到排行榜？
- 答：开源模型可通过 GitHub Pull Request 更新结果，未开源模型可将代码和结果发送至指定邮箱（haonan.li@librai.tech），验证后即可上榜。
问：是否支持多轮对话或生成式问答？
- 答：不支持。CMMLU 仅支持单选题格式，评估方式为选项分类，而非对话。
问：数据集有版权问题吗？
- 答：数据集完全开源，论文中声明可自由用于研究和商业用途（MIT 许可），只需引用论文即可。
问：我可以只测试部分学科吗？
- 答：可以。通过 load_dataset 指定学科名称即可加载单个子集，支持灵活定制评估范围

🔍 八、替代方案与对比参考

1. 云端 AI 产品竞品对比分析

云AI工具/数据集	核心优势	相比CMMLU短板	官网下载渠道网址
MMLU (云端评估)	国际通用，覆盖57学科，是英文主流基准	非中文，无中国特色内容，评估需翻墙或购买API	https://github.com/hendrycks/test
CEval (中文云端评测)	专门中文基准，覆盖52学科，含主观题	题目数较少（约1.4万），学科数低于CMMLU，更新频率低	https://github.com/SJTU-LIT/ceval
AGIEval (云端)	涵盖通用考试（GRE、GMAT等）	偏向推理而非常识知识；非全部中文	https://github.com/microsoft/AGIEval
中文SuperGLUE (云)	传统NLU任务（情感、推理等）	非知识型选择题，任务形式不同，不适合衡量知识广度	https://github.com/CLUEbenchmark/CLUE
CMMLU（被分析产品）	专门中文、67学科、中国特色、开源免费	——	——

2. 本地部署方案竞品对比分析

本地软件/工具	核心优势	相比CMMLU短板	官网下载渠道网址
CLUE Benchmark	包含分类、匹配等九大任务，成熟度高	非单选题形式，不适合测知识记忆，且部分任务收费	https://github.com/CLUEbenchmark/CLUE
FewCLUE	专门少样本中文NLU，含9任务	侧重小样本学习，非多学科知识评估	https://github.com/CLUEbenchmark/FewCLUE
BQ NLP	中文智能问答数据集（金融）	领域单一，未覆盖67个学科	https://github.com/brightmart/nlp_chinese_corpus
ChineseGLUE	历史任务集合，已停止维护	过时，缺乏现代大模型评测所需的知识广度	https://github.com/chinese-glue/corpus
CMMLU（被分析产品）	67学科、持续更新、中国特色	——	——

3. 通用大模型能力横向评估

本表对比在 CMMLU 上有公开得分的代表性模型。

大模型	核心优势	相比CMMLU能力	官网下载渠道网址
GPT-4	最强大的通用推理，CMMLU Acc 70.95%	闭源，无中文预训练，在中国特色学科表现略低于中文模型	https://openai.com
ChatGLM2-6B	中文优化，6B参数达到最佳中文模型性能	整体低于GPT-4，STEM学科偏弱	https://github.com/THUDM/ChatGLM2-6B
Baichuan-7B	中文原生，参数量适中	整体略低于ChatGLM2，尤其在人文社科上	https://github.com/baichuan-inc/Baichuan-7B
LLaMA-65B	大规模英文基础模型	零样本中文仅约30-40%，需微调	https://github.com/facebookresearch/llama
CMMLU（被分析产品）	评测基准，非模型	——	——

4. 模型选型适配场景推荐指南

适用场景	推荐选型方案	选型说明	获取渠道网址
学术论文基线对比	CMMLU + MMLU	同时使用中文和英文基准，全面体现模型多语言能力	https://github.com/haonan-li/CMMLU （自身行留空）
中文通用能力快速验证	CMMLU zero-shot	无需标注数据，快速测试模型的中文初始能力	自身行留空
模型微调效果检验	CMMLU five-shot	5个示例可提升稳定性，适合评估微调后模型	自身行留空
教育领域知识测试	CMMLU high_school_*	专门抽取高中学科子集，评估辅导能力	自身行留空
多模型横向对比	CMMLU Leaderboard	查看官方排行榜，了解各模型相对水平	自身行留空

5. 开源模型生态与安全下载渠道

渠道平台	官方网址	渠道核心优势与安全说明	适配场景与使用说明
GitHub	https://github.com/	代码开源、版本控制、可审查安全问题	下载 CMMLU 数据集及评估代码；仓库官方维护
Hugging Face	https://huggingface.co/datasets/haonan-li/cmmlu	数据与模型一体化，支持datasets库直接加载	快速加载数据集，适合与 transformers 配合使用
ModelScope	https://modelscope.cn/datasets/opencompass/cmmlu	国内加速下载，中国网络友好	适用于国内开发者，避免连接海外超时
Papers with Code	https://paperswithcode.com/dataset/cmmlu	绑定论文、代码、排行榜，一站式查阅	用于学术调研和状态追踪

6. 开源替代方案与本地自建评估

开源方案名称	官方网址	核心能力说明	是否可本地部署	与CMMLU对比优劣
MMLU	https://github.com/hendrycks/test	英文57学科多任务基准	是	优势：国际认可度高；劣势：非中文，无中国特色内容
CEval	https://github.com/SJTU-LIT/ceval	中文52学科，含主观题	是	优势：含主观题；劣势：学科数少于CMMLU，且更新较慢
AGIEval	https://github.com/microsoft/AGIEval	通用人类考试（SAT、LSAT等）	是	优势：考试场景真实；劣势：不是纯中文知识，且任务形式不一致
CLUE	https://github.com/CLUEbenchmark/CLUE	传统NLU九任务	是	优势：任务多样；劣势：非选择题形式，无法直接评估知识记忆
CMMLU（被分析产品）	——	中文67学科，中国特色	是	——

7. 选型建议

选型建议： 从技术能力、使用场景、隐私需求、功能覆盖等多维度分析，CMMLU 是目前中文大模型知识评估的最佳选择之一，但并非唯一选择。

严格思考：如果你需要评估模型的中文知识广度尤其是中国特有文化知识，CMMLU 的 67 个学科无可替代。如果你的场景需要主观生成能力（如作文、多步推理），则需补充 CEval（含主观题）或 AGIEval。如果重点是英文能力，应优先使用 MMLU。
搭配选型：一个完整的大模型评估体系建议采用 CMMLU + CEval + MMLU 的组合，分别覆盖中文客观知识、中文主观能力、英文通用能力。
详细说明：
- 技术实现成本：CMMLU 使用成本极低，下载数据后运行一行命令即可评估。
- 效果差异：CMMLU 在中国特定学科（如中国历史、公务员考试）上能显著区分中英文模型；MMLU 在这类任务上完全无效。
- 维护负担：CMMLU 持续更新（排行榜每月有新模型加入），但数据本身稳定，无需额外维护。
保持客观：CMMLU 的优势在于全面且深度中文，但如果你需要的是视觉问答或多模态评估，CMMLU 不适用；此时应考虑 MMBench 或 SEED-Bench。
分用户推荐：
- 小白用户（无技术团队）：可以直接使用第三方平台（如 OpenCompass）集成好的 CMMLU 评测，无需自己写代码。手动测试也可通过少量样本观察模型表现。
- 技术用户（有开发能力）：强烈建议使用官方 GitHub 仓库，自行跑完整评估。可定制只测特定学科，并调整 prompt 模板。
- 企业用户（需合规/私有化）：CMMLU 可完全离线部署，无数据泄露风险。建议将 CMMLU 作为模型选型的否决指标（若准确率 < 30% 则直接淘汰）。

开源方案对比与本地自建段落：

开源方案需要组合 CEval（主观题） + MMLU（英文） + CLUE（传统NLU） 等多个项目，才能接近 CMMLU 单一基准覆盖的知识广度。但：
① 每一环都需要独立部署和调试，评估维度不统一，技术门槛极高；

② 中国文化类知识（如中国饮食、公务员考试）在这些组合中难以保证覆盖；
③ 各项目之间的分数无法直接对比，缺乏 CMMLU 那样的统一排行榜生态。
因此，对于需要深度评估中文语言模型综合知识水平的研究者和企业来说，CMMLU 是最便捷、最权威的基线选择。

个人资料

分类

热门文章

链接

搜索

📊 CMMLU｜中文大模型多任务理解评估基准｜67学科/11528题完全免费开源

官网/网页工具地址:点击访问

📌 一、基础信息概述

🎯 产品定位

💪 核心优势

🎬 适配场景

👥 核心受众

🎪 适配定位

🧩 二、核心功能清单

💰 三、免费与收费规则（仅供参考以官网最新为准）

🖥️ 四、支持使用方式与运行说明

🚀 1. 支持使用方式

⚙️ 2. 运行说明

📍 五、产品核心优势与适用人群落地场景

⚠️ 六、官方使用须知

❓ 七、常见问题解答

🔍 八、替代方案与对比参考

1. 云端 AI 产品竞品对比分析

2. 本地部署方案竞品对比分析

3. 通用大模型能力横向评估

4. 模型选型适配场景推荐指南

5. 开源模型生态与安全下载渠道

6. 开源替代方案与本地自建评估

7. 选型建议

个人资料

分类

热门文章

链接

搜索

📊 CMMLU｜中文大模型多任务理解评估基准｜67学科/11528题 完全免费开源

官网/网页工具地址:点击访问

📌 一、基础信息概述

🎯 产品定位

💪 核心优势

🎬 适配场景

👥 核心受众

🎪 适配定位

🧩 二、核心功能清单

💰 三、免费与收费规则（仅供参考以官网最新为准）

🖥️ 四、支持使用方式与运行说明

🚀 1. 支持使用方式

⚙️ 2. 运行说明

📍 五、产品核心优势与适用人群落地场景

⚠️ 六、官方使用须知

❓ 七、常见问题解答

🔍 八、替代方案与对比参考

1. 云端 AI 产品竞品对比分析

2. 本地部署方案竞品对比分析

3. 通用大模型能力横向评估

4. 模型选型适配场景推荐指南

5. 开源模型生态与安全下载渠道

6. 开源替代方案与本地自建评估

7. 选型建议

📊 CMMLU｜中文大模型多任务理解评估基准｜67学科/11528题完全免费开源