🎨 MagicArena|视觉AI模型竞技场|免费对比Midjourney/可灵等主流模型 完全免费

官网/网页工具地址:点击访问 📌 一、基础信息概述 MagicArena 是一款专注于视觉生成大模型效果对比的在线对战平台,由字节跳动推出。用户访问官网后,首先需要选择自己的身份(AI创作爱好者、设...

点击查看

🌟 FlagEval | 智源研究院 · 开放式大语言模型评测体系与平台

官网/网页工具地址:点击访问 一、基础信息概述 FlagEval(又称“大模型评测平台”)是由北京智源人工智能研究院推出的一个‌开放、全面的AI模型评价平台&zwn...

点击查看

📊 SuperCLUE|中文通用大模型综合评测基准|多维度能力评估 完全开放免费

官网/网页工具地址:点击访问 📌 一、基础信息概述 SuperCLUE 是中文语言理解测评基准 CLUE 在大模型时代的延续与发展,由国内CLUE团队发起并维护,是一个独立、领先的通用大模型综合性测...

点击查看

🌟 ‌AGI-Eval|模型性能评测与人机协同评估平台|公开榜单与社区共建

官网/网页工具地址:点击访问 一、基础信息概述 AGI-Eval是一个专注于‌大语言模型(LLM)与多模态模型能力评测‌的公开平台,也是一个鼓励用户参与‌人机协同评测&...

点击查看

🌟 ‌OpenCompass|上海AI实验室·大模型开源开放评测体系|三位一体综合平台|参与国内外标准制定

官网/网页工具地址:点击访问 一、基础信息概述 ‌OpenCompass‌(中文常称“OpenCompass大模型评测开放体系”或“司南&rd...

点击查看

📊 CMMLU|中文大模型多任务理解评估基准|67学科/11528题 完全免费开源

官网/网页工具地址:点击访问 📌 一、基础信息概述 CMMLU(Chinese Massive Multitask Language Understanding)是一个专为评估中文大语言模型(LLM...

点击查看

🌟 LLMEval | 复旦大学NLP实验室 · 大语言模型综合评测体系 | 开源免费

官网/网页工具地址:点击访问 一、基础信息概述 LLMEval 是由‌复旦大学自然语言处理(NLP)实验室‌推出的一个系列化、学术性的大语言模型综合评测研究项目与体系。它构建了一...

点击查看

🌟 H2O AI|企业级生成式AI大模型评估与监控平台|支持多维度性能分析、可定制评估器与执行仪表板 企业级定价/提供免费试用

官网/网页工具地址:点击访问 一、基础信息概述 H2O EvalGPT(隶属于H2O Eval Studio)是由知名AI公司H2O.ai开发的企业级大语言模型评估与监控平台。其核心定位是为企业AI...

点击查看

📚 PubMedQA|生物医学研究问答数据集|专家标注+大规模语料 完全免费

官网/网页工具地址:点击访问 📌 一、基础信息概述 PubMedQA 是一个专门为生物医学研究问答领域设计的数据集和基准测试,旨在推动自然语言处理模型在医学专业知识理解与推理能力的发展。该数据集由匹...

点击查看