ai模型评测 - 起步云仓 - 我的互联网仓库

官网/网页工具地址:点击访问 📌 一、基础信息概述 MagicArena 是一款专注于视觉生成大模型效果对比的在线对战平台，由字节跳动推出。用户访问官网后，首先需要选择自己的身份（AI创作爱好者、设...

点击查看

官网/网页工具地址:点击访问一、基础信息概述 FlagEval（又称“大模型评测平台”）是由北京智源人工智能研究院推出的一个‌开放、全面的AI模型评价平台&zwn...

点击查看

官网/网页工具地址:点击访问 📌 一、基础信息概述 SuperCLUE 是中文语言理解测评基准 CLUE 在大模型时代的延续与发展，由国内CLUE团队发起并维护，是一个独立、领先的通用大模型综合性测...

点击查看

官网/网页工具地址:点击访问一、基础信息概述 AGI-Eval是一个专注于‌大语言模型（LLM）与多模态模型能力评测‌的公开平台，也是一个鼓励用户参与‌人机协同评测&...

点击查看

官网/网页工具地址:点击访问一、基础信息概述 ‌OpenCompass‌（中文常称“OpenCompass大模型评测开放体系”或“司南&rd...

点击查看

官网/网页工具地址:点击访问 📌 一、基础信息概述 CMMLU（Chinese Massive Multitask Language Understanding）是一个专为评估中文大语言模型（LLM...

点击查看

官网/网页工具地址:点击访问一、基础信息概述 LLMEval 是由‌复旦大学自然语言处理（NLP）实验室‌推出的一个系列化、学术性的大语言模型综合评测研究项目与体系。它构建了一...

点击查看

官网/网页工具地址:点击访问一、基础信息概述 H2O EvalGPT（隶属于H2O Eval Studio）是由知名AI公司H2O.ai开发的企业级大语言模型评估与监控平台。其核心定位是为企业AI...

点击查看

官网/网页工具地址:点击访问 📌 一、基础信息概述 PubMedQA 是一个专门为生物医学研究问答领域设计的数据集和基准测试，旨在推动自然语言处理模型在医学专业知识理解与推理能力的发展。该数据集由匹...

点击查看