PubMedQA是一个生物医学研究问答数据集,包含了1K专家标注,61.2K 个未标注和 211.3K 个人工生成的QA实例,该排行榜目前已收录18个模型的医学测试得分。
LLMEval是由复旦大学NLP实验室推出的大模型评测基准,最
MMBench是一个多模态基准测试,由上海人工智能实验室、
CMMLU是一个综合性的中文评估基准,专门用于评估语言模
OpenCompass是由上海人工智能实验室(上海AI实验室)于202
SuperCLUE 是一个中文通用大模型综合性评测基准,从三个
FlagEval(天秤)由智源研究院将联合多个高校团队打造,是一
天工AI搜索是昆仑万维最新推出的国内第一款融入大语言
Open LLM Leaderboard 是最大的大模型和数据集社区 Hu
MMLU 全称 Massive Multitask Language Understanding