PubMedQA - AI模型评测

PubMedQA是一个生物医学研究问答数据集，包含了1K专家标注，61.2K 个未标注和 211.3K 个人工生成的QA实例，该排行榜目前已收录18个模型的医学测试得分。

©️声明：AI工具网尊重版权，若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与我们联系，我们将及时更正、删除，谢谢!

类似网站

LLMEval是由复旦大学NLP实验室推出的大模型评测基准，最

MMBench是一个多模态基准测试，由上海人工智能实验室、

CMMLU是一个综合性的中文评估基准，专门用于评估语言模

OpenCompass是由上海人工智能实验室（上海AI实验室）于202

SuperCLUE 是一个中文通用大模型综合性评测基准，从三个

FlagEval（天秤）由智源研究院将联合多个高校团队打造，是一

天工AI搜索是昆仑万维最新推出的国内第一款融入大语言

Open LLM Leaderboard 是最大的大模型和数据集社区 Hu

MMLU 全称 Massive Multitask Language Understanding