网站介绍
C-Eval是什么
C-Eval是适用于大语言模型的多层次多学科中文评估套件,由上海交通大学、清华大学和爱丁堡大学研究人员在2023年5月份联合推出,包含13948个多项选择题,涵盖52个不同的学科和四个难度级别,用在评测大模型中文理解能力。通过零样本(zero-shot)和少样本(few-shot)测试,C-Eval 能评估模型在未见过的任务上的适应性和泛化能力。
alt="C-Eval" width="740" height="416" />
C-Eval的主要功能
- 多学科覆盖:C-Eval 包含 52 个不同学科的题目,涵盖 STEM、社会科学、人文科学等多个领域,全面评估语言模型的知识储备。
- 多层次难度分级:设有四个难度级别,从基础到高级,细致评估模型在不同难度下的推理和泛化能力。
- 量化评估与标准化测试:包含 13948 个多项选择题,通过标准化评分系统提供量化性能指标,支持不同模型的横向对比。
如何使用C-Eval
- 数据下载:
- Hugging Face 下载:
from datasets import load_dataset
dataset = load_dataset("ceval/ceval-exam", name="computer_network")
-
- 或者直接下载 ZIP 文件并解压:
wget https://huggingface.co/datasets/ceval/ceval-exam/resolve/main/ceval-exam.zip
unzip ceval-exam.zip
- 选择评估模式
- 零样本(Zero-shot):模型在没有任何示例的情况下直接回答问题。
- 少样本(Few-shot):模型在少量示例(如 5 个)的提示下回答问题。
- 准备模型:确保模型已经加载并准备好进行推理。如果是基于 Hugging Face 的模型,用以下代码加载:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "your-model-name"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
- 构建提示(Prompt)
- 零样本提示:
以下是中国关于{科目}考试的单项选择题,请选出其中的正确答案。
{测试题目}
A. {选项A}
B. {选项B}
C. {选项C}
D. {选项D}
答案:
-
- 少样本提示:
以下是中国关于{科目}考试的单项选择题,请选出其中的正确答案。
{题目1}
A. {选项A}
B. {选项B}
C. {选项C}
D. {选项D}
答案:A
[k-shot 示例]
{测试题目}
A. {选项A}
B. {选项B}
C. {选项C}
D. {选项D}
答案:
- 生成回答:使用模型生成回答。提取生成文本中的答案选项(A、B、C、D),或者计算每个选项的概率并选择最高概率的答案。
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
answer = extract_answer(response) # 自定义函数,提取答案选项
- 评估模型
- 对于验证集(
val
),直接计算准确率。 - 对于测试集(
test
),需要将结果提交到 C-Eval 官方平台获取评分。
- 对于验证集(
from sklearn.metrics import accuracy_score
# 假设 `predictions` 是模型的预测结果,`labels` 是真实答案
accuracy = accuracy_score(labels, predictions)
print(f"Validation Accuracy: {accuracy:.2f}")
- 提交结果:准备 JSON 文件,包含所有测试题目的预测结果:
{
"chinese_language_and_literature": {
"0": "A",
"1": "B",
...
},
...
}
-
- 登录 C-Eval 官方平台并提交结果以获取最终评分。
alt="C-Eval" width="740" height="416" />
C-Eval的应用场景
- 语言模型性能评估:全面衡量语言模型的知识水平和推理能力,帮助开发者优化模型性能。
- 学术研究与模型比较:为研究人员提供标准化的测试平台,分析和比较不同语言模型在各学科的表现,推动学术研究和技术进步。
- 教育领域应用开发:助力开发智能辅导系统和教育评估工具,用模型生成练习题、自动评分,提升教育领域的智能化水平。
- 行业应用优化:在金融、医疗、客服等行业,评估和优化语言模型的领域知识和应用能力,提升行业智能化解决方案的效果。
- 社区合作与技术评测:作为开放平台,促进开发者社区的交流与合作,为模型竞赛和技术评测提供公平的基准测试工具。
流量统计
- 7天
- 30天
- 90天
- 365天
页面浏览量
独立访客数
链接点击量
猜你喜欢
AGI-Eval
AGI-Eval是什么AGI-Eval是上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大...PubMedQA
PubMedQA是什么PubMedQA是专门用在生物医学研究问题回答的数据集。PubMedQA通过文献摘要回答“是/否/...LLMEval3
LLMEval是由复旦大学NLP实验室推出的大模型评测基准,最新的LLMEval-3聚焦于专业知识能力评测,涵盖哲学、经...HELM
HELM是什么HELM全称Holistic Evaluation of Language Models(语言模型整体评估...H2O EvalGPT
H2O EvalGPT 是 H2O.ai 用于评估和比较 LLM 大模型的开放工具,它提供了一个平台来了解模型在大量任务...MMBench
MMBench是什么MMBench是多模态基准测试,由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙...OpenCompass
OpenCompass是什么OpenCompass是上海人工智能实验室(上海AI实验室)于2023年8月正式推出的大模型...FlagEval
FlagEval是什么FlagEval(天秤)是北京智源人工智能研究院(BAAI)推出的科学、公正、开放的大模型评测体系...SuperCLUE
SuperCLUE是什么SuperCLUE 是针对中文大模型的综合性评测基准,能全面评估模型在多个维度上的性能表现。Su...CMMLU
CMMLU是什么CMMLU是综合性的中文评估基准,专门用在评估语言模型在中文语境下的知识和推理能力,涵盖从基础学科到高级...Open LLM Leaderboard
Open LLM Leaderboard是什么Open LLM Leaderboard 是最大的大模型和数据集社区 Hu...MMLU
MMLU 全称 Massive Multitask Language Understanding,是一种针对大模型的语言...
- 关注我们
-
扫一扫二维码关注我们的微信公众号
- 网址推荐
- 热门标签
-
- 游戏(4428)
- 街机游戏合集(4329)
- 街机游戏(4329)
- 在线游戏集合(4329)
- 街机在线(4329)
- nes合集游戏(4328)
- 在线小游戏网站(4328)
- 游戏榜(4328)
- 红白机游戏盒(4328)
- 小霸王游戏(4328)
- GBA(1796)
- 街机(555)
- 动作冒险(400)
- 青檬花园(374)
- 角色扮演(354)
- 动作(341)
- 汉化(332)
- SFC(328)
- 运动比赛(321)
- 深度导航(309)
- 小游戏(302)
- 射击(292)
- AIGC导航(277)
- 国内精选服务商(255)
- 中文(245)
- 冒险(239)
- 工具达人(239)
- AI写作工具(232)
- 平台(219)
- 格斗(212)
- 视频(198)
- 翻译(186)
- 人工智能(172)
- 动漫(159)
- 的(153)
- Video(152)
- 数字人(151)
- ppt(137)
- 数据分析(137)
- 文生图(134)
- logo(133)
- 飞行射击(128)
- AI智能体(126)
- 赛车(124)
- 一起用AI(123)
- 电商(119)
- 其他(119)
- 思维导图(113)
- OpenI(113)
- Code(105)