跳到正文
AI
AI Guidance
Evaluation lab
大模型评测
记录评测脚本、数据集处理、指标设计和结果复盘。重点是可复现,而不是只贴排行榜。
Pipeline
评测流程
定义任务
准备数据
运行脚本
分析结果
2026-05-27
大模型评测
大模型评测脚本的最小结构
一个可复现评测脚本至少要记录模型版本、数据来源、提示词和结果检查方式。
阅读全文