AI AI Guidance

Evaluation lab

大模型评测

记录评测脚本、数据集处理、指标设计和结果复盘。重点是可复现,而不是只贴排行榜。

Pipeline

评测流程

定义任务 准备数据 运行脚本 分析结果