评测脚本不是跑出一个分数就结束。关键是后续能复现、能解释、能定位异常。

最小结构

输入数据
模型配置
提示词模板
运行日志
结果文件
异常样例