Evaluates judge scoring fairness in competitions by detecting systematic bias (leniency/strictness) and contestant-specific anomalies (favoritism/prejudice) using statistical methods. Triggered when the user needs to analyze judge scoring data from a CSV file for fairness assessment.
该 skill 调用评委公平性评估脚本(${CLAUDE_SKILL_DIR}/start.py)。
在执行前,向用户确认以下信息(若未提供):
2.0;评委人数较少时建议用 1.5)CSV 文件必须满足:
评委ID, 选手ID, 分数示例:
A,1,85
A,2,90
B,1,80
B,2,88
若用户提供的文件格式不符,直接告知错误原因,不要尝试运行。
首次运行前,执行以下命令安装依赖(幂等,可重复执行):
bash ${CLAUDE_SKILL_DIR}/setup.sh
基础分析(默认阈值 2.0):
${CLAUDE_SKILL_DIR}/.venv/bin/python ${CLAUDE_SKILL_DIR}/start.py --input {csv_path}
自定义阈值:
${CLAUDE_SKILL_DIR}/.venv/bin/python ${CLAUDE_SKILL_DIR}/start.py --input {csv_path} --threshold {threshold}
仅看综合报告(跳过偏见检测):
${CLAUDE_SKILL_DIR}/.venv/bin/python ${CLAUDE_SKILL_DIR}/start.py --input {csv_path} --no-bias-check
导出报告为 CSV:
${CLAUDE_SKILL_DIR}/.venv/bin/python ${CLAUDE_SKILL_DIR}/start.py --input {csv_path} --output {output_path}
拿到命令执行结果后,用中文向用户解读,不要直接粘贴原始表格。
列出所有评委排名,对最高和最低分的评委重点说明原因。
| 分数区间 | 解读 |
|---|---|
| 0.85 ~ 1.0 | 非常公平,打分高度一致 |
| 0.70 ~ 0.85 | 整体公平,存在轻微偏差 |
| 0.55 ~ 0.70 | 中等,需关注其打分规律 |
| < 0.55 | 与整体共识差异显著,建议复核 |
|Bias| < 2:正常范围;2~5:中等偏差;> 5:显著偏差Pearson 相关系数,以中位数共识为基准:
| 范围 | 解读 |
|---|---|
| 0.9 ~ 1.0 | 与共识高度一致 |
| 0.7 ~ 0.9 | 基本一致 |
| 0.5 ~ 0.7 | 一致性一般,存在明显分歧 |
| < 0.5 | 与共识相关性弱,需重点关注 |
负值表示排名判断方向与整体共识相反。
行 Z-score 标准化后的均方误差,已排除严厉度影响。越接近 0 越好。 若 Correlation 高但 MSE 也较高:说明排序判断正确,但打分幅度差异较大。
有异常记录时:
Favoritism (+):该评委打分显著高于其他评委(偏袒)Prejudice (-):该评委打分显著低于其他评委(针对)Score vs Contestant_Avg 量化异常程度无异常记录时:
3~5 句话总结:
| 错误信息 | 说明与建议 |
|---|---|
CSV文件为空 | 文件路径正确但内容为空 |
缺少完整的评委/选手评分组合 | 存在缺失打分,需补全矩阵 |
FileNotFoundError | 文件路径错误,请确认绝对路径 |
pearsonr 相关报错 | 某评委对所有选手打分完全相同(方差为零) |