评测

本次评测采用「自动化指标 + LLM 打分 + 人工打分」的混合打分机制,因此不设置自动化评测榜单。针对榜单 A(验证集评测),我们将在 6 月 15 日起每 3 天收集一次结果,并在两天内在官网发布自动化指标和 LLM 打分的结果。针对榜单 B(测试集评测),我们将在组委会给出具体评测时间后释放测试集,并收取参赛者的评测结果和系统代码。

提交要求:

  1. 我们强制参赛者使用大语言模型 (LLMs) 构建系统,选择的模型的参数量应不大于 35B。
  2. 我们强制参赛者在输出结果时输出模型的推理过程,如果只有最终的预测结果,将不被视为有效提交。

结果提交:

  • 6 月 15 日结果提交:提交链接

  • 6 月 18 日结果提交:[提交链接]

  • 6 月 21 日结果提交:[提交链接]

  • 6 月 24 日结果提交:[提交链接]

  • 6 月 27 日结果提交:[提交链接]

  • 6 月 30 日结果提交:[提交链接]