最新
大模型评估框架 LM-Eval-Harness
使用 EleutherAI 的开源评估框架,一站式在大量标准基准(如 MMLU, ARC, HellaSwag)上对大模型进行零样本和少样本自动化测试。
6
0
0
2026-06-14