最新
MT-Bench 多轮评估
了解 MT-Bench 如何设计多轮对话问题,并用 GPT-4 作为裁判对回复打分,弥补单轮评测不足,衡量模型的对话连贯性与指令跟随。
2
0
0
2026-06-14