免费编程教程

最新
MT-Bench 多轮评估

了解 MT-Bench 如何设计多轮对话问题,并用 GPT-4 作为裁判对回复打分,弥补单轮评测不足,衡量模型的对话连贯性与指令跟随。

2 0 0
2026-06-14