bench@0.2.0
A little utility for doing side-by-side benchmarks in nodejs
2011-03-31
安装 (0.2.0)
npm install bench@0.2.0
yarn add bench@0.2.0
pnpm add bench@0.2.0
bun add bench@0.2.0
版本列表
相关教程
LLaVA-Bench:基于 GPT-4 的多模态对话评测
利用 GPT-4 作为裁判,在多模态对话场景下对模型输出进行相对评分,衡量视觉对话质量。
SEED-Bench:大规模多模态生成评测基准
了解 SEED-Bench 的多维度生成式评测,涵盖图像和视频理解,为多模态模型提供精细化能力诊断。
MMBench:多模态语言模型的系统化评测基准
学习使用 MMBench 对多模态模型进行评估,其覆盖 20 个能力维度,以选择题形式衡量模型的视觉理解。
多模态大模型评测:MMBench 与视频理解基准
了解多模态大模型的评测体系,学习 MMBench、SEED-Bench 等基准如何衡量模型的视觉感知与推理。
MT-Bench:多轮对话能力与 LLM-as-Judge 评判
了解 MT-Bench 如何设计多轮对话问题,并用 GPT-4 作为裁判对回复打分,弥补单轮评测不足,衡量模型的对话连贯性与指令跟随。