综述主流大模型安全性评估工具与基准,如 ToxiGen、RealToxicityPrompts 和自动红队框架。
了解大模型安全评估的多维度指标,使用 Toxicity、Bias、Truthfulness 等基准对模型进行系统性安全审计,支撑上线前风险把控。