最新
ONNX Runtime LLM
学习使用 ONNX Runtime 针对大语言模型的生成式 API,通过量化与硬件加速适配器,在不同硬件后端高效部署 Llama、Phi 等生成式模型。
5
0
0
2026-06-14
最新
TensorRT-LLM
学习使用 TensorRT-LLM 将大模型编译为高度优化的推理引擎,融合算子、量化、张量并行等特性,在 NVIDIA GPU 上获得极致性能。
4
0
0
2026-06-14