免费编程教程

最新
模型压缩与部署

总结模型压缩技术栈,串联量化、剪枝、蒸馏和硬件特定优化,设计适配服务端、边缘与移动端的轻量级部署方案。

9 0 0
2026-06-14
最新
ONNX Runtime LLM

学习使用 ONNX Runtime 针对大语言模型的生成式 API,通过量化与硬件加速适配器,在不同硬件后端高效部署 Llama、Phi 等生成式模型。

5 0 0
2026-06-14
最新
TensorRT-LLM

学习使用 TensorRT-LLM 将大模型编译为高度优化的推理引擎,融合算子、量化、张量并行等特性,在 NVIDIA GPU 上获得极致性能。

4 0 0
2026-06-14