免费编程教程

全部标签 Python 自动化系统设计可视化开源安全 Java Android 隐私架构性能微调

最新

模型压缩与部署

总结模型压缩技术栈，串联量化、剪枝、蒸馏和硬件特定优化，设计适配服务端、边缘与移动端的轻量级部署方案。

人工智能模型压缩部署推理优化

9 0 0

2026-06-14

最新

ONNX Runtime LLM

学习使用 ONNX Runtime 针对大语言模型的生成式 API，通过量化与硬件加速适配器，在不同硬件后端高效部署 Llama、Phi 等生成式模型。

人工智能 ONNX Runtime 生成式AI 推理优化

5 0 0

2026-06-14

最新

TensorRT-LLM

学习使用 TensorRT-LLM 将大模型编译为高度优化的推理引擎，融合算子、量化、张量并行等特性，在 NVIDIA GPU 上获得极致性能。

人工智能 TensorRT-LLM 推理优化 GPU加速

4 0 0

2026-06-14