最新
TensorRT-LLM
学习使用 TensorRT-LLM 将大模型编译为高度优化的推理引擎,融合算子、量化、张量并行等特性,在 NVIDIA GPU 上获得极致性能。
5
0
0
2026-06-14
最新
FlashAttention-2
了解 FlashAttention-2 在前作基础上如何优化并行策略与线程块调度,将 GPU 利用率推至更高,实现近 2 倍的训练与推理加速。
4
0
0
2026-06-14