最新
llama.cpp CPU 推理
编译并使用 llama.cpp 在纯 CPU 或混合 Metal/CUDA 环境下高效运行量化大模型,涵盖服务器、命令行和内置 HTTP 服务等模式。
3
0
0
2026-06-14
最新
GGML / GGUF 量化格式
了解 GGML 及后继 GGUF 文件格式的设计思想,如何将模型权重打包并支持多级量化,成为 llama.cpp 等 CPU 高效推理的基石。
2
0
0
2026-06-14