大模型压缩到移动端:从数GB到数百MB的瘦身之旅
FreeGuideOnline
最新
2026-06-27
bash
将原始FP16模型量化为4-bit
python convert.py --outtype q4_k_m ./original_model ./quantized_model