大模型压缩到移动端:从数GB到数百MB的瘦身之旅

FreeGuideOnline 最新 2026-06-27

bash

将原始FP16模型量化为4-bit

python convert.py --outtype q4_k_m ./original_model ./quantized_model