Model Compression & Efficient Deployment
发布时间:
深度学习模型压缩与高效部署
Pruning(剪枝)
- 实现 CNN 权重迭代剪枝
- 削减 80% 参数量的同时 Top-1 准确率下降不超过 2%
Quantization(量化)
- 将 ResNet 模型从 FP32 量化至 INT8
- 设计混合精度量化策略,推理速度提升约 3.1 倍
NAS(神经架构搜索)
- 基于 DARTS 算法实现神经网络架构自动搜索
- 在 CIFAR-10 上搜索得到参数量仅 0.5M 的轻量化网络
LLM Compression & Deployment
- 对 LLaMA-2-7B 进行 4-bit GPTQ 量化
- 笔记本本地部署速度达 15 tokens/s
