Quantization on Learn by Tanhdev

Quantization on Learn by Tanhdevhttps://learn.tanhdev.com/tags/quantization/Recent content in Quantization on Learn by TanhdevHugoen-usTue, 26 May 2026 08:00:00 +0700Tối Ưu vLLM Serving: So Sánh AWQ, GPTQ và GGUFhttps://learn.tanhdev.com/series/slm-playbook/part-6-vllm-deployment-evals/Tue, 26 May 2026 08:00:00 +0700https://learn.tanhdev.com/series/slm-playbook/part-6-vllm-deployment-evals/Cẩm nang vận hành SLM trên vLLM. So sánh các định dạng lượng tử hóa AWQ, GPTQ, GGUF và thiết lập cấu hình Dynamic LoRA tiết kiệm RAM GPU hiệu quả.Tối Ưu Hóa Inference & Triển Khai vLLM Trên Productionhttps://learn.tanhdev.com/series/ai-data-engineering-pipeline/part-8-inference-optimization-vllm/Sun, 17 May 2026 12:00:00 +0700https://learn.tanhdev.com/series/ai-data-engineering-pipeline/part-8-inference-optimization-vllm/Vượt qua giới hạn VRAM và tối ưu chi phí Server khi triển khai LLM 70B với vLLM, PagedAttention và Quantization FP8/AWQ.