<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>VLLM on Learn by Tanhdev</title><link>https://learn.tanhdev.com/tags/vllm/</link><description>Recent content in VLLM on Learn by Tanhdev</description><generator>Hugo</generator><language>en-us</language><lastBuildDate>Mon, 01 Jun 2026 10:00:00 +0700</lastBuildDate><atom:link href="https://learn.tanhdev.com/tags/vllm/index.xml" rel="self" type="application/rss+xml"/><item><title>Executive Summary — Sổ Tay Tối Ưu Hóa SLM</title><link>https://learn.tanhdev.com/series/slm-playbook/executive-summary/</link><pubDate>Wed, 20 May 2026 21:05:00 +0700</pubDate><guid>https://learn.tanhdev.com/series/slm-playbook/executive-summary/</guid><description>Tổng quan về lý do tại sao các doanh nghiệp đang chuyển dịch sang tự host Mô hình ngôn ngữ nhỏ (SLM) để tối ưu chi phí, bảo mật và hiệu năng.</description></item><item><title>Kiến Trúc Hybrid AI &amp; Tự Host vLLM | SLM Playbook</title><link>https://learn.tanhdev.com/series/slm-playbook/part-1-slm-hybrid-architecture/</link><pubDate>Thu, 21 May 2026 08:00:00 +0700</pubDate><guid>https://learn.tanhdev.com/series/slm-playbook/part-1-slm-hybrid-architecture/</guid><description>Phân tích kinh tế TCO khi tự host mô hình nhỏ (SLM). Tìm hiểu công thức VRAM và thiết lập Hybrid Routing Gateway kết hợp sức mạnh SLM với Frontier LLM.</description></item><item><title>Tối Ưu vLLM Serving: So Sánh AWQ, GPTQ và GGUF</title><link>https://learn.tanhdev.com/series/slm-playbook/part-6-vllm-deployment-evals/</link><pubDate>Tue, 26 May 2026 08:00:00 +0700</pubDate><guid>https://learn.tanhdev.com/series/slm-playbook/part-6-vllm-deployment-evals/</guid><description>Cẩm nang vận hành SLM trên vLLM. So sánh các định dạng lượng tử hóa AWQ, GPTQ, GGUF và thiết lập cấu hình Dynamic LoRA tiết kiệm RAM GPU hiệu quả.</description></item><item><title>Tối Ưu Hóa Inference &amp; Triển Khai vLLM Trên Production</title><link>https://learn.tanhdev.com/series/ai-data-engineering-pipeline/part-8-inference-optimization-vllm/</link><pubDate>Sun, 17 May 2026 12:00:00 +0700</pubDate><guid>https://learn.tanhdev.com/series/ai-data-engineering-pipeline/part-8-inference-optimization-vllm/</guid><description>Vượt qua giới hạn VRAM và tối ưu chi phí Server khi triển khai LLM 70B với vLLM, PagedAttention và Quantization FP8/AWQ.</description></item><item><title>Fine-Tune vs Prompt-Engineer Với Một LLM: Cẩm Nang Chốt Hạ</title><link>https://learn.tanhdev.com/posts/slm-fine-tune-vs-prompt-engineering/</link><pubDate>Mon, 01 Jun 2026 10:00:00 +0700</pubDate><guid>https://learn.tanhdev.com/posts/slm-fine-tune-vs-prompt-engineering/</guid><description>Cẩm nang ra đòn dứt khoát cho đám kỹ sư AI (AI engineers): lúc nào thì đè ra mài dũa (fine-tune LoRA/QLoRA), lúc nào thì băm vằm prompt (prompt-engineer), và lúc nào thì RAG mới là chân ái.</description></item></channel></rss>