Tech Radar 27/04/2026: Mistral Small 4 — Cục Open-Source Bành Trướng Nhai Rộp Rộp Chat, Suy Luận, kẹp Agents

Tuần này, lão Mistral xổ lồng thả con Small 4 — một tay 119B parameter model chuyên trị cái trò consolidates (nhồi nhét gom bi) ráo trọi mấy thứ dạo trước gào thét đòi hỏi tận ba bãi separate models. Đội cái vỏ Apache 2.0 license kẹp được đè đầu optimized cho cả rãnh latency (trễ) lẫn throughput (băng thông), Small 4 đích thị sắm vai một cái strategic inflection point (cột mốc bẻ lái chiến lược) chóp cái bãi open-source model ecosystem.

Cái rổ key innovation (chiêu trò đột phá) đéo rảnh háng quanh quẩn mỗi bãi technical performance (sức cày kỹ thuật). Nó rành rành rúc lọt chóp cái unified architecture (kiến trúc chập bi): Mistral xách búa merged (đúc chung) ráo trọi mớ capabilities (năng lực) của Magistral (trò reasoning), Pixtral (mâm multimodal), kẹp Devstral (bãi agentic coding) tót thành một cái single model duy nhất cõng theo cái mác configurable behavior (hành xử có cửa xào chẻ). Lũ Users nay đéo còn phải hộc máu switch (nhảy múa) vắt ngang qua mớ specialized models cùi bắp nữa — tụi nó đè đầu configure (nắn gân) một con model đặng khạc ra rổ fast responses, deep reasoning, hay visual analysis tùy ý theo cái bãi task demands (yêu cầu task).

Ba bãi themes (chủ đề chính) định hình ráo trọi cái release này: rãnh unified model thesis (thuyết model chập bi), bãi configurable reasoning paradigm (khuôn mẫu suy luận nắn bóp được), kẹp cái màn open-source strategic positioning (ghim chốt chiến lược nguồn mở).

1. Mớ Unified Architecture: Một Lão Model, Ba Cái Modes

Tay Mistral Small 4 chễm chệ sắm vai bãi model đầu tiên lọt thỏm trong cái lineup của nhà tụi nó xắn tay unify (chập mâm) mấy cái capabilities dạo trước bị rách nát chia lẻ:

flowchart TD
    subgraph "Mớ Previous Mistral Lineup Đời Tống"
        MAG[Lão Magistral] --> REASON[Trò Deep Reasoning]
        PIX[Tay Pixtral] --> MULTI[Mâm Multimodal Vision]
        DEV[Gã Devstral] --> CODE[Bãi Agentic Coding]
    end
    
    subgraph "Cục Small 4 Unified (Chập Bi)"
        SMALL4[Con Mistral Small 4] --> MODE1[reasoning_effort=none<br/>Bãi Fast Instruct]
        SMALL4 --> MODE2[reasoning_effort=medium<br/>Mâm Balanced]
        SMALL4 --> MODE3[reasoning_effort=high<br/>Rổ Deep Reasoning]
        SMALL4 --> MULTI2[Tay Native Multimodal]
        SMALL4 --> CODE2[Bãi Agentic Coding]
    end

Mớ Architectural specifications (Ruột gan kiến trúc):

Bãi Mixture of Experts (MoE): 128 chuyên gia (experts), chọc 4 tay active per token
Cục 119B total parameters, nã 6B active per token (húp 8B rủi tính luôn embeddings)
Mâm 256k context window (cửa sổ ngữ cảnh)
Trò Native multimodality: nhai sạch text kẹp image inputs

Cú unification này đập bẹp dí bãi operational complexity (độ rách việc vận hành) rành rành thấy rõ. Đám Teams dạo trước gồng mình quản mớ ba tay separate model deployments — từng con cõng mẹ một cái rổ infrastructure requirements riêng, token pricing vớ vẩn, kẹp mớ failure modes đéo giống ai — nay dư sức rung đùi run một cái single endpoint đè đầu parameter-driven behavior modification (chọc ngoáy parameter nắn gân trò hành xử).

2. Bãi Configurable Reasoning: Con Model Dẻo Quẹo (Dynamic)

Cái feature định hình phơi lòi mặt cho con Small 4 chính là bãi reasoning_effort parameter, thứ ban phép trò dynamic adjustment (nắn bóp sống) nhồi vỗ bãi behavior của con model đéo cần phải lôi đầu chuyển qua model khác:

Cái Setting (Nấc)	Trò Hành Xử (Behavior)	Mâm Use Case
`none` (Say đéo)	Phọt Fast, lightweight responses (nhanh kẹp nhẹ)	Trò Everyday chat, ba cái simple queries xàm xí
`low` (Thấp)	Nã Quick reasoning	Mớ Standard tasks (việc cỏn con)
`medium` (Lừng chừng)	Rặn Balanced reasoning	Bãi General-purpose coding (cày code đại trà)
`high` (Vút nóc)	Thọc Deep, step-by-step reasoning	Mâm Complex problems, rổ research (bươi móc nát óc)

flowchart LR
    INPUT[Cục User Input] --> CLASSIFY{Bãi Task Complexity}
    CLASSIFY -->|Simple (Dễ Xơi)| NONE[reasoning_effort=none<br/>~100ms latency]
    CLASSIFY -->|Moderate (Sương Sương)| MEDIUM[reasoning_effort=medium<br/>~500ms latency]
    CLASSIFY -->|Complex (Nhức Não)| HIGH[reasoning_effort=high<br/>~2s latency]
    
    NONE --> OUTPUT[Cục Response]
    MEDIUM --> OUTPUT
    HIGH --> OUTPUT

Cái bãi này đéo phải là cái paradigm (trò) “Pro vs. Flash” model splitting cùi bắp (bọn OpenAI, DeepSeek hay nhai) hay cái mớ separate model families (gia phả rách nát Claude Opus/Sonnet/Haiku). Thay vì gò lưng routing requests (vứt task) đấm qua đá lại giữa mớ models, lão Small 4 tự xắn tay adjusts (chỉnh) cái bãi internal reasoning depth (độ sâu lọng óc ruột gan) — vỗ ngực trading latency đặng húp quality (đổi trễ lấy xịn) lọt thỏm trong ruột một cái single architecture.

Mớ performance claims (lời hứa hẹn sức cày) cũng táng búa phết:

Đập lút 40% reduction (teo tóp) chóp cái end-to-end completion time (tối ưu hóa độ trễ lóng)
Vút nóc 3x more requests per second (chạy xé gió tát băng thông) vỗ mặt tay Mistral Small 3
Ngang cơ mớ scores xách dép với lão GPT-OSS 120B giữa lúc generating rổ outputs cụt ngủn hơn tới 20-60%

3. Quả Apache 2.0 kẹp Trò Open-Source Strategic Play (Chiêu Trò Cờ Thế Nguồn Mở)

Tay Mistral Small 4 xổ lồng vỗ bóc tem dưới mác Apache 2.0 — cái bãi permissive license (giấy phép xõa banh chành) sừng sỏ nhất lọt thỏm cái rổ frontier model landscape (chiến trường model chóp bu) thời nay. Trò này đéo phải là bãi accidental positioning (cắm chốt vô tình vớ vẩn).

Với lão DeepSeek ngậm bồ hòn ôm MIT, Llama đội mác custom commercial license (giấy rách tự trồng) cõng theo một nùi restrictions, kẹp rổ proprietary models (đồ nhà kín Claude, GPT) chỉ hở mõm qua đường API, tay Mistral đang gõ búa đập bàn xưng danh là cái truly open alternative (kèo nguồn mở xịn xò số dzách):

flowchart TD
    subgraph "Bãi License Landscape Tháng 04/2026"
        PROP[Rổ Proprietary APIs<br/>OpenAI, Anthropic] --> PAY[Trò Pay-per-token (Nhè tiền mâm token)]
        LLAMA[Tay Meta Llama 4<br/>Bãi Custom License] --> RESTRICT[Mớ Commercial Restrictions (Khóa mõm chóp thương mại)]
        DEEP[Lão DeepSeek-V4<br/>Cái MIT License] --> OPEN1[Hàng Open nhưng gốc Tàu (Chinese Originated)]
        MISTRAL[Thằng Mistral Small 4<br/>Sạp Apache 2.0] --> OPEN2[Vỗ mộc Fully Open<br/>Đéo màng Restrictions (Say đéo kìm kẹp)]
    end

Cái bãi Apache 2.0 license vỗ mặt phán:

Húp lút cán Full commercial use (cày tiền rạch ròi) mà đéo cần ôm mâm attribution requirements (đòi dán nhãn ghi công)
Ném kèm mẹ vô bãi patent grant (bảo kê bằng sáng chế)
Say đéo với mớ restrictions nhắm lút vô modification (vọc vạch) hay redistribution (quăng lại hàng)
Vừa khít lỗ đặng integration vô mấy cái commercial products kẹp services (hàng hóa húp tiền)

Lão Mistral cũng đã lót đít join vô NVIDIA Nemotron Coalition sắm vai tay founding member, nhấp nháy đèn báo hiệu mớ enterprise-focused optimization partnerships (cú bắt tay tối ưu lót đít enterprise). Con model rành rành đã chễm chệ available chóp mâm vLLM, llama.cpp, SGLang, kẹp rổ Transformers — cái bãi standard deployment stack (chồng đồ nghề triển khai quốc dân) chuyên trị production LLM inference.

4. Mớ Hardware Requirements (Cục Nợ Phần Cứng) kẹp Deployment Reality (Thực Tại Dọn Mâm)

Mớ efficiency claims (lời múa mép về độ gọn nhẹ) của Small 4 được chống lưng bởi rổ specific hardware requirements:

Cục Minimum infrastructure (Hạ tầng rách nát tối thiểu):

4x tay NVIDIA HGX H100, hay
2x lão NVIDIA HGX H200, hay
1x sạp NVIDIA DGX B200

Bãi Recommended (Nghe xúi):

4x mâm NVIDIA HGX H100, hay
4x rổ NVIDIA HGX H200, hay
2x cục NVIDIA DGX B200

Cái bãi này dư sức accessible (chọc lọt) cho đám mid-size organizations (tổ chức cỡ vừa) kẹp rổ cloud deployments, dẫu cho đéo có cửa feasible (khả thi) cho màn individual local deployment (dọn mâm nhà riêng cá nhân). Cục 6B active parameters cắn chóp per token (nếu đọ với 49B của tay DeepSeek-V4-Pro hay 13B của gã Flash) táng búa giáng mộc strike a balance (thăng bằng) cực khét giữa rãnh capability kẹp mớ inference cost (hóa đơn hộc máu).

Cái màn multimodal capability — há mồm nhai trọn text kẹp image inputs — đôn mông Small 4 tót lên dọn bãi cho trò document analysis (xé giấy soi lóng), visual question answering, kẹp mớ agentic workflows thứ khát khô cổ cái trò rãnh screen hay interface understanding.

5. Bãi Này Chĩa Trực Tiếp Chuyện Gì Cho Đám Engineering Teams

Ba bãi practical implications (hệ lụy thực chiến) nhảy xổ vỗ mặt mớ teams đương hì hục cày build software thời nay 2026:

Rổ Unified model architectures (kiến trúc model chập bi) đương lột xác tót lên mâm the default (đồ quốc dân). Bãi operational simplicity (dễ xơi vận hành) của cái trò một con model nhồi configurable behavior vỗ mặt đè bẹp dí cái mớ theoretical optimization (tối ưu hóa mõm lý thuyết) của lũ specialized models tính ráo trọi cho hầu hết đám teams. Lôi cổ evaluate (soi xét) liệu cái mớ routing complexity (nợ nần nhức óc rẽ luồng) vắt chéo mớ models nhà ông có đẻ ra được miếng value (giá trị) hàng real đéo, hay chỉ là cục nợ technical debt (nợ kỹ thuật).

Sạp Apache 2.0 xách búa đập vỡ cái rổ risk calculus (bàn tính rủi ro) cho bãi model dependencies. Rủi mà ông đương hì hục building products rúc lọt mớ LLM capabilities, ba cái rổ license terms cốt tử lắm. Quả Apache 2.0 vỗ mông lột sạch bãi legal uncertainty (mù mờ luật lá) cõng cắn từ ba cái rổ custom commercial licenses (Llama) hay bãi API dependency (lệ thuộc API đồ proprietary models).

Đống Efficiency metrics (chỉ số gọn gàng) nay mọc sừng hóa kiếp tót thành competitive dimensions (thước đo sống mái cạnh tranh). Màn Mistral chúi mũi vô output efficiency (độ xả hàng tối ưu) — ôm scores trâu bò với rổ outputs cụt ngủn hơn hẳn — đâm lút trực tiếp lóng hóa kiếp thành bãi lower inference costs kẹp better user experience (trải nghiệm xịn hơn). Lúc xách models ra đọ, soi chòng chọc vô “accuracy per token” (độ chuẩn chóp token) kẹp “quality per latency unit” (độ xịn chóp đơn vị trễ), đéo phải nhăm nhăm bấu víu mỗi ba cái rổ benchmark scores.

Một Nhìn Đóng Hộp Mớ Release

Tay Feature	Trò Gì Nã Súng	Cớ Làm Sao Lại Táng Búa
Bãi Unified Architecture	Nhồi chập bi Magistral + Pixtral + Devstral tót vô một con model	Rút lóng Simplifies deployment, chém đứt bãi operational complexity
Cú Configurable Reasoning	Rãnh `reasoning_effort` parameter nặn bóp rãnh lóng depth (độ sâu) dynamically	Một con model bao thầu mọi rãnh task types, kèo latency/quality tradeoff chóp on demand (húp theo yêu cầu)
Sạp Apache 2.0 License	Bãi open-source license xõa banh chành sừng sỏ nhất	Say đéo commercial restrictions, nhồi sẵn bãi patent grant
Cục 119B Params / 6B Active	Tay MoE xài 128 experts, nã 4 active chóp per token	Vọc Efficient inference cõng não rãnh frontier capability
Mâm 256k Context Window	Đỡ lưng cho rổ long-form document kẹp conversation	Nhai rộp mớ codebases bự chảng kẹp vắt rãnh extended sessions
Trò Native Multimodal	Nốc text + image inputs nhét vô một con model duy nhất	Vọc Document parsing, soi visual analysis, cày agentic screen use
Vỗ 40% Latency Reduction	Đạp lút ga Faster end-to-end completion	Phọt Better user experience, dìm lower inference costs

Mảng Tổng Kết Radar Takeaway

Cái rãnh signal táng búa chóp bu từ bãi release này đích thị là rổ unified model thesis. Lão Mistral đương ném cọc đặt cược rằng cái bãi complexity nhức nách của trò model routing — xoắn não lựa giữa Pro/Flash, Opus/Sonnet, Magistral/Devstral — chỉ là một cái rãnh temporary artifact (tác dụng phụ ất ơ xàm xí) của mấy cái immature architectures (kiến trúc non nớt), đéo phải là cái permanent feature (cục cố định) của mớ ecosystem đâu.

Ngóc mỏ hóng cái màn adoption của tay Small 4’s configurable reasoning pattern. Rủi mà nó vỗ mặt chứng minh được trò reliable (lỳ lợm) vắt ngang qua mớ diverse workloads, cứ mâm mà expect rổ other providers lết xác implement y xì đúc mấy cái similar dynamic-adjustment mechanisms (cơ chế nắn gân động) thay vì hì hục maintaining (nuôi báo cô) mớ separate model families rách nát.

Soi rành rọt cái bãi Apache 2.0 positioning (gác cửa Apache 2.0). Cữ mà mớ AI capabilities lột xác chui lọt tót vô core infrastructure (hạ tầng lõi cốt tử), bãi license terms ngày càng cõng rãnh strategic (chiến lược). Lão Mistral đương định vị đè mặt tụi kia đặng sắm vai rổ enterprise-safe open alternative (phỏm nguồn mở an toàn cho enterprise) — đéo chỉ technically capable (khét về mặt cày), mà còn legally unencumbered (đéo gánh nợ luật lá).

Cho đám platform teams, bãi immediate action (quất ngay lóng) là lôi đầu evaluating (soi xét) tay Small 4 chọi thẳng với rổ current model mix nhà ông. Mớ unified architecture dư sức simplifies ráo trọi cái bãi deployment lóng của nhà ông significantly (cực lòi họng), kẹp tay Apache 2.0 license xách búa đập bẹp dí rổ compliance concerns (nỗi lo tuân thủ) cõng theo ba cái mớ restrictive terms (điều khoản rọ mõm) rách rưới kia.

Cái sớ Tech Radar mỏng lỏng này được tay nặn từ mạng OpenClaw AI kẹp trát kiểm định kỹ thuật từ lão Senior System Architect @TuanAnh. Luồng data rỉ từ mớ nguồn uy tín sừng sỏ.

1. Mớ Unified Architecture: Một Lão Model, Ba Cái Modes#

2. Bãi Configurable Reasoning: Con Model Dẻo Quẹo (Dynamic)#

3. Quả Apache 2.0 kẹp Trò Open-Source Strategic Play (Chiêu Trò Cờ Thế Nguồn Mở)#

4. Mớ Hardware Requirements (Cục Nợ Phần Cứng) kẹp Deployment Reality (Thực Tại Dọn Mâm)#

5. Bãi Này Chĩa Trực Tiếp Chuyện Gì Cho Đám Engineering Teams#

Một Nhìn Đóng Hộp Mớ Release#

Mảng Tổng Kết Radar Takeaway#