Executive Summary: Alipay Double 11 Architecture

From 50M CNY to 544K TPS: Lessons in Building Planet-Scale Systems


TL;DR (Too Long; Didn’t Read)

Alipay đã tăng capacity 5,440 lần trong 10 năm (2009-2019), từ hệ thống gần như sập (phải cắt điện văn phòng, dùng đá lạnh để giải nhiệt) đến 544,000 giao dịch/giây với độ tin cậy 99.99%.

3 bài học chính:

  1. Thiết kế để chia nhỏ (Unitization) - không thể scale vertically vô hạn
  2. Kiểm thử sản xuất (Stress testing) - tự tin từ 60% lên 95%
  3. Tự động hóa mọi thứ - giảm 200 người xuống 10 người cho cùng công việc

The Story: From Crisis to Record

2012: The Breaking Point

Vấn đề: Khủng hoảng 3 đầu

  • Database Oracle không thể mở rộng thêm
  • Số kết nối đạt giới hạn tối đa
  • Điện ở Hangzhou không đủ cho data center

Giải pháp “độc”:

  • Cắt điện văn phòng giữa mùa hè
  • Dùng đá lạnh để giải nhiệt
  • Gong Jie (engineer): “Chỉ ai từng sống qua mùa hè ở Hangzhou mới hiểu khắc nghiệt đến mức nào”

Kết quả: Bắt buộc phải có “cuộc cách mạng” kiến trúc

2013: The “Impossible” Goal

Thách thức: Alipay đặt mục tiêu 20,000 thanh toán/giây

  • Tất cả kỹ sư đều hô “Không thể!”
  • Architect Chen Liang phải mất rất nhiều thời gian thuyết phục
  • Timeline: Chỉ có < 1 năm để thực hiện

LDC Architecture (Logical Data Center):

  • Chia hệ thống thành các units độc lập
  • Mỗi unit: đầy đủ services + data + cache (self-contained)
  • Scale bằng cách thêm units (horizontal scaling)

Kết quả: “We survived” - Jiang Tao

2019: The Record

544,000 TPS (transactions per second)

  • Gấp 8.5 lần Visa network peak (64K TPS)
  • Trong khi đảm bảo zero data loss (RPO=0)

Key Results & Metrics

Growth Trajectory

2009:  ████                               (~100 TPS, sự kiện đầu tiên)
2012:  ████████████████                   (~2K TPS, crisis)
2013:  ████████████████████████████       (20K TPS, LDC debut)
2019:  ████████████████████████████████████████████████ (544K TPS)
       0      100K     200K     300K     400K     500K

Confidence Evolution

NămĐộ Tin Cậy Trước EventYếu Tố Chính
201360%Manual testing, hope
2014+95%Automated stress testing

Cost Efficiency

MetricTrước 2016Sau 2016Tiết Kiệm
Cost per transaction100%50%50%
IT resourcesHold 1 nămElastic 1-2 thángHàng triệu USD

The Solution: 3 Pillars

Pillar 1: Unitization (LDC Architecture)

Vấn đề: Không thể scale một hệ thống monolithic vô hạn

Giải pháp: Chia thành Logical Data Centers (LDC)

┌─────────────────────────────────────────────────────────────┐
│                    LDC Architecture                          │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│   RZone 1      RZone 2      RZone 3       RZone N           │
│   ┌─────┐     ┌─────┐     ┌─────┐       ┌─────┐           │
│   │User │     │User │     │User │       │User │           │
│   │1-1M │     │1M-2M│     │3M-4M│       │N-M  │           │
│   ├──┬──┤     ├──┬──┤     ├──┬──┤       ├──┬──┤           │
│   │App│ │     │App│ │     │App│ │       │App│ │           │
│   │DB │ │     │DB │ │     │DB │ │       │DB │ │           │
│   │Cache│     │Cache│     │Cache│       │Cache│           │
│   └─────┘     └─────┘     └─────┘       └─────┘           │
│                                                              │
│   GZone (Global): Config, shared data                        │
│   CZone (City): Hot data for cross-city access               │
│                                                              │
└─────────────────────────────────────────────────────────────┘

Kết quả: Theoretical unlimited capacity (thêm RZone = thêm capacity)

Pillar 2: Automated Stress Testing

Vấn đề: Không thể tin tưởng hệ thống khi chỉ có 60% confidence

Giải pháp: Full-link stress testing trên production

  • Mô phỏng traffic thực với billions users
  • Shadow tables cho data isolation
  • Auto-discovery của 100+ critical issues

Efficiency Gain:

  • 2013: 200 người, test cả đêm
  • 2020: < 10 người, giờ hành chính

Kết quả: Transform từ “uncertain” → “deterministic”

Pillar 3: Financial-Grade Database (OceanBase)

Vấn đề: Oracle không thể scale, MySQL không đủ

Giải pháp: Xây dựng OceanBase (distributed SQL database)

Thành tựu:

  • 707 million tpmC (TPC-C world record)
  • 544K TPS distributed transactions
  • Zero data loss (RPO=0)
  • Custom FPGA acceleration cho compaction

Business Impact

For Technology Leaders

AreaBefore (2012)After (2020)Lesson
ScalabilityVertical limitsHorizontal unlimitedDesign to split
Reliability60% confidence95% confidenceTest in production
CostHold resources 365 daysElastic 1-2 monthsCloud-native
SpeedQuarterly releasesMonthly releasesAutomation
RiskReactive firefightingProactive preventionObservability

For Executives

ROI của kiến trúc:

  • 50% cost reduction per transaction
  • 99.99% uptime trong peak events
  • 10x faster feature delivery (middle platform)
  • Zero data loss cho financial transactions

Risk mitigation:

  • Multi-active disaster recovery
  • Automated failover (< 8 seconds)
  • Real-time fraud detection (< 0.1s)
  • 544K TPS with < 1s latency

Cultural Insights

“Worshiping Guan Gong” Tradition

Kỹ sư Alipay mang tranh Guan Yu (关公) vào phòng chuẩn bị Double 11.

Ý nghĩa: “Express respect and the slight fear of unpredictable things. Although we have been working on technology for many years, the road to technology is still full of unpredictable things.” - Chen Liang

Upgrade qua các năm:

  • 2013: Painting → 2014: Shadow puppet → 2015: Wooden statue → 2016+: Bronze statue

Team Philosophy

“You are never fighting alone. Behind you, you can always rely on your teammates.” - Li Junkui

Key principle: First, don’t panic. Say “Got it. Let me take a look.” Then convey to backend team.


Comparison: Alipay Stack vs Modern Cloud-Native

When to Use What

Your SituationRecommendation
Building new systemKubernetes + CockroachDB + Kafka + gRPC
In Alibaba CloudSOFAStack + OceanBase + RocketMQ
Need 500K+ TPSOceanBase (proven at scale) hoặc CockroachDB
Financial transactionsLDC-style unitization
Global deploymentIstio/Linkerd (vs SOFAMesh)

Migration Path

Legacy ───────┬──────► Modern
               │
Oracle ────────┼──────► CockroachDB (easiest migration)
               │
MySQL ─────────┼──────► TiDB (HTAP benefits)
               │        hoặc Vitess (keep MySQL)
               │
Java Monolith ─┼──────► SOFAStack (Java ecosystem)
               │        hoặc Spring Boot + Kubernetes

Action Items

Immediate (This Week)

  • Assess current system capacity limits
  • Identify single points of failure
  • Read relevant phase documents cho use case của bạn

Short Term (This Month)

  • Implement stress testing framework (Phase 3)
  • Evaluate database options (Modern Comparison)
  • Design unitization strategy cho data layer

Long Term (This Quarter)

  • Migrate to distributed architecture
  • Automate deployment và monitoring
  • Build middle platform cho shared services

Key Quotes

From the Engineers

“The impossible was made possible.” - Alipay Technology Team

“We survived.” - Jiang Tao (sau LDC debut 2013)

“Stress testing gradually transformed Double 11 from an uncertain thing to a definite one.” - Chen Liang

“It is tough every year.” - Zhao Zunkui (11 năm experience)

On Architecture

“A revolution is not as simple as inviting someone to dinner. It is very difficult to make fundamental adjustments at the architecture level.” - Chen Liang (2013)

“The major problem lies in transactions. We have to start there.” - Cheng Li (rejecting over-engineering)


For Different Audiences

CTO / VP Engineering

👉 Focus on: Kiến trúc (Phase 2), Bài học (Phase 5)

  • LDC design principles
  • Cost optimization strategies
  • Modern tech comparison

Engineering Managers

👉 Focus on: Vận hành (Phase 3), Cultural aspects

  • Stress testing process
  • Team efficiency improvements
  • “Never fight alone” philosophy

Architects

👉 Focus on: Tất cả phases, đặc biệt Phase 2 & 4

  • LDC implementation details
  • OceanBase architecture
  • SOFAStack patterns

Product Managers

👉 Focus on: Timeline (Phase 1), Middle Platform (Phase 4)

  • Evolution of user experience
  • “大中台, 小前台” strategy
  • Speed to market improvements

Board / Executives

👉 Focus on: Executive Summary này + ROI metrics

  • 5,440x growth story
  • Cost reduction numbers
  • Risk mitigation strategies

Next Steps

  1. Browse alipay-index.md cho navigation
  2. Read phase documents theo role của bạn
  3. Apply patterns vào hệ thống hiện tại
  4. Share learnings với team

Research Metadata

PropertyValue
Total Documents9 files
Total Lines~3,300
Research Duration1-2 weeks recommended
Topics CoveredArchitecture, Operations, Technology, Comparison
Last Updated2026-05-02

Contact & Feedback

Research by: AI Assistant for Architecture Study Purpose: Educational analysis of Alipay Double 11 architecture License: Research for internal use

Questions? Review specific phase documents hoặc alipay-index.md cho navigation.


“Nothing is impossible. The impossible just takes longer.”

End of Executive Summary