高并发系统稳定性设计

本文适用于 Web 应用、API 服务、微服务、分布式系统等高并发场景，重点介绍现代企业级系统如何通过限流、熔断、降级、重试、超时、隔离和缓存等技术保障系统的稳定运行。

一、什么是高并发

1.1 高并发的定义

高并发（High Concurrency）是指系统在单位时间内需要同时处理大量用户请求的能力。

例如：

电商平台双十一抢购
秒杀活动
支付系统
社交平台热点事件
游戏服务器
视频直播
AI 大模型接口

假设一个用户访问商品详情页面，请求流程如下：

Client
   │
   ▼
Nginx
   │
   ▼
PHP
   │
   ├── Redis
   ├── MySQL
   └── Elasticsearch

一个用户访问几乎不会产生压力。

但是如果同时有10000个用户->10000 HTTP Requests->Application

系统就需要在极短时间内完成：

HTTP 请求解析
身份认证
参数校验
Redis 查询
数据库访问
JSON 序列化
网络返回

如果系统设计不合理，就可能出现响应变慢、超时甚至崩溃。

1.2 高并发 ≠ 高性能

高性能（Performance）

高性能关注的是 单个请求处理速度。

例如：

接口耗时：50 ms

优化 SQL 后：20 ms

这属于性能优化。

常见优化包括：

SQL 优化
Redis 缓存
JVM / PHP Runtime 优化
协程
对象池
连接池

高并发（Concurrency）

高并发关注的是： 系统能够同时处理多少请求。

例如：

系统能够支撑：10000 QPS

即：每秒处理10000个请求

此时重点不是单个请求有多快，而是整体吞吐能力。

二、高并发系统面临的问题

随着访问量增加，系统通常会出现以下问题。

2.1 数据库压力过大

数据库通常是整个系统最容易成为瓶颈的部分。

例如：

10000 请求->MySQL->CPU 100%

可能出现：

慢 SQL
锁竞争
连接数耗尽
IO 饱和

最终导致整个系统响应变慢。

2.2 缓存击穿

例如：

Redis 中某个热点商品：商品1001 突然过期。

大量请求：Redis Miss->全部访问 MySQL

全部访问 MySQL

2.3 服务雪崩

假设系统如下：

Order
↓
Product
↓
Inventory
↓
Database

如果：

Database：超时

那么：

Inventory 等待
↓
Product 等待
↓
Order 等待
↓
线程耗尽
↓
整个系统崩溃

它是分布式系统最常见、最危险的问题之一。

2.4 恶意流量

例如：

登录接口：

POST /login

被攻击：

100000 Requests/s

即使数据库没有问题，应用服务器也可能因为 CPU、内存、网络带宽耗尽而不可用。

因此需要限流和安全防护。

三、什么是系统稳定性

系统稳定性（System Stability）是指系统在高负载、异常情况或部分组件故障时，仍能够持续提供服务的能力。

通常更关注：

服务是否还能访问
核心功能是否可用
是否能够快速恢复
是否避免故障扩散

因此，稳定性的目标不是永远不出错，而是：

出现故障时，系统仍能保持核心业务运行，并将影响控制在最小范围内。

四、为什么关注稳定性

对于互联网企业来说：

系统真正可怕的不是：数据库挂了

而是：

数据库挂了
↓
所有服务等待
↓
线程耗尽
↓
Redis连接耗尽
↓
Gateway超时
↓
用户全部无法访问

真正的问题叫：

故障扩散（Failure Propagation）

现代架构设计的核心目标之一就是：

控制故障范围，而不是让整个系统一起失败。

五、系统稳定性的设计目标

通常遵循以下设计原则。

5.1 高可用（High Availability）

即：

服务尽量一直可用

例如：

全年：99.99%可用率

意味着：

全年允许故障时间约：2 分钟

5.2 快速失败（Fail Fast）

例如：

库存服务已经不可用。

不要：

等待30秒->超时

而应该：

立即返回->库存服务繁忙

快速失败能够避免线程长期阻塞，提高系统整体吞吐量。

5.3 故障隔离（Isolation）

例如：

订单：线程池A

支付：线程池B

库存：线程池C

即使库存服务出现问题，也不会占满订单或支付的资源。

5.4 自动恢复（Self Recovery）

例如：

数据库恢复后：系统自动恢复调用

而不是：

人工修改配置

自动恢复能够缩短故障恢复时间，提高系统可维护性。

六、高并发系统的稳定性保障体系

系统通常不会依赖单一技术，而是构建多层保护机制。

典型调用链如下：

                  Client
                     │
                     ▼
               CDN / WAF
                     │
                     ▼
             Nginx / Gateway
                     │
              【限流（Rate Limiting）】
                     │
                     ▼
              Application Service
                     │
          ┌──────────┼──────────┐
          │          │          │
          ▼          ▼          ▼
      Timeout     Retry     Bulkhead
          │          │          │
          └──────────┼──────────┘
                     ▼
             Circuit Breaker
                     │
                     ▼
               Cache (Redis)
                     │
                     ▼
              Database(MySQL)

每一层承担不同职责：

技术	主要目标	作用
限流	控制流量	防止请求过载
超时	控制等待时间	避免长时间阻塞
重试	提高成功率	应对瞬时故障
熔断	阻止故障传播	快速失败
降级	保证核心功能	提供备用结果
隔离	防止资源争抢	避免局部故障拖垮整体
缓存	降低后端压力	减少数据库访问

七、系统稳定性的核心思想

现代互联网系统通常遵循以下几个核心思想：

1. 不要让所有请求都进入系统

通过限流控制入口流量，避免系统因瞬时高峰而过载。

2. 不要无限等待

通过超时机制限制等待时间，释放资源，提升吞吐能力。

3. 不要一直重试

合理设计重试策略，配合指数退避和最大重试次数，避免重试风暴。

4. 不要让故障扩散

通过熔断快速切断异常依赖，阻止级联故障。

5. 不要把所有资源放在一起

通过隔离划分线程池、连接池、协程池等资源，降低相互影响。

6. 不要什么都不给用户

通过服务降级返回缓存、默认值或简化结果，保证核心业务可用。

7. 尽可能减少后端压力

利用缓存降低数据库访问频率，提高整体系统吞吐能力。

高并发系统稳定性设计#

一、什么是高并发#

1.1 高并发的定义#

1.2 高并发 ≠ 高性能#

高性能（Performance）#

高并发（Concurrency）#

二、高并发系统面临的问题#

2.1 数据库压力过大#

2.2 缓存击穿#

2.3 服务雪崩#

2.4 恶意流量#

三、什么是系统稳定性#

四、为什么关注稳定性#

五、系统稳定性的设计目标#

5.1 高可用（High Availability）#

5.2 快速失败（Fail Fast）#

5.3 故障隔离（Isolation）#

5.4 自动恢复（Self Recovery）#

六、高并发系统的稳定性保障体系#

七、系统稳定性的核心思想#

1. 不要让所有请求都进入系统#

2. 不要无限等待#

3. 不要一直重试#

4. 不要让故障扩散#

5. 不要把所有资源放在一起#

6. 不要什么都不给用户#

7. 尽可能减少后端压力#