亿级流量网站架构核心技术 跟开涛学搭建高可用高并发系统

亿级流量网站架构核心技术 跟开涛学搭建高可用高并发系统亿级流量网站架构核心技术 跟开涛学搭建高可用高并发系统1.高并发原则1.1无状态1.2拆分1.3服务化1.4消息队列1.5数据异构1.6缓存银弹1.7并发化2高可用原则2.1降级2.2限流2.3切流量2.4可回滚3业务设计原则3.1防重设计3.2幂等设计3.3流程可定义3.4状态与状态机3.5后台系统操作可反馈3.6后台系统审批化3.7文档和注释3.8备份4负载均衡与反向代理5隔离5.1线程隔离(线程池隔离)5.2进程隔离5.3集群隔离5.4机房隔离5.

亿级流量网站架构核心技术 跟开涛学搭建高可用高并发系统

ISBN:978-7-121-30954-0
作者:张开涛
页数:447页
阅读时间:2021-11-28
推荐指数:★★★★★

Java架构师必读书目之一,
从原理出发,一步一步深入,
实战中的解决方案都能在这里面找到,
非常推荐仔细阅读。

亿级流量网站架构核心技术 跟开涛学搭建高可用高并发系统

在资源有限的情况下,一定是先解决当下最核心的问题。
系统设计是一个不断迭代的过程,在迭代中发现问题并修复问题,即满足需求的系统是不断迭代优化出来的,这是一个持续的过程,个人不相信存在完美架构银弹。

1.高并发原则

1.1 无状态

1.2 拆分

   系统维度、功能维度、读写维度、AOP维度、模块维度

1.3 服务化

   进程内服务->单机远程服务->集群手动注册服务->自动注册和发现服务->服务的分组/隔离/路由->服务治理放在括号内。

1.4 消息队列

1.5 数据异构

数据异构、数据闭环。

1.6 缓存银弹

流程节点 缓存技术
客户端 使用浏览器缓存
客户端应用缓存
客户端网络 代理服务器开启缓存
广域网 使用代理服务器(含CDN)
使用镜像服务器
使用P2P技术
源站及源站网络 使用接入层提供的缓存机制
使用应用层提供的缓存机制
使用分布式缓存
静态化、伪静态化
使用服务器操作系统提供的缓存机制

1.7 并发化

2 高可用原则

2.1 降级

开关集中化管理、可降级的多级读服务、开关前置化、业务降级

2.2 限流

2.3 切流量

DNS、HttpDNS、LVS/HaProxy、Nginx

2.4 可回滚

3 业务设计原则

3.1 防重设计

3.2 幂等设计

3.3 流程可定义

3.4 状态与状态机

3.5 后台系统操作可反馈

3.6 后台系统审批化

3.7 文档和注释

3.8 备份

4 负载均衡与反向代理

一个域名可以映射多个ip地址,但是当一个主机故障时,DNS有一定的缓存时间,故障后切换时间长,而且没有对后端服务进行心跳检查和失败重试的机制。

为了提升整体吞吐量,会在DNS和Nginx之间引入接入层,比如使用LVS(软件负载均衡)F5(硬件负载均衡)

接入层、反向代理服务器、负载均衡服务器都指Nginx。

上游服务器配置:upstream server配置

负载均衡算法:配置多个上游服务器负载均衡机制。

失败重试机制:当配置超时或不存活时,是否重试其他上游服务器。

服务器心跳检查:上游服务器健康 检查、心跳检查。

负载均衡算法:轮询、ip hash

Http动态负载均衡、静态配置。

Consul+Consul-template

Consul+OpenResty

5 隔离

系统隔离是为了在系统发生故障时,能限定传播范围和影响范围。

5.1 线程隔离(线程池隔离)

5.2 进程隔离

5.3 集群隔离

5.4 机房隔离

5.5 读写隔离

5.6 动静隔离

5.7 爬虫隔离

5.8 热点隔离

5.9 资源隔离

隔离实现技术:Hystrix、Servlet3

Servlet3请求解析和业务处理线程池分离、Servlet3异步化

可以使用BIO压测、Servlet3 NIO异步化压测。

Tomcat处理流程

1.容器负责接收并解析请求为HttpServletRequest。

2.然后交给Servlet进行业务处理。

3.最后通过HttpServletResonse写出响应。

6 限流

限流算法:令牌桶算法、漏桶算法。

应用级限流:并发数、连接数、请求数。

分布式限流:Redis+Lua实现、Nginx+Lua实现

接入层限流:ngx_http_limit_conn_module、ngx_http_limit_req_module、lua-resty-limit-traffic

节流

1.throttleFirst/throttleLast

指在一个时间窗口内,如果有重复多个相同事件要处理,只处理第一个或最后一个。

前段可以使用jquery-throttle-debounce-plugin实现、Android可以用RxAndroid实现。

2.throttleWithTimeout

也叫做debounce(去抖),限制两个连续事件先后执行时间不得小于某个时间窗口。

Java可以使用RxJava实现。

7 降级

Hystrix可以实现降级、熔断。

Turbine WAR、Hystrix Dashboard WAR

名称 说明
页面降级 切换到指定页面
页面片段降级 商品页商家部分信息错误,可以进行降级
页面异步请求降级 异步加载请求响应慢,可降级
服务功能降级 不太重要的服务异常时不获取信息。
读降级 多级缓存模式,后端有问题降级为只读。
写降级 只进行Cache更新,异步扣除库存信息到DB,保证最终一致性
爬虫降级 将爬虫流量导向静态页或返回空数据
风控降级 识别机器人
超时降级 相应慢自动降级
统计失败次数降级 到一定数量自动降级
故障降级 网络故障等
限流降级 访问量大时

8 超时与重试机制

代理层超时与重试:Haproxy、Nginx、Twemproxy

Web容器超时:Tomcat、Jetty

中间件客户端超时与重试:JSF、Doubbo、JMQ、CXF、Httpclient

数据库客户端超时:MySQL、Oracle

NoSQL客户端超时:Mongo、Redis

**业务超时:**任务型、服务调用型

前端Ajax超时

9 回滚机制

事务表、消息队列、补偿机制(执行/回滚)、TCC模式(预占/确认/取消)、Sagas模式(拆分事务+补偿机制)

9.1 代码库回滚

9.2 部署版本回滚

版本化、小版本增量发布、大版本灰度发布、架构升级并发发布、

9.3 数据版本回滚

9.4 静态资源版本回滚

10 压测与预案

10.1 系统压测

压测方案:压测接口、并发量、压测策略(突发、逐步加压、并发量)、压测指标(机器负载、QPS/TPS、响应时间)、压测报告、成功率、相关参数(JVM参数、压缩参数)。

压测工具:JMeter、Apache ab

线下压测、线上压测、全链路压测、读压测、仿真压测、隔离集群压测、单机压测。

10.2 系统优化和容灾

代码走查

10.3 应急预案

首先进行系统分级,然后进行全链路分析、配置监控报警,最后制定应急预案。

网络接入层、应用接入层、Web应用层和服务层

11 应用级缓存

11.1 缓存

经常读取数据、频繁访问数据、热点数据、IO瓶颈数据、计算昂贵数据、符合5分钟法则和局部性原理数据均可进行缓存。

CPU->L1/L2/L3->内存->磁盘

11.2 缓存命中率

缓存命中率 = 从缓存中读取次数/[总读取次数(从缓冲中读取次数+从慢速设备上读取次数)]

11.3 缓存回收策略

基于空间、容量、时间、Java对象引用、弱引用。

TTL(Time To Live):存活期,即缓存数据从创建开始直到到期的一个时间段(不管在这个时间段内有没有被访问,缓存数据都将过期)。

TTI(Time To Idle)空闲期,即缓存数据多久没被访问后移除缓存的时间。

回收算法:

FIFO(First In First Out)先进先出。

LRU(Least Recently Used)最近最少使用算法。

LFU(Least Frequently Used)最不常用算法。

实际中使用LRU比较多,如:Guava Cache、Ehcache。

堆缓存:使用Java堆内存来存储对象。好处是没有序列化/反序列化,是最快的缓存。缺点是数据量大时GC暂停时间会变长,存储容量受限于堆空间大小。

实现:Guava Cache、Ehcache 3.x、MapDB

堆外缓存:存储在堆外内存,可以减少GC暂停时间,可以支持更大的缓存空间,只受机器内存大小限制,不受堆空间影响。但是读取数据需要序列化/反序列化,比堆缓存慢很多。

实现:Ehcashe 3.x、MapDB

磁盘缓存:存储在磁盘上,JVM重启时数据还在,而堆缓存、堆外缓存都会丢失。

实现:Ehcache 3.x、MapDB

分布式缓存:

  1. 单机容量问题

  2. 数据一致性问题

  3. 数据不命中问题

单机:存储最热的数据到堆缓存,相对热的数据到堆外缓存,不热的数据到磁盘缓存。

集群:存储最热的数据到堆缓存,相对热的数据到堆外缓存,全量数据到分布式缓存。

缓存使用模式:

Cache-Aside、Cache-As-SoR、Read-Through、Write-Through、Write-Bhind、Copy Pattern

SoR(System-Of-Record):记录系统

可以用JMH进行测试。

11.4 HTTP缓存

Last-Modified文档最后修改时间。

F5刷新、Ctr+F5强制刷新、Age响应头、Vary代理层缓存、Via代理层、ETag发送到服务器进行内容变更验证。

11.5 HttpClient客户端缓存

Cache-Control设置说明

public 共享缓存,客户端和代理服务器都可缓存,响应可被缓存。
private 私有缓存,客户端可缓存、代理服务器不能缓存,永恒私有内容不能共享。
no-cache 允许缓存者缓存响应,但需要回源验证。
no-store 请求和响应禁止缓存。
max-age 保鲜期和Expires类似,根据该值校验缓存是否新鲜。
s-maxage 与max-age区别是仅用于共享缓存,不新鲜时遇到此头要重新验证。
max-stale 缓存的最大陈旧时间,如果缓存不新鲜但还在该最大陈旧时间内,则可以返回陈旧的内容。
min-fresh 最小新鲜期,使用(保鲜期-当前Age)< min-fresh判断内容是否新鲜。
must-revalidate 当缓存过了新鲜期后,必须回源重新验证。与no-cache类似,但更严格,不能使用后台重新验证,而no-cache允许后台重新验证。
proxy-revalidate 与must-revalidate类似,但是,只对缓存代理服务器有效,客户端遇到此头需要回源重新验证。
stale-while-revalidate 请求时,表示在指定的时间内可以先返回陈旧的内容,后台进行重新验证(异步验证)。
state-if-error 在指定时间出现500、502、503、504时,可以使用陈旧内容。
only-if-cached 该头表示只从缓存获取响应,如果没有则504,Gateway Timeout

11.6 Nginx HTTP缓存设置

11.7 Nginx 代理层缓存

11.8 如何缓存数据

不过期缓存:首先写数据库,如果成功则写缓存。不要把写缓存放到事务中。

过期缓存:懒加载,先读取缓存,不命中则查询数据,异步写入缓存并设置过期时间。

11.9 大Value缓存

Memcached来缓存大Value;或者对Value进行压缩;或拆分多个小Value。

12 连接池

池子不能太大,会影响GC的扫描时间。

池化可以使用:Apache commons-pool2来实现。DBCP、Jedis都是使用这个实现。

12.1 数据库连接池

C3P0、DBCP、Druid、HikariCP

注意网络阻塞、不稳定时的级联效应,等待超时应该尽可能小点。

12.2 HttpClient连接池

实现:HttpClient

12.3 线程池

减少频繁创建和销毁线程来降低性能的损耗。

I/O密集型、CPU密集型。

13 异步并发

当服务比较慢时,让出线程和CPU来处理下一个请求。

当一个线程在处理任务时,通过Fork多个线程来处理任务并等待这些线程的处理结果,这种应用并不是真正的异步。异步是针对CPU和I/O的,当I/O没有就绪时要让出CPU来处理其他任务,这才是异步。

13.1 异步Future

阻塞主请求,高并发时会造成线程过多、CPU上下文切换。

13.2 异步Callback

通过回调机制实现,并不能提升性能,而是为了支撑大量并发连接或者提升吞吐量。

13.3 异步编排CompletableFuture

使用ForkJoinPool实现异步处理。

场景一是三个服务异步并发调用,然后对结果合并处理,不阻塞主线程。

场景二是两个服务并发调用,然后消费结果,不阻塞主线程。

场景三是Service1执行完成后,接着并发执行Service2和Service3,然后消费相关结果,不阻塞主线程。

13.4 异步Web服务实现

Servlet3、CompletableFuture实现异步Web服务。

13.5 请求缓存

将GetProductService包装一层JVM缓存。

13.6 请求合并

CompletableFuture必须提前构造好批量查询,而Hystrix支持将多个单个请求转换为单个批量请求。可以按照单个命令来请求,但实际是以批量请求模式执行。

14 如何扩容

单体应用垂直扩容:升级硬件配置

单体应用水平扩容:部署多个镜像

应用拆分、数据库拆分(分库分表、取模分区)、Sharding-jdbc读写分离、数据异构。

查询维度异构、聚合数据异构。

任务系统扩容:Thread、Timer、ScheduledExecutor、Quartz单机版即可。

分布式任务:Quartz集群版、tbschedule、Elastic-Job、Elastic-Job-Lite。

15 队列术

异步处理、系统解耦、数据同步、流量削峰、扩展性、缓冲。

缓冲队列、任务队列、消息队列、请求队列、数据总线队列、混合队列、优先级队列、副本队列、镜像队列、队列并发数、推送拉取。

实现:Disruptor+Redis队列、Canal实现数据异构。

16 架构

16.1 架构1.0

IIS+C#+SQL Server架构,扛不住时加了一层memcached来缓存数据。

16.1 架构2.0

MQ消息通知、Java Worker调用多个依赖系统、rsync同步到其他机器、Nginx静态页、接入层负责负载均衡。

16.1 架构3.0

迅速响应迅速变化的需求和各种变种的需求、支持各种垂直化页面改版、页面模块化、AB测试、高性能、水平扩容、多机房多活异地多活。

17 OpenResty

单DB架构、DB+Cache/数据库读写分离架构、OpenResty+Local Redis+MySQL集群架构、OpenResty+Redis集群+MySQL集群架构

Redis+Twemproxy

MySQL+Atlas

Nginx+Lua

技术选型:

MQ:ActiveMQ

RPC:Dubbo

KV:SSDB或者ARDB

缓存:Redis

前端模板拼装:OpenResty

SSDB/Redis分片使用Twemproxy

今天的文章亿级流量网站架构核心技术 跟开涛学搭建高可用高并发系统分享到此就结束了,感谢您的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/10174.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注