用户中心数据库切分架构实践|场景介绍

    用户中心是一个十分常见的业务系统，涵盖用户登录、注册、信息查询与修改等服务。

      用户的核心元数据为：

       User(uid,login_name,nickname,password,sex,age)

      其中   ●   uid :用户ID，主键

                ●    login_name,nickname,password,sex,age :用户的其他属性

在业务初期，单表单库就能满足业务需求：

用户中心数据库切分方法|范围法

当数据量越来越大时，需要对数据库进行水平切分，常见的切分算法有“范围法”和“哈希法”。

范围法：以用户中心的业务uid为划分依据，将数据水平切分到两个数据库实例上去：

范围法的优点：

• 切分策略简单，根据uid，按照范围，user- center很快能够定位到数据在哪个库上
• 扩容简单，如果容量不够，只要增加user-db3即可

范围法的不足是：

• uid必须要满足递增的特性
• 数据量不均，新增的user-db3，在初期的数据会比较少
• 请求量不均，一般来说，新注册的用户活跃度会比较高，故user-db2往往会比user-db1负载要高，导致服务器利用率不平衡

用户中心数据库切分方法|哈希法

哈希法：以用户中心的业务uid为划分依据，将数据水平切分到两个数据库实例上去：

哈希法的优点是：

•切分策略简单，根据uid，按照范围，user- center很快能够定位到数据在哪个库上
•数据量均衡：只要uid是均衡的，数据在各个库上的分布一定是均衡的
•请求量均衡：只要uid是均衡的，负载在各个库上的分布一定是均衡的

哈希法的不足是：

•扩容麻烦，如果需要增加一个库，需要重新hash，这有可能会导致数据迁移，给平滑升级带来困难。

用户中心数据查询需求分析

任何脱离业务的架构设计都是耍流氓，在进行架构讨论之前，首先要对业务进行简要分析，看看表结构上有哪些查询需求。

根据业务经验，用户中心往往有以下几类业务需求：

（1）用户侧，前台访问，最典型的有两类需求

用户登录：通过login_name/email/phone查询用户实体，1%的请求属于这种类型。

用户信息查询：登录之后，通过uid来查询用户的实例，99%请求属于这种类型。

用户侧查询的基本特点是：基本是单条记录查询，访问量大，服务要求高可用，并且对一致性要求较高。

（2）运营侧，后台访问。

需要满足产品及运营层面的各类需求，访问模式各异，按照年龄、性别、登录时间、注册时间等属性来进行查询。运营侧需求的的基本特点是：大量的批量分页查询需求，访问量较低，对可用性要求不高，对一致性的要求也没有这么严格。

用户中心数据查询需求解决方案-用户侧

1.索引表法：

思路：uid可以直接定位到数据库，login_name不可以直接定位到库。建立login_name到login_id的映射关系。

解决方案：

• 建立一个索引表记录login_name->uid的映射关系
• 用login_name来访问时，先通过索引表查询到uid，再定位相应的库
• 索引表属性较少，可以容纳非常多数据，一般不需要分库
• 如果数据量过大，可以通过login_name来分库

不足：多一次数据库查询，性能下降一倍。

2.缓存映射法：

思路：访问索引表的性能比较低。将映射放在缓存中可以获得更好的性能体验。

解决方案：

• login_name查询先到cache中查询uid，再根据uid定位数据库
• 假设cachemiss，采用扫全库法获取login_name对应的uid，放入cache
• login_name到uid的映射关系不会变化，映射关系一旦放入缓存，不会更改，无需淘汰，缓存命中率超高
• 如果数据量过大，可以通过login_name进行cache水平切分

不足：多一次cache查询。

3.login_name生成uid

思路：不进行远程查询，由login_name直接得到uid

解决方案：

• 在用户注册时，设计函数login_name生成uid，uid=f(login_name),按uid分库插入数据
• 用login_name进行登录时，先通过函数计算出uid，再由uid路由到对应数据库进行查询。

不足：对login_name到uid的生成函数要求较高，有uid生成冲突的风险

4.login_name基因融入uid

思路：从login_name抽取“基因” 融入uid中。

解决方案：

      • 在用户注册时，设计函数login_name生成4bit基因，login_name_gene=f(login_name)，如上图粉色部分
      • 同时，生成60bit的全局唯一id，作为用户的标识，如上图绿色部分
      • 接着把4bit的login_name_gene也作为uid的一部分，如上图屎黄色部分
      • 生成64bit的uid，由id和login_name_gene拼装而成，并按照uid分库插入数据
      • 用login_name来访问时，先通过函数由login_name再次复原4bit基因，login_name_gene=f(login_name)，通过  login_name_gene%8直接定位到库

用户中心数据查询需求解决方案-运营侧

后台运营侧的查询需求各异，基本是批量的分页查询，计算量和返回数据量较大，比较消耗数据库性能。

此时如果后台业务和前台业务共用一批服务和同一个数据库。有可能会导致后台少数几个请求的批量查询的低效访问造成数据库服务器cpu瞬时100%，影响前台用户的正常访问。

另外，由于后台业务的查询需求多种多样，需要在数据库上建立多种索引，这些索引会占用大量的内存和磁盘，从而造成前台业务的uid/login_name的查询和写入性能大幅度降低，处理时间增长。

对这一类业务，应该采用“前后台分离”的架构方案：

原文：https://blog.csdn.net/sunhuiliang85/article/details/78418546

分库分表：用户中心，单key业务如何进行数据库切分

用户中心数据库切分架构实践|场景介绍

用户中心数据库切分方法|范围法

范围法的优点：

范围法的不足是：

用户中心数据库切分方法|哈希法

哈希法的优点是：

哈希法的不足是：

用户中心数据查询需求分析

（1）用户侧，前台访问，最典型的有两类需求

（2）运营侧，后台访问。

用户中心数据查询需求解决方案-用户侧

1.索引表法：

解决方案：

2.缓存映射法：

解决方案：

3.login_name生成uid

解决方案：

4.login_name基因融入uid

解决方案：

用户中心数据查询需求解决方案-运营侧

工作中用到的脚本合集

24-5-18 X

RabbitMQ精講1：主流MQ對比，爲什麼選擇RabbitMQ

常見面試問題1：ZooKeeper、Redis、Mysql、JVM、Spring、Dubbo

Kubernetes 控制器：從 Kubernetes 資源控制到開放應用模型、工作原理解讀

RabbitMQ精講5：深入RabbitMQ高級特性-限流、ACK、TTL和死信隊列

如何以非root用戶運行Docker容器

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結