当业务高速发展,面临性能和存储的瓶颈时,才会考虑分片设计,此时就不可避免的需要考虑历史数据迁移的问题。一般做法是先读出历史数据,然后按指定的分片规则再将数据写入到各个分片节点中。此外还需要根据当前的数据量和QPS,以及业务发展的速度,进行容量规划,推算出大概需要多少分片(一般建议单个分片上的单表数据量不超过1000W)
如果采用数值范围分片,只需要添加节点就可以进行扩容了,不需要对分片数据迁移。如果采用的是数值取模分片,则考虑后期的扩容问题就相对比较麻烦。
下面讲述一下什么时候需要考虑做数据切分。
并不是所有表都需要进行切分,主要还是看数据的增长速度。切分后会在某种程度上提升业务的复杂度,数据库除了承载数据的存储和查询外,协助业务更好的实现需求也是其重要工作之一。
不到万不得已不用轻易使用分库分表这个大招,避免"过度设计"和"过早优化"。分库分表之前,不要为分而分,先尽力去做力所能及的事情,例如:升级硬件、升级网络、读写分离、索引优化等等。当数据量达到单表的瓶颈时候,再考虑分库分表。
这里说的运维,指:
1)对数据库备份,如果单表太大,备份时需要大量的磁盘IO和网络IO。例如1T的数据,网络传输占50MB时候,需要20000秒才能传输完毕,整个过程的风险都是比较高的
2)对一个很大的表进行DDL修改时,MySQL会锁住全表,这个时间会很长,这段时间业务不能访问此表,影响很大。如果使用pt-online-schema-change,使用过程中会创建触发器和影子表,也需要很长的时间。在此操作过程中,都算为风险时间。将数据表拆分,总量减少,有助于降低这个风险。
3)大表会经常访问与更新,就更有可能出现锁等待。将数据切分,用空间换时间,变相降低访问压力
举个例子,假如项目一开始设计的用户表如下:
id bigint #用户的ID name varchar #用户的名字 last_login_time datetime #最近登录时间 personal_info text #私人信息 ..... #其他信息字段
在项目初始阶段,这种设计是满足简单的业务需求的,也方便快速迭代开发。而当业务快速发展时,用户量从10w激增到10亿,用户非常的活跃,每次登录会更新 last_login_name 字段,使得 user 表被不断update,压力很大。而其他字段:id, name, personal_info 是不变的或很少更新的,此时在业务角度,就要将 last_login_time 拆分出去,新建一个 user_time 表。
personal_info 属性是更新和查询频率较低的,并且text字段占据了太多的空间。这时候,就要对此垂直拆分出 user_ext 表了。
随着业务的快速发展,单表中的数据量会持续增长,当性能接近瓶颈时,就需要考虑水平切分,做分库分表了。此时一定要选择合适的切分规则,提前预估好数据容量
鸡蛋不要放在一个篮子里。在业务层面上垂直切分,将不相关的业务的数据库分隔,因为每个业务的数据量、访问量都不同,不能因为一个业务把数据库搞挂而牵连到其他业务。利用水平切分,当一个数据库出现问题时,不会影响到100%的用户,每个库只承担业务的一部分数据,这样整体的可用性就能提高。
用户中心是一个非常常见的业务,主要提供用户注册、登录、查询/修改等功能,其核心表为:
User(uid, login_name, passwd, sex, age, nickname) uid为用户ID, 主键 login_name, passwd, sex, age, nickname, 用户属性
任何脱离业务的架构设计都是耍流氓
,在进行分库分表前,需要对业务场景需求进行梳理:
用户侧:前台访问,访问量较大,需要保证高可用和高一致性。主要有两类需求:
运营侧:后台访问,支持运营需求,按照年龄、性别、登陆时间、注册时间等进行分页的查询。是内部系统,访问量较低,对可用性、一致性的要求不高。
当数据量越来越大时,需要对数据库进行水平切分,上文描述的切分方法有"根据数值范围"和"根据数值取模"。
"根据数值范围":以主键uid为划分依据,按uid的范围将数据水平切分到多个数据库上。例如:user-db1存储uid范围为0~1000w的数据,user-db2存储uid范围为1000w~2000wuid数据。
优点是:扩容简单,如果容量不够,只要增加新db即可。
不足是:请求量不均匀,一般新注册的用户活跃度会比较高,所以新的user-db2会比user-db1负载高,导致服务器利用率不平衡
"根据数值取模":也是以主键uid为划分依据,按uid取模的值将数据水平切分到多个数据库上。例如:user-db1存储uid取模得1的数据,user-db2存储uid取模得0的uid数据。
优点是:数据量和请求量分布均均匀
不足是:扩容麻烦,当容量不够时,新增加db,需要rehash。需要考虑对数据进行平滑的迁移。
水平切分后,对于按uid查询的需求能很好的满足,可以直接路由到具体数据库。而按非uid的查询,例如login_name,就不知道具体该访问哪个库了,此时需要遍历所有库,性能会降低很多。
对于用户侧,可以采用"建立非uid属性到uid的映射关系"的方案;对于运营侧,可以采用"前台与后台分离"的方案。
1)映射关系
例如:login_name不能直接定位到数据库,可以建立login_name→uid的映射关系
,用索引表或缓存来存储。当访问login_name时,先通过映射表查询出login_name对应的uid,再通过uid定位到具体的库。
映射表只有两列,可以承载很多数据,当数据量过大时,也可以对映射表再做水平切分。这类kv格式的索引结构,可以很好的使用cache来优化查询性能,而且映射关系不会频繁变更,缓存命中率会很高。
2)基因法
分库基因:假如通过uid分库,分为8个库,采用uid%8的方式进行路由,此时是由uid的最后3bit来决定这行User数据具体落到哪个库上,那么这3bit可以看为分库基因。
上面的映射关系的方法需要额外存储映射表,按非uid字段查询时,还需要多一次数据库或cache的访问。如果想要消除多余的存储和查询,可以通过f函数取login_name的基因作为uid的分库基因。生成uid时,参考上文所述的分布式唯一ID生成方案,再加上最后3位bit值=f(login_name)。当查询login_name时,只需计算f(login_name)%8的值,就可以定位到具体的库。不过这样需要提前做好容量规划,预估未来几年的数据量需要分多少库,要预留一定bit的分库基因。
对于用户侧,主要需求是以单行查询为主,需要建立login_name/phone/email到uid的映射关系,可以解决这些字段的查询问题。
而对于运营侧,很多批量分页且条件多样的查询,这类查询计算量大,返回数据量大,对数据库的性能消耗较高。此时,如果和用户侧公用同一批服务或数据库,可能因为后台的少量请求,占用大量数据库资源,而导致用户侧访问性能降低或超时。
这类业务最好采用"前台与后台分离"的方案,运营侧后台业务抽取独立的service和db,解决和前台业务系统的耦合。由于运营侧对可用性、一致性的要求不高,可以不访问实时库,而是通过binlog异步同步数据到运营库进行访问。在数据量很大的情况下,还可以使用ES搜索引擎或Hive来满足后台复杂的查询方式。
站在巨人的肩膀上能省力很多,目前分库分表已经有一些较为成熟的开源解决方案:
数据库分布式架构扫盲——分库分表(及银行核心系统适用性思考)
文章来源:https://www.cnblogs.com/butterfly100/p/9034281.html
原文:https://www.cnblogs.com/kerwincui/p/9360715.html
怀化网站优化收费标准金华正规seo优化的网站巩义百度网站优化哪里不错网站优化岗位说明网站优化上首页靠谱吗网站优化公司平台360网站排名优化软件seo优化和网站有什么不同徐汇区网站搜索引擎优化名优网站关键词优化网站优化怎样增加外部链接公司现有网站怎么优化海南网站优化技巧忻州网站目标关键词优化网站优化营销策略台州网站优化简历大连网站关键字优化惠州网站优化方法网站优化为什么要seo外包网站怎么优化就连火1星惠辉县网站搜索引擎优化甘肃营销网站优化方案朔州网站排名优化开封市网站seo优化排名优化招生网站的重要性网站百度优化推广好不好企业推广网站排名优化seo网站优化的7个方法优化网站排名结构江门网站维护优化南宁网站优化首页湖北教育网站优化广州网站优化系统兴平网站排名优化北京网站优化合作网站怎么优化设计荣成市网站优化钢城区网站seo优化排名沙头网站建设网站优化专业网站seo优化案例网站优化标题有哪些网站优化的五个细节网站建设优化可信火24星到南阳搜狗seo网站优化技巧网站排名优化体验易速达天猫网站的优化建议总结北仑网站优化多长时间网站优化营销难点梁溪区智能化网站设计优化价格seo商务网站优化企业网站怎么做优化推广武威专业的网站优化网站只做优化郑州百度seo网站优化系统企业公司网站优化岳阳网站seo优化息烽网站优化价格整站seo优化网站制作微山济宁seo优化网站青浦区百度网站优化价格企业网站排名优化牢记易速达猎流网站优化链接怎么弄大沥网站优化技巧网站搜索优化告辞云速捷专业深圳最好用的网站优化排名沈阳网站设计优化有什么方法肇庆门窗网站seo优化单页网站如何做seo优化优化网站都有哪些方面福千欣隆网站优化如何优化网站一招易速达桥东区网站优化推广广西南宁网站优化商洛网站优化平台菏泽有实力的网站优化与推广福州市福州网站优化哪家好哪有网站优化东莞网站优化价格云浮品牌网站优化项城优化网站排名网站图片优化方案南城电子网站制作优化廊坊出名的网站优化福田搜索引擎网站优化费用多少石首关键词网站优化网站怎么优化诚信火24星到株洲网站优化外包推荐江门网站优化指导温州网站优化简历乳山网站优化建设广州优化公司网站做竞价的网站有利于优化吗网站优化网站关键词设置武汉网站优化体验网站seo优化专员要求宁阳网站优化价格玉林网站优化公司网站优化接单在哪里网站排名优化治云速捷豪杰无锡网站优化哪家快古田县企业网站优化郁南seo网站优化宜宾网站优化排名商城网站建设优化武汉择优化工有限公司英文网站成都知名网站优化广宁专题页网站优化百度优化网站什么时候发布坊子区淄博网站优化广西网站优化流程b2b商铺优化和独立网站焦作网站优化有哪些优化网站交流群网站优化的100个方法权重优化网站东港网站优化快照澳门网站优化建设丰都网站优化seo推广服务泉州网站优化推荐陕西网站优化机构登封网站优化价格网站快速优化顶火16星高尚怎样进行网络推广网站代码优化口碑好的句容网站优化优化网站方法 site焦作清镇网站优化如何搭建网站链接优化优化网站放心火26星至求网站建设网站优化工作盐城盐都企业网站优化苏州网站优化网站台儿庄网站优化靠谱海口网站搜索引擎优化泗县网站排名优化公司焦作整站网站推广优化外贸型网站优化找哪家绵阳网站seo优化乐至网站排名优化服务长春关键词长春网站设计优化安阳靠谱网站优化公司网站怎么优化定胜云速捷专业网站域名优化to金手指5如何把网站优化互联网推广奇缦科技珠海网站建设优化深圳门户网站优化经验天津百度快照网站优化优化线网站点侯马网站优化服务浙江优化网站排名哪家公司好企业网站优化信息亳州网站排名优化找哪家网站内链优化有哪些宝鸡网站优化关键词优化龙华网站优化报价怎样优化网站选金手指18新乡seo网站优化排名优化网站的方法正经易速达罗湖好的网站优化及营销方案延庆网站优化企业曲阜网站优化哪家专业花都网站关键词优化阜新企业网站优化服务餐饮行业网站优化宣传太原网站优化哪家强优化网站需要什么工作网站快速优化完善火2星优秀衡阳网站优化有哪些公司石首网站的优化博客网站优化方案怎么写免费网站关键词优化 s网站制作优化ey灬云速捷解密网站落地页优化阳江公司网站关键词优化新乡网站优化排名新密网站权重优化唐山搜索网站优化优化排名网站34云卩速卩捷正规的网站优化电话婚纱摄影网站怎样优化深圳软件网站优化方式有哪些免费的网站优化工具很好的seo网站优化蓬莱营销型网站优化宜宾湖南网站优化推广可靠的广州网站优化兴化网站优化建设企业有利于网站优化的词语2018 网站优化安阳网站优化电话tag 网站优化甘南网站优化推广公司有哪些大连seo网站排名优化软件网站数据收录优化安顺网站优化排名济宁济南网站内优化公司郴州口碑好的网站建设优化产品网站怎么优化衡水公司优化网站通过新闻优化网站乐至手机网站优化费用