B站基于Apache DolphinScheduler的一站式大数据集群管理平台（BMR）初窥

最新推荐文章于 2024-11-02 15:18:27 发布

egzosn

最新推荐文章于 2024-11-02 15:18:27 发布

阅读量803 apache 大数据

本文链接：https://blog.csdn.net/cnzzs/article/details/141004712

一、背景

大数据服务是数据平台建设的基座，随着B站业务的快速发展，其大数据的规模和复杂度也突飞猛进，技术的追求也同样不会有止境。

B站一站式大数据集群管理平台(BMR)，在千呼万唤中孕育而生。本文简单介绍BMR的由来、面临的主要矛盾以及如何在变化中求得生存与发展。

下图是截至2024年6月初，统计到B站大数据的服务规模：

B站基于Apache DolphinScheduler的一站式大数据集群管理平台(BMR)初窥_大数据

大数据所需承载的业务种类愈加繁多，为更好地满足业务场景的诉求，同时提升稳定性要求，我们大数据集群管理平台的建设，经历了以下主要几个阶段：

阶段一(求生存)

聚焦系统环境标准化、服务配置标准化，清扫野蛮成长过程中非标生产留下的债务(层出不穷的奇怪问题)。
快速和花样地迭代姿势，满足业务高速发展诉求。将各服务的安装包、配置纳入版本管理，服务状态有效透出，完成状态管理和分享。同时打通在线业务的门禁管理，快速迭代过程中不失稳定性考量。

(标准化工作嵌入迭代发布、配置发布、灰度发布中，同时支持常用的新增节点、快速部署、节点上下线等能力。管理上支持机器分组、打标、自定义流程、异构配置管理等)

阶段二(追温饱)

建设元仓，打通服务间数据互通，实现问题的快速诊断。
场景化建设，如：机房迁移所需的大批量、持续性项目，故障自愈能力等。
提升覆盖面，边缘场景或非高频变更场景。如：Yarn队列管理、Lable变更、主从切换、HDFS数据迁移、HMS元数据管理等。

阶段三(奔小康)

拥抱云原生，拓展容器化管理能力。更好利用在业务内和业务间的资源，实现降本增效。服务混部、潮汐退避火力全开，追求更高的利用率的同时降低IT成本支出。
建设容量管理，完善服务的异常预警、风险预测、故障自愈，进一步完善集群自动化运维体系，进一步追赶业务对大数据赋能的预期。

阶段四(共富裕)

强化可观测能力，数据更接近业务视角，自上而下清晰对齐、指引方向。
化被动为主动，从异常监控到故障自愈，再从故障自愈走向故障预测。
极致追求服务质量，度量服务质量、死磕服务质量。

二、面临的挑战

接下来，我将在大数据平台化过程中遇到的典型问题和解决思路分享如下。

2.1、节点一致性问题

在元数据未闭环联动的情况下，一致性无法得到保障。B站的大数据集群当前仍以物理机为主，正在逐步容器化的阶段。大数据服务组件繁多，叠加多版本、混合部署、部分容器化等诸多因素，让元数据一致性的保障工作更加复杂。在完全平台之前，还存在脚本甚至人工操作，状态的变更无法有效闭环。节点遗漏和信息错误的情况时有发生，轻则服务器未有效利用，重则集群服务存在多个版本，留下稳定性隐患甚至直接影响业务生产。

不断完善覆盖面和使用场景的同时，一些重要的且短时间未实现数据闭环的场景，BMR在‘智能运维’模块的‘巡检’能力，去兜底去发现未知原因产生的脏数据或不一致的问题，让风险尽早被发现、被干预、被解决。

2.2、标准规范的制定和实施

集群标准，需要结合历史和当前情况来制定，并非设计而来。且实施过程，需要考虑兼容、迁移的能力和资源、实施周期等因素。过程中要根据集群支持的业务特点、环境、版本进行划分，如：实时集群、离线集群(2.8版本和3.2版本)等，线上存在多个生产集群。在前期组件服务的部署规范和配置文件的标准化不足，存在同一集群内同一组件在不同节点部署环境都存在差异情况。在平衡标准化和差异化的过程中，‘小步快跑’地进行标准化的制定、试运行、修正、公示，技术项的标准最终固化到平台功能中。

2.3、规模化的管理

当“量变引发质变”和“不必过度设计”遇到“业务飞速发展”时，及时调整管理策略满足业务发展需求，极具挑战。

大数据玩的就是数据，硬盘少不了。当前我们的大数据集群磁盘数量在十万量级。每天磁盘正常故障超10块， BMR在‘智能运维’模块集成了‘硬盘故障自愈’的能力，打通各个平台的数据和流程，实现业务无感式的换盘。还有操作系统层面的内核管理与升级，在面临节点数量多、需要无感/无故障的管理，都会对平台提出更高的要求。

而且在机房资源紧张的情况下，会涉及集群迁移甚至机房迁移的工作。如何不停机实现迁移，BMR上也都做了适配。