提交 ff977499 作者: 张鹏

数据流程整理

上级 1e4a96b5
......@@ -192,13 +192,39 @@ Kappa数据架构的核心在于实时计算和批处理过程使用同一套代
![image](./pics/中台架构能力说明.jpg)
上图比较详细的规划了中台架构的层次和构件:
- 大数据保障体系
>数仓建设过程中需要完备的体系说明和操作规范
- 前台业务
>大前端企业数据收集应用,如各类业务系统。
- 数据仓库
- 数据模型
>面向业务需求的数据说明,以明细和汇总的形式存储
- 数据计算
>统一计算过程能够保障不同业务系统数据的一致性,降低研发成本
- 数据服务
>基于数据模型和统一计算过程得到的面向数据应用的统一数据服务接口层
- 数据应用
>面向数据分析的前台应用,该类应用的用户群体通常为企业决策层。
### 4.1 大数据保障体系
大数据保障体系主要从两个角度来说:
- 数仓建模规范体系
- 保障数仓系统正常运行的运维和研发体系
- 数仓建模规范体系
#### 4.1.1 数仓系统运维和研发体系
大数据研发体系是一套依赖业务研发,又独立于业务研发的生态体系。无论是对团队自身,还是对提供数据的业务研发团队,要求都更高。相较于业务研发团队,大数据研发团队对自身的要求,主要围绕业务流程和数据规范来展开。多数情况下,出于对数据规格的要求,还会对业务研发团队提出一系列的有关数据规格和业务流程方面的需求。
#### 4.1.1 数仓建模规范体系
大数据体系建设是一个相对复杂的系统工程,涉及到数据集成,数据开发,数据质量管理,数据服务,数据管理,数据运维,数据安全等多个方面的工作。这些模块相互依存、环环相扣,同时对研发人员的技术要求也水涨船高,需要服务端工程师、大数据平台工程师、BI工程师、分析师、各种方向的算法工程师、前端工程师等来参与整个系统的建设。
具体的数据流程如下图所示:
![大数据研发视角下的数据流程](./pics/数据流程.jpg)
#### 4.1.2 数仓建模规范体系
数仓建模,所指不仅是指数据从一端到另一端的操作过程,更应遵循一套完整的规范体系。以期解决数据流转过程中的痛点:
......@@ -214,7 +240,7 @@ Kappa数据架构的核心在于实时计算和批处理过程使用同一套代
- 成立数据研发部门,物理隔离业务开发人员和大数据操作环境
>避免各个研发团队直接使用HBase,ES等技术组件,从源头上避免数据孤岛的产生
- 建立数据研发团队管理制度
>工作有日志,遇到问题能找到日志和对应的负责人
>工作有计划和日志,遇到问题能找到日志和对应的负责人
- 建立数据操作规范,维护统一计算口径
- 登记[统一计算过程](#34-%e7%bb%9f%e4%b8%80%e8%ae%a1%e7%ae%97%e8%bf%87%e7%a8%8b),复用数据计算过程
......@@ -224,11 +250,8 @@ Kappa数据架构的核心在于实时计算和批处理过程使用同一套代
>正如康威定律的核心思想:”组织形式等同系统设计“。作为架构设计者,我们不希望存在复杂而需求易变的系统,因此我们选择接收这种易变性,寄希望于降低系统建设的复杂度。阿里提出的大中台和小前台,虽然是个不错的选择,但更应注意的是,组织是需要管理的,管理就意味着额外的成本。
#### 4.1.2 数仓系统运维和研发体系
### 4.2 数据项目研发流程
### 4.2 数据项目研发流程(<font color="red">[见图4.1.1](#411-%e6%95%b0%e4%bb%93%e7%b3%bb%e7%bb%9f%e8%bf%90%e7%bb%b4%e5%92%8c%e7%a0%94%e5%8f%91%e4%bd%93%e7%b3%bb)这里和4.1.1重复了,需要重新安排文档结构</font>)
数据项目研发流程涵盖[整体架构设计](#4-%e6%95%b4%e4%bd%93%e6%9e%b6%e6%9e%84%e8%ae%be%e8%ae%a1)中的各个方面。
......
Markdown 格式
0%
您添加了 0 到此讨论。请谨慎行事。
请先完成此评论的编辑!
注册 或者 后发表评论