当前位置：首页 > 抖音教程 > 抖音资讯 > 本文内容

数据仓库进阶之路

发布时间：2022-09-21 08:50:02源自：https://www.it-th.com作者：it谈话网阅读(577)

本文主要围绕架构、分层、建模三个方面，进一步加深对数仓的了解。

从整体上来看，数据仓库体系架构可分为：数据采集层、数据计算层、数据服务层和数据应用层，如下图。

数据采集层的任务就是把数据从各种数据源中采集和存储到数据库上，期间有可能会做一些 ETL（即抽取、转换、装载）操作。

其中，日志所占份额最大，存储在备份服务器上的业务数据库中，如 Mysql 中的数据。其他数据的话，如 Excel 等需要手工录入的数据。

实时采集不是一条一条采集，而是根据一些限制条件，一般是数据大小限制（如 512KB 写一批）、时间阈值限制（如 30 秒写一批）。

采集的数据需要数据采集系统分发给下游，一般选取 Flume、Sqoop 等。

从数据采集系统出来的数据，分发给下游的数据处理平台，一般有 Hive、MapReduce、Spark Streaming、Storm 以及新兴的 Flink 等，阿里巴巴内部使用的是 StreamCompute。

数据服务层，通过接口服务化方式对外提供数据服务，以保证更好的性能和体验。针对不同的需求和数据应用场景，数据服务层的数据源架构在不同的数据库上，如 Mysql、HBase、MongoDB 等。实时的存储且需要支持高并发的话，就选择 HBase。

数据服务层可以使应用对底层数据存储透明，将海量数据方便高效地开放给各业务使用。

数据已经准备好，需要通过合适的应用提供给用户，让数据最大化地发挥价值。数据应用表现在各个方面，如报表展示、数据分析、数据挖掘、数据可视化等。

2.1 为啥要分层？

作为一名数据产品经理，笔者肯定希望自己的数据能够有秩序地流转，数据的整个生命周期能够清晰明确地被设计者和使用者感知到。但是，随着业务的发展，频繁迭代和跨部门的业务变得越来越多。这就容易导致数据仓库出现如下问题：

，如：开发规范、指标口径不统一。

，如：字段数据不完整和不准确等。

，导致数据研发人员开发成本增加。

，数据流向混乱。

。

因此，笔者需要一套行之有效的方法来让自己的数据仓库更有秩序，这就需要对数据进行分层，如下图。

2.2 数据分层设计

按照数据操作的流程，笔者将数据模型分为三层：数据操作层（ODS）、数据仓库层（DW）和数据应用层（APP），如下图。简单来讲，ODS 层存放的是接入的原始数据，DW 层存放的是数据仓库中的数据，APP 层存放的是面向业务定制的应用数据。

数据操作层又叫数据运营层，英文：Opertional Data Source。数据操作层是最接近数据源中数据的一层，数据源中的数据，经过 ETL（即抽取、转换、装载），装入本层。本层中的数据，大多是按照源业务系统的分类方式而分类的。

由于该层是最接近数据源的，所以不建议对该层数据做过多的数据清洗工作，原封不动地接入原始数据就行，至于数据的去噪、去重、去异常值等操作可以放在后面的 DWD 层来做。

数据仓库层，英文：Data Warehouse，是笔者在设计数据仓库时要核心设计的一层。在这里，从 ODS 层获得的数据按照主题建立各种的数据模型。DW 层又要细分为 DWD（Data Warehouse Detail）层、DWM（Data Warehouse Middle）层和 DWS（Data Warehouse Service）层，如下图。

数据明细层，英文：Data Warehouse Detail，该层和 ODS 层一般保持一样的数据粒度，并且提供一定的数据质量保证。同时，为了提高数据明细层的易用性，该层会采用一些维度退化的方法，将维度退化至事实表，减少事实表和维表的关联。

另外，在该层也会做一部分的数据聚合，将相同主题的数据汇集到一张表中，提高数据的可用性。

数据中间层，英文：Data Warehouse Middle，该层会在 DWD 层的数据基础上，对数据做轻度的聚合，生成一系列的中间表，提升公共指标的复用性，减少重复加工。直观来讲，就是对通用的核心维度进行聚合操作，算出相应的统计指标。

数据服务层又叫数据集市或宽表，英文：Data Warehouse Service。按照业务划分，如流量、订单、用户等，生成字段比较多的宽表，用于提供后续的业务查询、OLAP 分析、数据分发等。

一般来讲，该层的数据表会相对比较少，一张表会涵盖比较多的业务内容，由于其字段较多，因此一般也会称为该层的表为。

在实际计算中，如果直接从 DWD 或者 ODS 计算出宽表的统计指标，会存在计算量太大并且维度太少的问题，因此一般的做法是，在 DWM 层先计算出多个小的中间表，然后再拼接成一张 DWS 的宽表。由于宽和窄的界限不易界定，也可以去掉 DWM 这一层，只留 DWS 层，将所有的数据放在 DWS 亦可。

数据应用层，英文：Application，该层主要提供给数据产品和数据分析使用的数据。该层的数据一般会存放在 Redis、PostgreSql 等共线上系统使用的系统，也可能会存放在 Hive、Druid 中供数据分析和数据挖掘使用，比如报表数据就可以存放在 Hive 中。

维度层，英文：Dimension。建立一致数据分析维表，可以降低数据计算口径和算法不统一风险。以维度作为建模驱动，基于每个维度的业务含义，通过定义维度及维度主键，添加维度属性、关联维度等定义计算逻辑和雪花模型，完成属性定义的过程并建立一致的数据分析维表。同时笔者可以定义维度主子关系，子维度的属性将合并至主维度使用，进一步保证维度的一致性和便捷使用性。

维度层包含两个部分：

（1）高基数维度数据：一般是用户资料表、商品资料表类似的资料表，数据量可以上千万甚至上亿。

（2）低基数维度数据：一般是配置表，比如枚举值对应的中文含义，或者日期维度表，数据量大概在几千到几万之间。