系统背景
为了更好地管理和分析车辆上传的数据,建立基于hawq的数据仓库系统。
系统架构
系统架构说明:
系统设计的目的是将零散的各个事业部不同数据进行合理的整合、清洗、统一加工,将零散的工作归一化,提升工作效率和数据产出效率。
- 数据源:当前主要的数据来源是各个事业部上传的车辆数据
- 数据加工/etl:统一字典信息,对异常数据进行统一的清洗过滤
- 数据整合存储层:数仓核心层,仓库内部存在多个数据层次,通过对数据一层一层的处理,达到将数据合并到统一的查询视图的效果。更多细节请参考架构内部简图。
- bi应用层:基于数仓的数据分析、数据报表可视化等应用
- 数据访问层:根据不同业务,建立不同的分析方法,提供数据。
架构内部简图
在内部简图中可见,我们将数据仓库存储结构分为三个层次:ext、rds、tds
- ext:外部数据源模块,外部数据的统一入口,可以是hive外部表,数据通过pxf插件进入hawq系统。
- rds:经过初步整合的数据缓冲区,相对ext层次数据而言,rds层数据已经进行了清洗和规整。
- tds:在rds的基础上对数据进行深度层次的加工,按照贴合业务的各种维度模型建立,在此层次上可以针对不同维度对数据进行深度挖掘分析。