在前文阐述了银行数据仓库的系统架构之后,本文将带大家深入探讨不可或缺的数据架构。一个没有数据架构的系统,无疑是空谈。
一、数据架构概述数据架构在狭义上特指数据分布,而在广义上则包含了数据模型、数据标准及数据治理等多个层面。其涵盖了诸如元数据、业务对象数据模型、主数据、共享数据等静态组件,以及数据流转、ETL、整合、访问应用和数据全生命周期管控治理等动态元素。数据架构通过数据分类、分层部署等方式确保数据合理布局,并通过整体架构管控设计,支撑业务操作类和管理分析类应用,适应业务发展与IT转型下的数据需求,进而提升数据分析应用的时效性、灵活性和精确性。
二、银行数据架构体系的差异化构建现实中,各家银行的数据架构体系因其业务发展规模、客户与交易数据量、功能需求等因素存在差异,发展路径和发展方向亦各有特点。通常而言,全国性银行如国有银行、股份制银行因业务复杂、数据量大,故其数据架构进化速度相对较快。以下简要介绍常见数据架构的关键分区:
1、数据采集层数据缓冲区承担着将原始数据从源系统加载至数据仓库的任务,作为数据仓库工作的起始点,缓冲区内数据仅保留7-10天用于解决可能出现的数据问题。此外,应尽可能直接获取源系统未经加工的数据,实现一次性抽取并多次复用。标准化处理如编码统一转换、异常字符清理等工作也是这一阶段的重要环节。数据采集不仅限于数据仓库场景,还可应用于全行范围内的批量数据传输和交换,因此应在全行系统层面上制定相应的规范。
2、存储计算层(1) 主数据区:
主数据区存储所有的结构化基础明细数据及历史数据,其他结构化数据均由此加工衍生。主数据区通常包括近源模型层和整合模型层两部分。实践中可根据实际情况选择其中一个或两者并存。两个区域的数据均采用历史拉链或历史流水方式保留历史记录,并依据数据标准进行字段属性标准化。它们的区别在于:
近源模型区:保持与源系统类似的表结构设计,增设标准化字段和保存历史数据所需的时间戳字段,特点是保留源系统所有信息,但在建模和运行效率较高时,数据整合程度较低,可能无法直接服务于数据分析与加工需求。
整合模型区:按照主题进行数据整合,采用第三范式的表设计方案,模型稳定,数据冗余较少。即便源系统表结构发生改变,只要实体间的关系和属性保持不变,整合模型就可以基本保持稳定。这种稳定性可以有效屏蔽源系统的变化,避免下游应用系统的重复改造。
(2) 指标汇总区:
由于主数据区的数据不适宜直接供数据分析系统使用,因此需在此区域整合各类数据应用的加工需求,设计事实表(宽表)和维度表模型,并基于主数据区数据进行关联和公共指标加工,从而满足多个数据应用的使用需求。指标汇总区可根据协议(账户)、产品、客户、科目、机构等逐级汇总,消弭各系统对同一指标单独加工造成的口径差异。
文章内容来源于网络,不代表本站立场,若侵犯到您的权益,可联系多特删除。(联系邮箱:[email protected])
近期热点