1.数据采集层
客户端日志采集方案:Web日志采集技术方案和APP端日志采集技术方案。在采集技术基础之上,不同的业务场景会有与之相适应的埋点规范,来满足通用的浏览、点击、特殊交互、APP事件、H5 APP里的H5 Native日志数据打通等多种业务场景。高性能的数据传输:既包括数据库的增量数据传输,也包括日志数据的传输;既支持实时流式计算,也支持各种时间窗口的批量计算。同步中心:同步工具DataX,直连异构数据库(备库)来抽取各种时间窗口(每天、每小时)的数据。
2.数据计算层
为了发挥出大数据的价值并最终赋能于商业和创造商业价值,必须对海量数据进行整合和计算,并从中洞察商业规律、挖掘出潜在信息。为此,从采集系统中收集到的大量原始数据,将进入数据计算层中被进一步整合与计算。这就需要一套数据存储及计算平台、数据整合及管理体系。
数据计算层:数据存储及计算云平台(离线计算平台MaxCompute和实时计算StreamCompute);数据整合及管理体系(被称之为“OneData”)。MaxCompute离线大数据平台提供强大的存储和计算引擎;StreamCompute实时计算平台能够较好地支持流式处理需求。
在OneData体系下,构建统一、规范、可共享的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不一致性,充分发挥大数据海量、多样性方面的独特优势。借助这一统一化数据整合及管理的方法体系,构建了数据公共层,并可以帮助相似的大数据项目快速落地实现。
从数据计算频率的角度,数据仓库分为离线数据仓库和实时数据仓库。离线数据仓库主要是指传统的数据仓库概念,数据计算频率主要以天(包含小时、周和月)为单位 ;比如通常在任务调度平台,每天凌晨处理上一天的数据。但是随着业务的发展特别是交易过程的缩短,用户对数据产出的实时性要求逐渐提高,逐渐有了实时数据仓库的应用需求和场景(比如双十一大屏)。
数据仓库的数据加工链路遵循业界分层理念,包括操作数据层(Operational Data Store, ODS、明细数据层(Data Warehouse Detail , DWD)、汇总数据层(Data Warehouse Summary, DWS )和应用数据层(Application Data Store, ADS)。通过数据仓库不同层次之间的加工过程实现从【数据资产】向【信息资产】的转化,并且对整个过程进行【有效的】【元数据管理】及【数据质量处理】。
元数据模型整合及应用:
数据源元数据、数据仓库元数据、数据链路元数据、工具类元数据、数据质量类元数据等。
元数据应用主要面向数据发现、数据管理等,如用于存储、计算和成本管理等。
3.数据服务层
数据服务层,通过接口服务化方式对外提供数据服务,以保证更好的性能和用户体验。针对不同的需求和数据应用场景,数据服务层的数据源架构在多种数据库之上,如MySQL、HBase等【RDS、表格存储( TableStore )】。
数据服务可以使应用对底层数据存储透明,将海量数据方便高效地开放给集团内部各应用使用。现在,数据服务每天拥有几十亿的数据调用量,如何在性能、稳定性、扩展性等方面更好地服务于用户:如何满足应用各种复杂的数据服务需求:如何保证“双 11 ”媒体大屏数据服务接口的高可用……随着业务的发展,需求越来越复杂,因此数据服务也在不断地进化。
数据服务层对外提供数据服务主要是通过统一的数据服务平台(方便阅读,简称为“OneService ”)。One Service 以数据仓库整合计算好的数据作为数据源,对外通过接口的方式提供数据服务,主要提供简单数据查询服务、复杂数据查询服务(承接集团用户识别、用户画像等复杂数据查询服务)和实时数据推送服务等特色数据服务。
4. 数据应用层
数据已经准备好,需要通过合适的应用提供给用户,让数据最大化地发挥价值。数据应用表现在各个方面,如搜索、推荐、广告、金融、信用、保险、文娱、物流等。商家 ,集团内部的搜索、推荐、广告、金融等平台 ,集团内部的运营和管理人员等,都是数据应用方;ISV研究机构和社会组织等也可以利用开放的数据能力和技术。
两类:对内数据平台和服务于商家的对外数据产品,还有其他数据应用。对内数据平台产品主要有实时数据监控、自助式的数据网站或产品构建的数据小站、宏观决策分析支撑平台、对象分析工具、行业数据分析门户、流量分析平台等。