一、 数据湖是什么?
数据湖(Data Lake)是Pentaho公司CTO James Dixon提出来的一种数据存储理念—即在系统或存储库中以自然格式存储数据的方法。数据湖作为一个集中的存储库,可以在其中存储任意规模的结构化和非结构化数据。在数据湖中,可以存储不需要对其进行结构化的数据,这样就可以运行不同类型的分析。下面的定义是维基百科所给出的“数据湖”定义。
数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象Blob或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。
数据湖能够帮助企业实现数据的集中式管理等多种能力;数据湖融合了先进的数据科学、机器学习和人工智能技术,帮助企业构建更加优化的数据运营模型,为企业提供预测分析、推荐模型等能力,这些模型能够刺激企业能力的持续增长,不断赋能于企业增长。数据湖能从以下方面帮助到企业:
- 实现数据治理;
- 通过应用机器学习与人工智能技术实现商业智能;
- 预测分析和模型推荐,例如:领域特定的推荐引擎 ;
- 信息追踪与一致性保障;
- 基于历史数据分析生成新的数据维度,挖掘数据深度价值;
- 提供集中式存储的企业数据中心,并提供基于数据传输优化的数据服务;
- 协助企业实现灵活的增长决策。
二、数据中台又是什么?
数据中台通过对企业内外部多源异构的数据采集、治理、建模、分析和应用,使数据对内优化管理提高业务价值,对外进行数据合作让业务价值得到释放,使之成为企业数据资产管理中枢。数据中台建立后,会形成数据API服务,为企业和客户提供高效各种数据服务。
数据中台对一个企业的数字化转型和可持续发展起着至关重要的作用。数据中台为解耦而生,企业建设数据中台的最大意义就是应用与数据之间的解藕,这样企业就可以不受限制地按需构建满足业务需求的数据应用。
- 构建了开放、灵活、可扩展的企业级统一数据管理和分析平台,将企业内、外部数据随需关联,打破了数据的系统界限。
- 利用大数据智能分析、数据可视化等技术,实现了数据共享、日常报表自动生成、快速和智能分析,满足企业各级部门之间的数据分析应用需求。
- 深度挖掘数据价值,助力企业数字化转型落地。实现了数据的目录、模型、标准、认责、安全、可视化、共享等管理,实现数据集中存储、处理、分类与管理,建立大数据分析工具库、算法服务库,实现报表生成自动化、数据分析敏捷化、数据挖掘可视化,实现数据质量评估、落地管理流程。
三、数据湖与数据中台的区别
数据湖与数据中台的区别主要体现在以下三个方面:数据来源、建设目标、数据应用的差异
3.1 数据来源
数据湖包含原始系统所产生的原始数据拷贝以及为了各类任务而产生的转换数据,包括来自于关系型数据库中的结构化数据、半结构化数据、非结构化数据和二进制数据。
数据中台是一套体系,既不是工具又不是存储,它可以包含数据湖和数据仓库。
3.2 建设目标
数据湖能实现数据的集中式管理,为企业提供全局的、统一的企业级数据概览视图,让人人了解、分析数据,提供自助式探索数据的可能。
数据中台主张打通全域数据孤岛,消除数据标准和口径不一致的问题,释放业务方数据应用价值。
3.3 数据应用
数据湖能结合不同的工具做数据处理和分析,不止于输出报表,也同样适合数据探索和发现,能够为企业挖掘新的运营需求。
数据中台通过将数据服务化之后提供给业务系统,在数据应用上不仅限于分析型场景,也适用于交易类场景,比如营销推荐、风险评估等。
总体来说,数据中台是加速企业从数据到业务价值的过程的中间层,可以建立在数据仓库和数据湖之上。
至于企业处于什么阶段建数据仓库、什么阶段建数据湖、什么阶段建数据中台,还得看企业现阶段的具体情况,比如数据量、数据分析维度及要求、数据应用场景、预算等等,总之只有把工具和需求匹配起来,才能真正解决企业业务诉求。