数据湖(data lake):风险还是误解?


 作为全球最具权威的IT研究与顾问咨询公司,Gartner不久之前发布的一些关于数据湖(data lake)的言论引发广泛关注,Gartner方面提示我们数据湖概念正在被误解,厂商们把握大数据机遇,积极生成数据湖的行为正面临风险。然而,马上就有业内专业人士批评Garner误导了数据湖概念,数据湖是一项有风险的新技术,然而为了进步而冒一些风险也是值得的。下面就是Gartner对于“数据湖”的观点,以及(Andrew C. Oliver)的博客文章。
 
【Gartner:“数据湖”的误区与风险】
      Gartner认为,最近围绕着“数据湖”(Data Lake)这个概念的炒作不断升温,正在导致信息管理领域的重大混乱。很多厂商都生成数据湖是抓住大数据机遇的一个重要组成部分,但是厂商们却对是什么构成了数据湖、或者如何从中获得价值没有达成一致。
 
用“数据湖”到底要做什么?
      Gartner研究总监Nick Heudecker表示:“从广义上讲,数据湖被市场营销为一个用于分析各种来源、原始格式的数据的企业数据管理平台。其想法很简单:你将数据以原始格式迁移到数据湖中,而不是放置在专用的数据存储中。这就避免了接收数据的前端成本。一旦数据被放进数据湖中,企业中的所有人都可以使用这些数据进行分析。”
但是,尽管市场炒作表明,整个企业中每个人都将充分利用数据湖,但是这个定位的前提假设是所有这些人都是在数据处理和分析方面具有高超的能力,因为数据湖缺乏语义一致性和对元数据的治理。
      Gartner副总裁及著名分析师Andrew White表示:“对于提高数据分析灵活性和可访问性的需求,是数据湖的主要推动力。数据湖可以为企业机构的不同组织提供价值,这一点是千真万确的,但是企业数据管理的定位还没有最终实现。”
 
数据湖能否真正连接信息?
      数据湖的重点是保存不同的数据,却忽略了如何使用数据以及为什么要使用数据、监管数据、定义数据和确保数据安全。数据湖概念希望解决一老一新两个问题。老问题是,信息孤岛。你可以将不同来源都集中到一个未经管理的数据湖中,而不是保持数十种独立管理的数据集合。从理论上讲,整合的结果是加强信息利用和共享,同时降低服务器和许可成本。而新问题,则是涉及到大数据举措。大数据项目要求大量各种信息。这些信息如此不同,以至于我们不知道这些信息究竟是什么,以及什么时候收到的,就把它归类到某种类似数据仓库的结构化数据,或者关系型数据库管理系统以便未来使用。
      “用数据湖来解决这两个问题无疑在短期内是有利于IT的,因为IT不再需要花费时间去了解如何使用信息——数据只是被倾倒如湖中。不过,从这些数据中获得价值,仍然是企业最终用户的责任。当然,可以运用或者添加相关技术来做到这一点,但是如果没有至少某种信息治理的集合,那么这个数据湖最终将成为多个缺乏相互连接的数据池或者集中在一个地方的多个信息孤岛的集合体。”
 
“数据湖”存在重大风险!
      最重要的一点是无法决定数据质量或者利用其他已经发现价值的分析师或者用户在使用湖中相同数据中的经验发现。从定义上看,数据湖可以接收任何数据,不受监督或管理。没有描述性的元数据,和维护它的机制,数据湖会转变成数据沼泽。如果没有元数据,所有对数据的后续使用都意味着从零开始对数据进行分析。
      另外一个风险是安全性和访问控制。数据可以在不受内容监管的情况下被放到数据湖中。很多数据湖中数据的使用意味着其隐私和法规要求很可能使其暴露于风险之下。数据湖核心技术的安全能力仍然处于早期萌芽阶段。如果交给非IT人员的话,这些问题将不会得到解决。
      最后,性能方面的因素也不容忽视。数据湖相关的工具和数据接口的性能无法与专用存储系统相匹敌,可以针对优化的专用的基础设施。因此,Gartner建议企业机构专注于上游应用和数据存储库的语义一致性和性能,而不是数据湖中的信息整合。
 
       从数据中总是会发现价值的,但你的企业不得不解决的问题是——我们允许甚至是鼓励对各种孤岛或者数据湖中的信息进行一次性、独立的分析吗,或者我们会正式承认这方面的努力,试图维持我们开发的创造价值的技巧吗?如果你的选择是前者,那么很可能数据湖就是具有吸引力的。如果你的决定趋向于后者,那么超越数据湖理念,制定一种更强大的逻辑数据仓库战略就是更有意义的。
 
 
 
【Gartner正在误导“数据湖”概念】
      数据湖策略是数据自由化运动的一部分。这一运动源自印刷机的出现,它的出现逐步让书籍摆脱了修道院的控制。是的,这其中存在着混乱和分裂,但是我们真的希望等着让僧侣决定谁拥有这些手抄书籍吗?
      目前数据自由化运动正在互联网中继续着。的确,很遗憾这一运动让书店的日子倍受煎熬,但是我真的很讨厌在购书时排队等待。诚然,维基百科自身存在着一些问题,但是相比之下,大英百科全书(目前已是光盘版)的素材出错率仅比前者稍微少一点,但是其涵盖领域仅是前者的十分之一。
      如今Gartner已经与那些坐拥大量数据并用昂贵的专利技术囤积它们的数据僧侣沆瀣一气。这或许具有更高的安全性(不要把宝都押在这上面),如果仅有那些受到过良好培训(或是有足够权力)的人能够访问它们,那么解读可能会更为准确( 微信关注网络世界),但也可能会被刻意的歪曲。
      同理,专利软件是更为安全的,因为仅有“专家”有权访问其来源,不是吗?Gartner对数据湖的厂商营销理念以及数据湖这一名称的字面意思进行了批评,这些评论根本就没有基于对数据湖实践案例所进行的分析。当然,你可能会被淹没在数据湖中!但是这正是你创建类似安全程序(如仅允许通过Knox访问)、文档和管控等安全网的原因。
有了数据湖,每次用户希望以之前未被考虑到的方式提取数据或是在不同系统的数据之间建立新关联时,不再需要搞一个大型集成项目。是的,人们可能会犯一些错误并得出一些错误的结论,但是让更多的人能够获取数据显然比寄希望于几个坐拥数据仓库的数据“沙皇”(这些人通常具有技术头脑而非商业头脑)将你从中脱困要强。
      数据湖基于一种新的技术。这是一种新的方法学。当然其中也隐藏着风险,但是没有任何进步是不冒风险的。用户需要理解数据自由化对自己的公司意味着什么,如何更好地利用数据自由化和新工具做更精明的决策;理解新技术和它们的能力。同时不要被分析公司的负面报告所吓住,因为分析公司往往会为5页纸的负面报告配上令人瞠目标题并藉此卖上200美元的好价钱。
 
相关阅读:
高德纳(Gartner)公司是全球最具权威的IT研究与顾问咨询公司,成立于1979年,总部设在美国康涅狄克州斯坦福。公司希望使自己的业务覆盖到IT行业的所有领域,从而让自己成为每一位用户的一站式信息技术服务公司。
Gartner公司是上世纪90年代微软最为中意的分析公司。Gartner近日发布了2013年对众多公司和组织机构具有战略意义的十大技术与趋势。它将战略技术定义为将在未来三年对企业产生重大影响的技术。这些具有重大影响的因素包括使IT或业务中断的高潜在风险、主要投资需求,或是延迟采用的风险。这十项技术和趋势,其中包括战略大数据
 
安德鲁 C.奥利弗是一名兼职的软件顾问。他8岁开始编程,不断积累在GW Basic, BASICA, 和 dBase III+使用方面的经验。他为人们所熟知是创立了由Apache所主持的POI项目。早在JBoss与Red Hat合并之前,他是早期开发商之一。安德鲁 C.奥利弗之前还是Open Source Initiative的委员会成员。他也是Open Software Integrators的主席和创立者,Open Software Integrators是一家提供专业服务的公司,在在北卡罗来纳州达勒姆和芝加哥,伊利诺伊州均设有办事处。