序二

序二

去国离家十四载后,2009年,当我再次从IBM多伦多实验室归来凝视上海这座不夜城时,不由地感慨世界真的变小了、变平了,中国作为地球村的一员,正以惊人的速度发展变化着,而我的工作也一样在发展变化着。从加拿大回国后于2010年正式加入IBM中国软件开发实验室,由之前的DB2数据管理工作,转而开始从事数据治理(Data Governance)方面的工作。

过去的十年是企业的IT系统数据量高速膨胀的时期,“大数据”时代已悄然来临:每天,遍布世界各个角落的传感器、移动设备、在线交易和社交网络生成上百万兆字节的数据;每个月,人类发布 10 亿条 Twitter 信息和300 亿条 Facebook 信息。据统计,全球 90% 的数据都是在过去两年中生成的。

“大数据”时代必然会产生新的“大数据”问题。哪些数据是可信的?哪些数据需要进行清洗?如何从海量数据中获得业务洞察力,从而指导商业决策?如何确保新录入的信息不会产生冗余?如何以可复用的方式发布可信任的信息?如何使如此庞大的数据真正变成对企业有价值的信息?这些海量的、分散在不同角落的数据带来了资源利用的复杂和管理的困难等问题。

以上所述各种问题,最终的解决办法就是要靠数据治理。(在很多时候我们用一个更为精确的概念——信息治理)数据治理是专注于将数据作为企业的商业资产进行应用和管理的一套管理机制。良好的数据治理能够消除数据的不一致性,提高组织数据质量,建立规范的数据应用标准,实现数据广泛共享,并能够将数据作为企业的宝贵资产应用于业务、管理、战略决策中,发挥数据资产的最大商业价值。

这几年,数据治理在国内的研究和应用都取得了一定进展,但是也面临观念上和实践上的双重挑战。从观念上看,国内很多人认为数据治理只是IT部门的责任,只把数据治理当成软件,并未真正意识到业务、数据和软件之间的关系,也就不能从整体上将数据作为企业资产来看待。从实践上看,很多企业做了数据质量检查,做了数据归档,做了数据安全,但缺乏一个完整的体系来将各个部分串联起来,也就是说,缺乏将这些领域组织起来的方法论。

为了帮助企业更好地管理数据资产,应用大数据时代信息治理的挑战,IBM 推出了全新的信息管理和业务分析产品,并提供技术资源,致力于为企业及机构提供大数据分析、信息整合、主数据管理等数据治理解决方案。以下都是基于IBM数据治理方案的优秀软件。

IBM InfoSphere BigInsights是IBM大数据平台的核心产品之一,它是一款以Hadoop为基础的、对海量数据进行存储、管理和分析的企业级平台。可以在 30 分钟内安装完毕并投入运行,可用来管理企业各种数据,比如大量来自社交网络、移动设备和传感器等不同来源的非结构化数据,并对这些数据进行深度挖掘和分析。

IBM InfoSphere Information Server 系列软件支持将大数据作为来源和目标进行整合,并凭借其成熟可靠的性能和并行引擎,提供大数据所需的强大可扩展性,包括元数据管理、数据清洗、数据质量治理及分析、数据自动化分析、数据抽取转换加载、数据集成、监控与报告等一整套软件组成的企业级信息平台。通过它可分析、清洗和整合异构源中的数据信息,并且把经过分析、清理后的可信任信息以可复用的方式提供给用户,同时也对新录入的信息进行实时的数据清洗操作,保证新录入信息的正确性。

IBM InfoSphere Master Data Management软件,其最核心的任务是导出企业的关键业务数据,也是绝对真实的数据。主数据管理旨在从企业的多个业务系统中整合最核心的需要共享的数据,集中进行数据清洗,并以服务的方式把统一、完整、准确的主数据分发给企业内的操作型应用和分析型应用,包括业务系统、业务流程和决策支持系统等。使用户更深入地理解生产链条上的各个要素——客户、产品、供应商、员工等之间的关系,为进一步分析和决策做重要支撑。

IBM InfoSphere Stream 是IBM大数据平台中专门针对快速产生的如流水般不间断的海量数据流的处理平台。它是一个支持开发和部署的应用程序平台。能够持续快速地分析实时产生的各种各样的海量流数据。具有低延迟、实时响应、跨多个数据流进行分析的特点,尤其适用于对响应时间有较高要求的应用,例如欺诈检测、网络管理,能很好地解决企业处理数据量大、存储成本高的问题。通过直接对数据进行分析,无须存储,从而实现对有价值数据进行深入分析的可能。能够在大规模的集群环境中并行、高性能地处理流数据,并具有近似于线性的可扩展性,是帮助企业处理实时化的海量流数据分析的好帮手。

谈了不少数据治理,那么它和DB2数据管理有什么不同?我想分享一下我的观点。如果说从事数据质量管理、主数据管理等数据治理工作的人是数据巨轮的船长,他们平时的工作就是站在舰桥上,穿着带金色肩章的白制服,用双筒望远镜了望远方以把握方向,那么从事DB2相关工作的DBA就是在轮机舱工作的船员,船长和船员双方共同为数据巨轮的稳定运行发挥重要作用。但是,在实际工作中,我经常发现这样的事情:当舰桥上传来船长焦急的指令,命令DBA加快数据流动的速度时,DBA由于缺乏驾驭DB2的优化技巧,只能回答说,“DB2引擎遇到性能瓶颈了,船长!”。虽然船长的指令很及时,但遇到这样的船员,数据巨轮恐怕也运转不佳了。

DB2船员的实际水平制约了船长对数据巨轮的驾驭能力。本书就是一本供DB2船员行驶的实战手册,希望广大船员能真正理解和掌握书中讲述的DB2设计与性能优化艺术,当收到船长要求加速数据流动的命令时,可以让DB2引擎运行得更好,这样数据巨轮就能畅通无阻得行驶下去。

IBM中国开发中心信息管理产品开发部
洪桦 资深主管经理
2013年6月8日

目录

  • 序一
  • 序二
  • 序三
  • 序四
  • 前言
  • 第 1 章 性能优化方法学
  • 第 2 章 实战案例研究与分享
  • 第 3 章 高质量物理设计
  • 第 4 章 经典逻辑设计
  • 第 5 章 高级逻辑设计
  • 第 6 章 系统监控
  • 第 7 章 配置参数与运维工具优化
  • 第 8 章 锁和日志优化
  • 第 9 章 SQL语句优化实战
  • 第 10 章 DB2数据仓库设计与优化
  • 第 11 章 DB2 pureScale集群数据库
  • 后记 信念的奇迹
  • 缩略语
  • 参考文献