`
javasee
  • 浏览: 922624 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

书评--资料仓储理论与实务

阅读更多

在上一个因特网飙升的年代,1995 年前后,Content is King喊得震天嘎响。当此之时,获得与累积数据、产生信息与整理成知识并不容易,企业间比较的是有没有建置一些标竿系统,以量取胜。

10 年后的今天,因特网热再临,大型系统遍布,数据充斥,要深入分析与善用资料,如 GoogleAmazonWal-Mart 等,才能称王。

由量转质

时至今日,技术、方法与商业模式都营造了大量累积的数据,巨量的信息让人们的注意力变成稀有资源。各中大型企业不再缺乏什么系统,例如 ERPCRMSCMEIP…都已经建置完成,而今需要整合各系统以发挥综效,让有意义的信息与知识适时且直观地呈现。这令数据仓储(Data Warehouse)、商业智慧(Business Intelligence)变成流行的名词[1]。但在台湾若要说清楚意涵与架构方法,却又因为缺乏深入浅出的中文书籍而难有普遍共识。

数据仓储系统其背后代表着多项的技术整合,就笔者的经验,其技术困难点如下:

l 撷取资料:正确地整合各种数据来源,例如 ERP Oracle、网站与制造数据放在 MS SQL Server、各地分公司以 .csv 格式传递相关数据进总公司等等,这些资料都要汇整到数据仓储中,以提供广泛的分析基础。
而数据转换需要经过挑选、清洗、汇总、丰富等过程,并符合弹性、安全、自动化、高效率等基本需求。

l 储存数据:就数据应用面的不同,切割大量数据的存放,规划出操作型数据商店、数据超市与数据仓储等应用。求取数据超市/数据仓储与交易数据库的平衡,毕竟前者以星状模型为设计基础,而后者强调三阶正规化。务求正确、有效地处理超大量数据。

l 分析资料:笔者粗略地将使用者的分析需求分成四类:临时性的查询(ad-hoc query)、静态报表,多维度在线分析、数据采矿预测等。由于我们一般 IT 人员对于生产良率、客户需求、公司营运等分析的敏感度不够,又对多维度分析语言、数据采矿等技术不熟,要掌握分析重点,满足以上四类需求确实不易。

l 呈现分析结果:呈现结果的方式也非一致格式,例如一般使用者日常所需的生产、营运分析、异常警示等静态报表。给分析师与经理使用的动态分析和预测。搭配企业管理理论,如平衡计分卡、6个标准差等,给高阶管理人员检视的仪表板。由于对各种人对计算机操作的熟悉度不同,对信息呈现的要求迥异,很难用一套技术满足所有需求。

l 教育训练、维护与安全:数据仓储与 BI 系统的观念新、牵涉面广、使用人数多,数据博杂。在推广、建置与维护上,需要谨慎考虑。

最后,整体系统设计与实做,还会因日渐高涨的及时性需求(也就是来源的交易数据有修改,在分析报表中可以立刻看到变化),而增加成本与困难度。

在此介绍一本不错的入门书,<personname w:st="on" productid="李卓翰">李卓翰</personname>博士所著:资料仓储理论与实务,学贯营销出版。此书仅介绍数据仓储系统的建置观念,对于整个系统的组成元素,例如:数据转换(Extract Transform Load)、数据库定位(操作型数据商店(Operational Data Store)、数据超市(Data Mart)与数据仓储)、多维在线分析(Multi Dimension Online Analysis Process)、数据采矿(Data Mining)等提供清楚的定义说明。

全书并未辅之以软硬件产品介绍,纯粹的概念剖析,让人容易理解整个商业智能系统架构的环节。在建置庞大的数据仓储流程时,脑海中先有完整的架构图。

可惜本书中未以专章探讨前端呈现分析结果之应用程序特征,就笔者所接触的分析系统建置,这是很让人头大的一环。分析的结果要直观清楚,还要让使用者容易深入、联想、整合与引用分析结果。这种界面往往对 IT 技术人员而言,是另一个领域的艺术

另一方面,使用者又往往要求分析报表的呈现须依循老系统的样式。但新技术的特点与旧系统大不相同,勉强为之,不但发挥不出新平台的优点,还让开发者用牛刀杀鸡,满头大汗地呈现支离破碎的结果。

企业文化与商业智慧导入

任何信息系统的成功,产品与技术虽很重要,但真正关键因素却在成员素质与企业文化。数据仓储系统不若交易系统可以明显地看到投资报酬率,因此更需要上位者眼光宏观,并能够察纳雅言,不停地吸收新知。而中阶经理人要能务实地订定阶段、步骤与方法,确实执行。

同时,分析系统的团队成员须加入对领域知识(Domain Know-how)熟悉之人才,而不是找当下没事做的人。部分公司对分析系统的态度还是以有比较好(nice to have)”的心态在建置,因此加入的人往往不是该领域知识的菁英,而是较空闲的人。

分析的需求往往是由上而下,且需要横向的数据整合才能建立广泛而深入的系统。团队成员要有高阶经理人加入,整合往往引发政治与资源的角力,因此更需要上位者的远见与支持。

本书在第 1-4 常见对数据仓储系统的误解,以及第十三章常碰到的非技术性问题,表列了数据仓储系统失败的潜在因素,或许在你规划系统时,可以先考虑此类企业政治与文化的因素,而非单纯的技术问题。

就企业文化而言,若重视产品定位、市场营销,以服务客户为宗旨,时时改善现况,强调研发创新,要求决策质量。则人人在精益求精的过程中,将会发现手边可供参考的信息不足,因而企盼正确有效的知识随手可得。随着信息化的普及与精进,整合与分析的需求将会越来越殷切。

数据仓储建置是持续的流程

一般建置信息系统时,其模式固定,目标明确,技术单一,大家较有经验规划软件生命周期的进度。而数据仓储的建置并非如此,参照前文所列的困难,如汇整数据的来源多样,累绩、运算的需求各异,数据量大而驳杂,呈现分析的方式需直观方便,整体系统还需时时依照营运重点更改分析模型

为了提供妥适的分析以因应公司营运的各种需求,数据仓储系统需具备动态增减数据来源、分析模式、呈现方式的能力,因而在数据仓储系统雏型建立完毕后,后续上线维护时,依然会需要技术人员参与投入。

普遍而言,我们各产业的 IT 部门对于数据仓储尚处在摸索阶段。因此,公司需要愿意引入新观念、技术与产品,投资教育训练,培养人才,始能够让分析系统落地生根,开花结果。

阅读建议

本书些许目录与页眉章节名称的编排有误,第十四章的数据仓储建置实例稍嫌简化,怕会误导读者考虑不周。但瑕不掩瑜,就想要了解何谓数据仓储与商业智能的管理阶层和 IT 技术人员而言,仍是一本不错的入门书。书中的概念介绍可以让你在选择技术,购买产品时有所依循,且在系统分析设计时,有重点轮廓。

在阅读本书时,除了照作者所拟定的章节顺序外,以及先熟悉第一章的概论外,依笔者个人的经验,若想了解数据仓储系统主要组成元素,或按软件产品分类,可先阅读第二章的数据仓储、第七章的数据转换、第九章的在线分析、第十一章的数据采矿与第十二章的工具。作者未专章强调的前端使用者接口,但它们依然是需要实体采购建置的,或许你可以比较参照市面上的相关产品,以补充书中的不足。

而第三章的技术团队、第四章的项目步骤、第五章的需求分析是一般项目开发与管理的范畴,你还需要佐以软件工程的进一步理论。而第六章的数据模式、第八章的中继资料与第十三章的非技术问题则是商业智能系统较其它系统需要深思的部份。

相关阅读

本书在附录 E 与附录 F 已详列了衍生阅读与研究的相关图书和网站。由于本书未谈论实做的产品技术,笔者就微软 SQL Server 2005 在此方面的相关资源稍做介绍:

l SQL Server 2005 资料采矿圣经 尹相志着 学贯营销出版。尹顾问有多年数据仓储与数据采矿的经验,也是在台湾最先导入 SQL Server 2005 资料仓储的人。在本书中,有详细解释 SQL Server 2005 所提供的数据采矿模型之原理与使用方式。

l MSDN Forum( http://forums.microsoft.com/MSDN/default.aspx?ForumGroupID=19&SiteID=1)此讨论区内分门别类地提供 SQL Server 各项问题的解答或许你疑问可以透过关键词在此找到答案。

l DB World 网站(http://www.dbworld.com.tw):在该网站上,有许多关于 SQL Server 2005 数据库管理、开发以及数据转换工具 SSIS 的文章。

结论

商业智能系统的最终目标是整合全公司、上下游供应链,乃至于各种市场分析的资料,让每个人各取所需,不同层级的员工在做决策时,参考不同面向的数据。但不管是经费或效益评估,皆不可能一开始就以全面整合为目标,因此架构工程师需要能看到主架构的远景,订立系统进程,分阶段引入不同的团队、数据、产品与技术。主事者在不同阶段都能够提供具说服力的投资报酬率,分析系统才得以成长茁壮。



[1] 商业智能涵盖的面向较资料仓储为大,毕竟公司营运所依凭的,不仅是格式化存放的数据。但笔者在本文所介绍的书籍着重在数据仓储,因此文中皆以数据仓储泛指大量数据为基础的分析系统。

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics