< 返回
bi与搜索技术的融合趋势与技术问题分析(上)

有价值的信息分散在企业的各个角落,这是信息管理领域早已公认的事实,同时也是多年来未被攻克的一个难题。在bi(商业智能)的数据挖掘技术不断演进的同时,隐藏于一个简单web页面之后的企业搜索技术的介入,有望为企业用户提供一条快速、简单且更加理想化的信息访问通道。

在bi世界里,敏捷、准确地制作报表并分析是恒定不变的法则,但是在数据的实时展现和信息获取的易用性方面,bi与用户的实际期望值之间一直存在距离。虽然各大bi厂商都力图把自己的产品打造得更贴近客户需求、界面更友好,但bi报表定制对绝大多数的企业员工而言,依然是一个神秘的领域。企业业务信息的掘取似乎是那些统计学大腕才能胜任的工作。最近几年来,bi厂商一直在寻找让bi应用更加平民化或大众化的方法,但直到bi与企业搜索技术交叠之后,才使用户看到了bi应用下行的最绚丽曙光。

数据随时展现

作为传统bi的用户,一家名为blue cross blue shield的美国保险公司以前只能在一个固定的周期内生成bi报表,这些报表按模板索引,每两周或在每个月分发给固定邮件列表的用户。这种刚性的数据管理所导致的问题是,如何处理那些不在邮件列表中的用户请求?这些用户通过何种途径才能访问相关的报表?

bi与搜索的结合帮助这家公司找到了向更多员工交付bi报表的有效方法。在部署了ibm websphere content discovery之后,通过bi系统与企业级搜索应用的集成,公司成功扩大了bi数据的访问范围。与bi报表定时推送相比,新系统支持员工实时通过一个门户界面检索存储在不同报表中的bi信息,而这种检索通过简单的文本搜索即可实现,不需要编写专业的查询语句。

早期用户已经体验到这种技术融合对业务数据分析能力的提升。一位政府客户就表示,bi与搜索的融合对分布式组织具有极强的吸引力。他指出,“bi+搜索”的解决方案能够让身处不同地域的用户访问不同的独立数据库成为可能,并且平滑升级到bi和文本数据的高级检索。同时用户可以享受到超越以往的数据下钻体验,比如总公司点击地图中的某个省,就可以下钻到省公司的数据库进行分析并定制报表,这种数据展现形式远远超越了传统bi的数据交付。

数据“无来源”获取

“有了搜索技术,用户不必知道信息来自何方”,这是搜索为bi领域带来的革命性改变。具体来说,就是用户在进行bi数据访问时,并不需要了解在企业搜索引擎背后数据收集、数据过滤、报表定位以及报表重建等步骤是怎样运作的。他们所要做的只是熟悉企业搜索引擎的使用方法,了解它和基于web的消费类搜索引擎的细微差异,以及如何使用它的高级搜索选项。

这种“无来源”的数据获取方式使结构化与非结构化数据向“统一信息搜索”的目标大大前进了一步。“作为企业重要的决策支持工具,bi与企业搜索技术的结合符合技术发展的趋势,这样企业不仅能够获得经营汇总信息,发现问题后还可以立即下钻查看合同文档、email记录、相关法律法规等。” sas中国区解决方案经理张天峰说。

回顾bi的技术发展史,传统bi 主要提供结构化信息的搜索。但对于非结构化数据的搜索,一些bi厂商提供的文本挖掘技术覆盖能力有限。在技术的区分方面,结构化数据搜索主要包含数值计算和分析技术,非结构化数据主要围绕关键词、主题词或元数据的搜索,其核心技术仍是结构化查询。企业搜索技术将帮助企业解决非结构化数据检索问题。其关键作用是扩大数据查询和分析的范围,建立结构化与非结构化查询结果的关联关系,有效弥补bi数据挖掘和文本挖掘技术的不足。

“无来源”数据获取的理想化图景是,企业搜索引擎将成为用户访问企业所有信息的统一入口,bi与搜索的集成系统能够屏蔽结构化数据与非结构化数据的差异,无论数据存储在什么位置,系统都能够按照用户在搜索引擎中输入的查询请求交付所需的数据,用户并不需要知道这些数据存储在企业it系统的什么位置。而在现阶段,企业搜索引擎主要关注对html、ppt、pdf等企业文档的检索,对于这些文档导向的数据资源,一些搜索引擎可以做出关于语义或数据的智能化判断。

黏合剂的制造者

前面提到了bi与搜索融合的两大好处,即让bi数据更易于访问,以及整合结构化与非结构化数据。但就目前bi或搜索厂商的实现能力看,bi与搜索的融合仍是一个需要不断充实和完善的理想框架,其中的技术难点我们将在后面展开讨论。但令人振奋的是,在这一技术交互地带,已经聚集了现今最主流的搜索和bi厂商,厂商之间的频繁合作大大增加了两种技术融合的黏性。

google onebox for enterprise(简称google onebox)的推出曾被一些分析家评价为“划时代事件”。这款于2006年4月面世的产品使google的专用搜索设备除文本之外还可以搜索保存在数据库和数据仓库中的结构化数据。google onebox发布后,众多bi厂商旋即展开了针对该产品的集成计划。目前,已经建立其bi产品与google onebox之间链接的厂商包括:cognos、information buliders、甲骨文、sas、海波龙(hyperion)和business objects。

business objects在2006年5月推出了基于google onebox的企业级搜索解决方案,并计划在2007年上半年推出一套对其bi数据进行文本搜索的工具。海波龙在2007年2月推出了hyperion system 9 smart search for google,该产品支持基于hyperion system 9知识库的报表、仪表盘、财务报表的定制,同时能够实现对企业中多种非结构化数据(例如邮件、办公文档、文本文档、pdf文档)的搜索。

在google onebox表现出强劲凝聚力的同时,ibm和微软也相继发布了与此相关的新的产品和特性,同时厂商之间围绕bi与搜索的合作还迅速激发了联动效应。2006年12月,ibm和yahoo共同发布名为yahoo版ibm omnifind的免费企业搜索应用,cognos宣布其cognos 8 go!搜索引擎与omnifind进行链接。fast search and transfer公司将其企业搜索平台与cognos 8 bi解决方案结合,实现向员工直接交付企业内容。2007年1月,information buliders推出webfocus magnify,这是一种索引结构化数据并在搜索结果中提供bi报告的搜索导航工具。另外,x1 technologies的x1企业搜索平台支持对电子邮件、桌面文档等非结构化信息的检索,并且能够与后端搜索建立联邦关系。

融合的高难度

bi与搜索技术融合的构想一经提出,就被寄予了厚望。人们希望这种融合能够解决那些长期悬而未决的问题。以google onebox为代表的企业级搜索产品的成熟更是让bi行业发生了很多改变,但我们也必须正视这一领域所面临的困难。

传统bi所实现的结构化数据搜索无法向用户提供上下文关联信息。比如,用户可以打开一个库存数据库,但是却无法获得数据库之外像货品照片、库存位置地图等关联信息。有专家表示,这样的问题最终会通过元数据搜索的介入而得到解决,就像在数据库领域xml所获得的成功一样。但是在目前,海量的结构化数据与非结构化数据的结合仍是一个难题。

非结构化数据搜索的挑战在于,如何驾驭如此庞大、高容量的文档信息。以一个拥有25000名员工的企业为例,每个员工每个工作日处理70封邮件,那么该企业每年出于法规遵从目的需要存储的邮件数量就达5亿封,还要保证这些邮件是可搜索的。加上其他需要存储和搜索的html、word、excel、ppt文档,搜索指令仿佛“大海捞针”。

作为一位资深bi人,神州数码移动事业部的刘庆认为,bi与搜索的融合不是单纯易用性的改进,需要解决的关键问题包括实施成本、技术标准化等。他表示,在2006年曾经有国内的企业有意尝试企业文档的搜索,但真正把搜索系统与bi系统结合起来的用户很少。“两年之后,我们可能会看到比较成功的案例,而bi与搜索的深度融合可能要在5年以后。”刘庆说。

虽然现有的解决方案已经能够支持企业对bi与搜索系统的同步部署,但刘庆强调,分步实施仍是最佳选择。“实施者需要协调bi和搜索的部署特性,bi项目强调以客户应用为中心,而搜索强调技术标准化,在技术融合过程中需要加以调和。同时还应该考虑好系统集成之后推什么应用,是报表还是数据钻取?对客户而言,现实的做法是先把bi系统做好,这样搜索才有价值。”他说。

真正的融合应该是无缝的,bi与搜索在现阶段的融合表现显然距离这一标准还有很大距离。其中,结构化和非结构化数据搜索怎样自然结合是症结之一。sas的张天峰在bi行业拥有近15年的从业经历。他表示,结构化和非结构化信息的搜索技术是截然不同的,非结构化搜索的技术也有进一步的细分。非结构化数据搜索应该被更加准确地定义为文件检索技术,包含检与索两个方面。检就是文档归类,在这一领域,sas等厂商所提供的文本挖掘(text mining)技术正趋向于成熟;索就是搜索,目前最成熟的是以google为代表的蜘蛛(spider)技术。

“企业实施‘bi+搜索’项目的难点体现在,如何把两种不同的技术自然地‘缝合’起来。开发人员必须熟练掌握这两种技术,目前,同时掌握两种搜索技术的人才并不多。同时,要完整呈现不同层面、种类的关联信息,并做出科学的决策,这需要大量的定制开发工作,在目前的情况下实施难度还很大。这些都决定了bi与搜索结合尚不自然的现状。”张天峰说。