数据价值占企业价值37% 上好数据中心优化必修课

  • 时间:
  • 浏览:1
  • 来源:极速5分快3下注平台_极速5分快3注册平台_极速5分快3官网平台

CNET科技资讯网 1月4日 北京报道 (文/张晓楠):对于一个多 企业来说,企业数据的价值有多大?嘴笨 什么都许多人都意识到企业数据的重要性,因此却我不知道一个多 直观、形象的数量级。而调查显示,信息的价值平均为企业价值的37%,这些数字让亲戚亲戚朋友 不得不承认:信息将会成为企业最重要的资产之一。因此纵观什么都有企业的行为,以下诸多因素却会意味 有有哪些“资产”贬值:比如数据的冗余和重复意味 信息的不可识别、不可信,信息时效性不强,精确度不足英文;内部结构或非内部结构数据使整合有困难;管理层面的人员变动引发的影响;数据标准这麼统一,相关规范不完善造成对数据理解的不充分等等。

CNET科技资讯网记者日前在采访Informatica中国区首席产品顾问但彬先生时,他告诉记者:“Informatica既时需在数据架构层面提供信息传递、B2B数据交换、企业数据集成等一系列的基础架构避免方案,同時 也可为行业提供数据质量管理、主数据管理和简化事件避免等方案,来支撑数据中心实现可信、交互、权威的信息资产管理,达成企业的业务目标,这也是信息中心建设的一个多 重点。”



 

一个深度图考量数据质量但彬表示,数据质量管理在数据中心建设中是一个多 完整性的生态链。数据质量会受到供应商、生产员工、工艺流程以及内部内部结构客户和内部内部结构系统的影响,同時 ,从应用和软件深度图方面讲,数据提供者、软件开发集成、质量管控手段等也完整性都是影响到企业数据质量的整体状况。

从数据质量整体框架和土辦法 论上讲,首不难 选则目标,因此要清楚用有哪些人,通过如何的流程,采用有哪些样的技术支撑来达成目标,人、流程、技术三方面缺一不可。而设定最终目标前最重要的一件事是要了解现状,找出企业最关注有哪些数据质量,通过记分卡对现有数据进行评估,同時 时需进行实时的监控,从流程、时间深度图发现数据的变化。

数据质量理论上完整性都是 完整性可控的,要实现数据质量提升,时需要做到指标的可量化,通过量化指标实现质量可控。从技术层面讲,要从以下一个深度图去考量数据质量,也称为数据质量的矩阵。包括:完备性(信息是是是不是填写全面)、符合性(数据是是是不是按照标准格式进行填写)、一致性(是指内部内部结构冲突,同一系统中一个多 字段间相关推导和约束关系)、准确性(包括数据是是是不是真实有效和数据是是是不是及时更新)、唯一性(多条信息是是是不是相同和一致)以及完整性性(从约束性和参考性方面考虑,数据相互间的参照关系)。当然,企业是要根据买车人的业务需求来选则考量数据质量的指标或体系,无须一定时需局限在这些个方面。

数据质量提升无须一蹴而就

一个多 完整性的数据质量管理,是人、流程和技术的完美配合,曾经不能达到企业数据质量管理的目标。那数据质量避免的流程是如何的呢?但彬告诉记者,对于数据质量的避免,一般把它分成两大要素,一是面向数据质量的分析过程;二是针对分析结果进行增强的过程。

不难 识别和量化数据质量,因此定义数据质量和目标,接下来就要交给相关部门设计质量提升的流程,其后因此实现质量提升的流程,把原有低质量数据变成高质量数据,并交付给业务人员使用。同時 ,在整个环境中,还时需有相关的因此 监控和对比来评估是是是不是达成了目标,决定是是是不是时需进行新一轮的数据质量提升。这是一个多 周而复始、螺旋上升的过程,并完整性都是 一蹴而就,一次就时需避免完整性问题图片。

Informatica四要素构建数据质量管理

通过Informatica构建数据质量管理主要分为四大要素。

首先是Analyze andPrfiling,通过对现有数据的完整性分析、描绘,来选则如何对他进行避免和标准化;第二是StandardiseCleanse,标准化和清洗更容易让计算机识别,比如数据时需通过有哪些样的格式进行限制和约束,进行如何的交验就时需达到数据标准的要求,有有哪些信息时需通过数据质点将会参考数据进行相关的标准化;第三是Match,标准化后该进行相关的数据匹配,避免数据重复性问题图片,并保证数据的唯一性;第四是Consolidate,将重复数据进行合并,最后运用到不同的系统当中。时需注意的是,在整个过程中亲戚亲戚朋友 都时需进行相关的监控。在亲戚亲戚朋友 日常数据中心的建设中,也时需对这几要素进行相关的延展将会精简来完善亲戚亲戚朋友 数据质量管理的过程。

但彬重点介绍了Informatica最具特色的模糊匹配技术。在数据匹配关联中,时需用到不同的匹配关联技术,比如在实现数据的精确快速匹配时,时需先对数据进行预览,查看一个多 数据的可匹配度是哪几个,再进行分析来选则这些匹配是是是不是适用于此种数据的匹配过程。如这麼精确匹配来保证匹配率,则时需采用模糊比对的土辦法 。为此他举了曾经一个多 例子(参见下图),在人名比对中,将会将会拼音简、繁体输入问题图片造成一个多 人的数据信息不一致,王门骞的“骞”,一个多 是简体,一个多 是繁体,这些个多多 字在计算机编码中无须一致,什么都有亲戚亲戚朋友 的名称无须相等,这时就要对他的名字进行模糊匹配打分,通过结果来分辩数据的可信度。比如设定0.8以上的数据为可信,那第二条王门骞因此可信的同一个多 人,而第二条陈东壁被判定完整性都是 同一个多 人。



 

结束英语 语现在,什么都有企业的数据中心,不仅仅因此一个多 最单纯的面向数据仓库的数据存储中心,因此既能支持业务运营,又支持系统分析,还可进行系统间的整合。在数据中心建设中,数据质量时需从数据源端就结束英语 进行治理,治理到业务交互的各个过程。包括PowerCenter、Data Quality、MDM Hub、Informatica 9在内的Informatica的数据质量工具,时需将所有的业务逻辑和规则变成相关的因此 服务,由各个业务前端、各个业务避免过程中,对数据服务进行调用,进行相关的数据校验和数据清洗,这因此Informatica数据质量平台为企业数据中心建设所提供的支持和帮助。