浅谈数据仓库和数据挖掘本质

2024-05-20

1. 浅谈数据仓库和数据挖掘本质

   数据仓库和数据挖掘是两个比较大的概念 在国外已经非常成熟 在国内随着前几年企业数据的累计 ERP的成熟 数据仓库和数据挖掘开始起步 
    如何建立数据仓库和数据挖掘是个不断值得探讨和优化的问题 不仅仅在技术上 在商业应用上也是如此 随着新的技术和观念的不断引入 传统的数据仓库技术方法有了很大的改变 基于数据仓库的应用也有了新的发展 每个企业的数据仓库根据企业特点不同 可以采用非常灵活的选型方法进行选型设计 实施 本文根据一些比较新的技术特点 谈谈数据仓库和数据挖掘的架构 
    从成熟的数据仓库架构入手来看 建立EDW(Enterprise Data Warehouse)是个比较好的选择 EDW是企业数据仓库 对整个企业数据有一个完整的不冗余的保留关键历史变化信息的唯一视图 基于EDW可以建立不同主题的数据集市Data Mart 数据集市不同的企业有不同的要求 基本上可以分用户主题 业务流主题 产品主题等等 在EDW的基础上可以有非常多的主题应用 如何建立EDW是个比较重要的问题 
    建立EDW的关键是要把握数据仓库的本质 提供关键历史变化信息 可以真实还原企业数据的关键历史视图 也就是现在提到比较多的DSS层 在DSS层之下有ODS层做当前数据视图 有缓冲层做增量数据视图 利用增量数据视图和DSS层数据视图结合起来 利用缓慢变化维或者代理键技术 从理论上就可以实现DSS层的任何数据历史变化 但是在实际实施DSS层时候 一个能提供高性能计算的数据库和选择一个切合业务发展的增量时间频率是两个关键点 
    缓慢变化维从具体实施过程的可以维护性出发 比较统一通用的方法可以采用增加快照开始时间和快照结束时间 结合业务系统的主键 就可以完成DSS层真实企业数据关键历史快照视图 在实施过程中关键要把握增量数据缓冲层中三种集合数据 纯粹新增的数据A 关键历史信息发生变化的数据B 关键历史信息没有发生变化的数据C 对集合A B都需要增加快照记录 对集合C则采用更新快照记录 这个过程的重点是高性能计算和商业需求 
   
    在DSS层之上 根据EDW方案种数据库不同 可以采用建立数据集市 数据集市基本上可以采用星型模型建立 便于多维分析 
    成熟EDW是用来支持商业应用的 EDW之上的一个比较重要的应用是数据挖掘 从EDW海量数据中寻找有用的信息 支持企业的发展 这里不具体到数据挖掘厂商 从一般性的概念上理解更加重要 数据挖掘需要EDW能够基于DSS层的企业数据关键历史视图 重新组合成商业上决策因素集合 结合数据挖掘的一些成熟的算法 把EDW里面的海量数据处理成为信息决策源 在实施数据挖掘过程中 需要注意的是一定要根据企业本身的业务来制定模型 任何脱离企业业务的理论模型在具体实施过程中失败的可能性很大 
    谈完了数据仓库和数据挖掘的本质 那么目前可以值得选择的一些厂商和技术是什么呢?
    随着商业智能 数据仓库的成熟 进入这个领域的厂商越来越多 评测也是各有千秋 在EDW方面 根据数据仓库的容量 计算复杂度 实时性要求 在低端可以考虑微软的SQL Sserver 目前SQL Sserver 在商业智能上有显著增强 在中端可以考虑Oracle 的DW 解决方案 Sybase IQ在数据量不是非常大的时候性能还是不错的 如果要做超大型的DW 那么需要考虑一些高端专业的DW解决方案 目前TERADATA和IBM的Share Nothing架构的高端数据仓库在海量数据处理 复杂商业计算 实时数据处理方面扩展性比较好 但是投入非常大 
  lishixinzhi/Article/program/SQL/201311/16368 
   

浅谈数据仓库和数据挖掘本质

2. 浅谈数据挖掘与数据仓库

浅谈数据挖掘与数据仓库
1数据挖掘
    1.1数据挖掘与传统数据分析的区别
   数据挖掘与传统的数据分析,如查询、报表、联机应用分析的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越出乎意料就可能越有价值。而传统的数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件。因此数据挖掘与传统分析方法有很大的不同。
    1.2数据挖掘的应用价值
    (1)分类:首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。(2)估计:与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类是确定数目的,估计是不确定的。(3)聚类:是对记录分组。聚类和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。中国移动采用先进的数据挖掘工具马克威分析系统,对用户wap上网的行为进行聚类分析,通过客户分群,进行精确营销。(4)关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。与关联不同,序列是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。(5)预测:通过分类或估值得出模型,该模型用于对未知变量的预言。(6)偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。除此之外,在客户分析,运筹和企业资源的优化,异常检测,企业分析模型的管理的方面都有广泛使用价值。
   2数据仓库
    2.1数据仓库的特征
    (1)面向主题(Subject Oriented)的数据集合。数据仓库围绕一些主题如顾客、供应商、产品和销售来组织。数据仓库关注决策者的数据建模与分析,而不是组织机构的日常操作和事务处理。(2)集成(Integrated)的数据集合。数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。(3)时变(Time Variant)的数据集合。数据存储从历史的角度提供信息。数据仓库中的数据通常包含历史信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。(4)非易失(Nonvolatile)的数据集合。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,修改和删除操作很少,通常只需要定期的加载、刷新。数据仓库里的数据通常只需要两种操作:初始化载入和数据访问,因此其数据相对稳定,极少或根本不更新。[page]    2.2数据仓库的类型
   数据仓库的类型根据数据仓库所管理的数据类型和它们所解决的企业问题范围,一般可将数据仓库分为下列3种类型:企业数据仓库(EDW)、操作型数据库(ODS)和数据集市(Data Marts)。①企业数据仓库为通用数据仓库,它既含有大量详细的数据,也含有大量累赘的或聚集的数据,这些数据具有不易改变性和面向历史性。此种数据仓库被用来进行涵盖多种企业领域上的战略或战术上的决策。②操作型数据库既可以被用来针对工作数据做决策支持,又可用做将数据加载到数据仓库时的过渡区域。与EDW相比,ODS是面向主题和面向综合的,易变的,仅含有目前的、详细的数据,不含有累计的、历史性的数据。③数据集市是为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据。几组数据集市可以组成一个EDW。
    2.3数据仓库与传统数据库的比较
    二者的联系既有联系又有区别。数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。二者的区别可以从以下几个方面进行比较:
    (1)出发点不同:数据库是面向事务的设计;数据仓库是面向主题设计的。(2)存储的数据不同:数据库一般存储在线交易数据;数据仓库存储的一般是历史数据。(3)设计规则不同:数据库设计是尽量避免冗余,一般采用符合范式的规则来设计;数据仓库在设计是有意引入冗余,采用反范式的方式来设计。(4)提供的功能不同:数据库是为捕获数据而设计,数据仓库是为分析数据而设计。(5)基本元素不同:数据库的基本元素是事实表,数据仓库的基本元素是维度表。(6)容量不同:数据库在基本容量上要比数据仓库小的多。(7)服务对象不同:数据库是为了高效的事务处理而设计的,服务对象为企业业务处理方面的工作人员;数据仓库是为了分析数据进行决策而设计的,服务对象为企业高层决策人员。
   3数据仓库与数据挖掘的关系
    当然为了数据挖掘你也不必非得建立一个数据仓库,数据仓库不是必需的。建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程,可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘,你可以把一个或几个事务数据库导到一个只读的数据库中,就把它当作数据集市,然后在他上面进行数据挖掘。

3. 数据挖掘和数据仓库的关系?

若将Data
Warehousing(数据仓库)比喻作矿坑,数据挖掘就是深入矿坑采矿的工作。毕竟数据挖掘不是一种无中生有的魔术,也不是点石成金的炼金术,若没有够丰富完整的数据,是很难期待数据挖掘能挖掘出什么有意义的信息的。
要将庞大的数据转换成为有用的信息,必须先有效率地收集信息。随着科技的进步,功能完善的数据库系统就成了最好的收集数据的工具。数据仓库,简单地说,就是搜集来自其它系统的有用数据,存放在一整合的储存区内。所以其实就是一个经过处理整合,且容量特别大的关系型数据库,用以储存决策支持系统(Design
Support
System)所需的数据,供决策支持或数据分析使用。从信息技术的角度来看,数据仓库的目标是在组织中,在正确的时间,将正确的数据交给正确的人。
许多人对于Data
Warehousing和数据挖掘时常混淆,不知如何分辨。其实,数据仓库是数据库技术的一个新主题,利用计算机系统帮助我们操作、计算和思考,让作业方式改变,决策方式也跟着改变。
数据仓库本身是一个非常大的数据库,它储存着由组织作业数据库
中整合而来的数据,特别是指事务处理系统OLTP(On-Line
Transactional
Processing)所得来的数据。将这些整合过的数据置放于数据昂哭中,而公司的决策者则利用这些数据作决策;但是,这个转换及整合数据的过程,是建立一个数据仓库最大的挑战。因为将作业中的数据转换成有用的的策略性信息是整个数据仓库的重点。综上所述,数据仓库应该具有这些数据:整合性数据(integrated
data)、详细和汇总性的数据(detailed
andsummarized
data)、历史数据、解释数据的数据。从数据仓库挖掘出对决策有用的信息与知识,是建立数据仓库与使用数据挖掘的最大目的,两者的本质与过程是两回事。换句话说,数据仓库应先行建立完成,数据挖掘才能有效率的进行,因为数据仓库本身所含数据是干净(不会有错误的数据参杂其中)、完备,且经过整合的。因此两者关系或许可解读为数据挖掘是从巨大数据仓库中找出有用信息的一种过程与技术。

数据挖掘和数据仓库的关系?

4. 数据挖掘与数据仓库的联系与区别

数据仓库与数据挖掘的联系
(1) 数据仓库为数据挖掘提供了更好的、更广泛的数据源。
(2) 数据仓库为数据挖掘提供了新的支持平台。
(3) 数据仓库为更好地使用数据挖掘这个工具提供了方便。
(4) 数据挖掘为数据仓库提供了更好的决策支持。
(5) 数据挖掘对数据仓库的数据组织提出了更高的要求。
(6) 数据挖掘还为数据仓库提供了广泛的技术支持。

数据仓库与数据挖掘的差别
(1) 数据仓库是一种数据存储和数据组织技术, 提供数据源。
(2) 数据挖掘是一种数据分析技术, 可针对数据仓库中的数据进行分析。

5. 什么是数据仓库和数据挖掘?

数据仓库
,英文名称为
Data
Warehouse
,可简写为
DW
。数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。
数据挖掘
(
Data
Mining
),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘的广义观点:数据挖掘就是从存放在数据库,数据仓库或其他信息库中的大量的数据中“挖掘”有趣知识的过程。数据挖掘,又称为
数据库中知识发现
(
Knowledge
Discovery
in
Database,
KDD
),
也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤

什么是数据仓库和数据挖掘?

6. 数据仓库和数据挖掘的介绍

《数据仓库和数据挖掘》在论述数据仓库和数据挖掘技术基本概念的基础上,系统和深入地剖析了数据仓库的模型,以数据仓库为应用平台的联机分析处理(OLAP)技术,以证券行业为对象的数据仓库的开发实例,数据库挖掘、文本挖掘、Web挖掘、数据挖掘软件,以及数据挖掘的应用,尤其在竞争情报系统和客户关系管理中的应用。

7. 数据仓库与数据挖掘的介绍

《数据仓库与数据挖掘》主要介绍数据仓库和数据挖掘技术的基本原理和应用方法,全书共分为12章,主要内容包括数据仓库的概念和体系结构、数据仓库的数据存储和处理、数据仓库系统的设计与开发、关联规则、数据分类、数据聚类、贝叶斯网络、粗糙集、神经网络、遗传算法、统计分析、文本和Web挖掘。

数据仓库与数据挖掘的介绍

8. 数据仓库主要解决哪些问题

数据仓库主要解决哪些问题
企业信息化建设过程中,为了提高日常的工作效率以及提高本企业的市场适应能力,大部分企业会根据市场、客户和企业本身建立不同的业务系统来满足需求。但此系统往往因为市场需求、设计理念、建设时间、平台选择等因素的不一致性而导致系统间相互独立、信息分散等特点,从而形成信息孤岛,为了解决上述问题,企业就需要一种行之有效的技术进行信息整合,通过集成不同的系统信息为企业提供统一的决策分析平台,帮助企业解决实际的业务问题(如:如何提高客户满意度和忠诚度,降低成本、提高利润,合理分配资源,有效进行全面绩效管理等)。人们往往会采用数据仓库技术实现。
   使用数据仓库有3个方面的好处:
    (1)数据仓库能够为业务部门提供准确、及时的的报表。虽然给业务系统也能够提供报表功能,但由于业务处理系统是为实现某个业务功能开发的,业务处理系统中的报表只能提供局部的信息,无法提供关于企业整体的信息,使管理人员有“只见树木,不见森林”的感觉。另外业务系统中的报表相对是比较固定的,对于业务人员临时提出来的一些分析要求,必须经过软件人员大量艰苦的开发工作才能实现,业务人员往往感觉报表功能不能满足管理上的要求。而在数据仓库中提供的灵活的报表工具,可以很方便地增加新的报表,适应业务的变化。
    (2)数据仓库可以赋予管理人员更强大的分析能力。联机分析处理(OLAP)是数据仓库中经常采用的一种分析手段。OLAP技术使得用户能够方便地从多个角度对信息进行分析,使业务人员可以了解更多的信息。例如,对于业务收入指标,我们可以了解到每个产品是通过哪些渠道销售出去的,销售给哪些类型的客户,我们不仅可以看到某个区域总的销售收入,而且可以看到在该区域中每个城市、每个商店的销售情况,直到查看到具体的一笔销售合同。OLAP分析的另一个好处是它采用业务名词而不是技术术语对事物进行描述,因此业务人员可以清晰地了解数据对象的含义,并且无需依赖技术人员,就可以自主地进行业务分析。
    (3)数据仓库是进行数据挖掘、知识发现的基础。利用数据挖掘技术,我们可以发现数据中存在的模式和规律,例如可以了解到不容的用户群体具有什么样的消费行为,对于价格的敏感度如何。利用这些知识,可以帮助企业对未来的变化趋势进行预测,制定更加准确的市场策略,实现交叉销售/向上销售的目标。由于数据仓库已经实现了企业数据的整合,提供了反映企业全局的、一致的信息,因此,在数据仓库的基础上进行数据挖掘,可以使预测分析结果更加准确、更完整。
    随着云计算、大数据的不断深入,伴之而来的是海量的数据,那么如何更好的从这些数据中提取有用的信息呢?那数据仓库就发挥了他巨大的潜力。