教学工作的资源分享

数据仓库和数据挖掘习题答案资料

职教高考

职教高考

数据仓库和数据挖掘面临的挑战第一章数据仓库的概念和体系结构

1 .面向主题,相对稳定。 2 .技术元数据、业务元数据。 在线分析处理OLAP。 4 .层切面(Slice )、钻孔(如Drill-down和Roll-up )。 5 .基于关系数据库。6 .数据提取、数据存储与管理。7 .双层结构,独立数据集市,依赖数据集市和操作数据仓库,逻辑数据集市和实时数据仓库。8 .可更新的、当前值的。 9 .接近实时。

10 .以报表为主,分析为主,预测模型为主,运营导向为主。 11.a )数据仓库是指反映面向主题(Subject Oriented )、集成(Integrate )、相对稳定(Non-Volatile )、历史性变化(Time Variant )的数据集合数据仓库的特点是: (1)面向主题。 操作型数据库的数据组织是一种面向事务的任务,数据仓库中的数据按特定主题域进行组织,这些数据仓库独立于各个业务系统。 主题是一个抽象的概念,是指用户在使用数据仓库进行决策时关注的重要领域。 一个主题通常与多个操作型业务系统或外部归档数据有关。 )2)集成的。 面向事务的操作型数据库通常与特定的APP应用相关,在数据库之间是独立的,并且往往是异构的。 数据仓库中的数据是在提取、整理原始分布式数据库数据的基础上进行系统加工、汇总、整理得到的,为了保证数据仓库中的信息对于整个企业的业务单位是一致的全局信息,不会消除源数据的不一致性这意味着存储在数据仓库中的数据必须使用一致的命名约定、格式、编码结构和相关特性进行定义。 )3)比较稳定。 操作型数据库中的数据通常实时更新,数据根据需要及时变化。 数据仓库中的数据主要用于企业决策分析,涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库后,通常长期保存为数据文件,很少进行修改和删除操作。 也就是说,对数据仓库通常有大量的查询操作和少量的定期加载(或刷新)操作。 (四)反映历史性变化。 操作库(OLTP )主要关注当前期间的数据,但数据仓库中的数据通常包含旧的历史数据,因此始终包含时间维,以便研究趋势和变化数据仓库系统通常记录从过去的某个时刻(例如数据仓库系统开始生效的时刻)到现在所有期间的信息,可以利用这些信息定量分析和预测单位的发展过程和未来趋势。 12 .答: (1)双层结构。 )2)独立数据集市。 )3)依赖数据集市和操作数据存储库(dependentdatamartandoperationaldatastore )。 )4)逻辑数据集市和实时数据仓库(logicaldatamartandreal-time data warehouse )。13 ) a )数据仓库技术的发展包括数据提取、存储管理、数据表示、方法学等。 在数据提取方面,未来技术发展将集中于系统集成化。 将互连、转换、复制、调度和监视集成到统一的标准化管理中,以适应数据仓库本身或数据源的更改,从而简化系统的管理和维护。 在数据管理方面,未来的发展将使数据库供应商明确发布数据仓库引擎,作为数据仓库服务器产品与数据库服务器协同工作。 在这方面,具有决策支持扩展的并行关系数据库最有发展潜力。 在数据表示中,数理统计的算法和功能一般集成在在线分析产品中,并与互联网/web技术紧密结合。 按行业APP细分的数据仓库用户前端软件是数据仓库解决方案的一部分。 数据仓库实现过程的方法论更加普及,成为数据库设计的明确分支是管理信息系统设计所必须的。

14.a ) )1) IBM公司提供visualwarehouse(VW )、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB和第三方前端数据显示工具)等。 基于可视化数据仓库的商务智能) )解决方案,其中VW不仅可用于数据仓库建模和元数据管理,还可用于数据提取、转换、装载和调度essbase/db2OLAP服务器支持“维”定义和数据加载。 Essbase/db2OLAP服务器是一种混合的rolap和MOLAP (而不是ROLAP(relationalOLAP )服务器) HOLAP服务器,在essbase完成数据装载后,数据将前端的数据显示工具可以选择Business Objects的BO、Lotus的Approach、Cognos的Impromptu或IBM的Query Management Facility; 多维分析工具支持Arbor Software的Essbase和IBM的DB2 OLAP服务器。 统计分析工具采用SAS系统。 )2) Oracle数据仓库解决方案主要包括两部分: Oracle Express和Oracle Discoverer。 Oracle Express由四个工具组成。 Oracle Express Server是一种多维OLAP (多维OLAP )服务器,它利用多维模型来存储和管理多维数据库或多维缓存,并可以同时访问多个关系数据库。 Oracle express Web代理支持通过CGI或Web插件显示基于web的动态多维数据。 Oracle Express Objects前端数据分析工具(目前仅支持Windows平台)提供图形化建模和假设分析功能,支持可视化开发和事件驱动编程技术Oracle Express Analyzer是面向最终用户的常用报告和分析工具。

职教本科

职教本科

Oracle Discoverer即席查询工具专为最终用户设计,分为最终用户版和管理员版。 在Oracle数据仓库解决方案的实现中,摘要数据通常存储在Express多维数据库中,详细数据存储在Oracle关系数据库中。 如果需要详细数据,Express Server会生成SQL语句以访问关系数据库。)3) Microsoft将OLAP功能集成到SQL Server数据库中,该解决方案包括四个部分: BI平台、BI终端工具、BI门户和bi APP应用,如图1.1所示。 BI平台是BI解决方案的基础,包括ETL平台SQL server 2005集成服务(ssis )、数据仓库引擎SQL Server 2005 RDBMS、 多维分析和数据挖掘引擎SQL Server 2005 Analysis Service、报表管理引擎SQL 最终用户与Analysis Service的OLAP服务和数据挖掘服务交互多维数据集和数据挖掘模型最终用户通常可以使用预定义的报告、交互多维分析、即席查询、数据可视化、数据挖掘等多种方法。 BI门户为各种用户访问BI信息提供了统一的门户。 BI门户是数据的聚合目的地,集成了来自各种系统的相关信息。 用户可以创建个性化的个人门户,选择与自己最相关的数据,提高信息访问和使用的效率。 BI APP应用是构建在BI平台、BI最终用户工具、bi集成门户等公共技术手段之上的,能够满足特定业务需求的APP应用,如零售业务分析、企业项目管理组合分析等。第二章数据仓库的数据存储与处理

1 .企业级数据仓库(EDW )。 2 .单一的、详尽的。 3 .首先填充数据仓库。 4 .越高,越低,越多。 5 .提升、预处理、事实表。 6 .自然密钥(Natural Key )、代理密钥(Surrogate Key )。 7 .明星模式。8 .早期细节级、轻度综合级。

9.a )简单地说,数据从企业内或企业外的各个业务处理系统(操作型数据)流向企业级数据仓库(EDW )或操作型数据存储库(ODS ),在此过程中企业)或其它组织)的数据模型和元数据库然后根据分析需求,调和数据层) EDW )到10 ) a )数据的ETL过程是将操作型数据转换为调和数据的过程。 如上文第2.3.1节所述,这两种数据有明显的区别,因此数据协调是构建数据仓库最困难、技术最困难的部分。 在向企业数据仓库输入数据的过程中,数据协调分为两个阶段。 第一,企业数据仓库(EDW )最初创建时的初始加载。第二,为了保持EDW当前的有效性和可扩展性,进行了以下定期修改: 整个过程由提取、清洗、转换、加载和索引四个步骤组成。 事实上,这些步骤可以进行多种组合,包括将数据提取和清洗组合到一个流程中,或者将清洗和转换结合在一起。 通常,在清洗过程中检测到的拒绝数据信息会返回到源操作的业务系统,并在源系统中进行处理,以便以后重新提取。11 ) a )在星型模式下,事实表位于中央,多个维度表呈放射状分布在其周围,与事实表相连。 位于星中心的实体是事实表,是用户最感兴趣的基本实体和查询活动的中心,为数据仓库的查询活动提供定量数据。 星型模式周围的实体是维实体,用于限制和过滤用户查询结果以缩小访问权限。 每个维表都有自己的属性,维表和数值表通过关键字相关联。 12 ) a )数据仓库或数据集市中的数据始终是历史数据,需要时间维度才能进行区分。第三章数据仓库系统的设计与开发

1 .在线分析处理(OLAP )分析。 2 .信息包图法、维度、类别、度量。 3 .逻辑模型。4 .事务事实、快照事实、线性项目事实。 5 .聚合。6 .时间、区域。 7 .退化维度。

8 .没有变化,缓慢变化,急剧变化。 9 .索引。10 .逆向规范,引入冗余。

11 ) a )信息包图法,又称为用户信息需求表,是在平面表中描述要素的多维性。 其中各维度用平面表的列表示,是通常的维度,如时间、地点、产品、顾客等。 将此列细分为类别。 例如,可以将时间维类别细分为年、月、日甚至时间。

中国基础教育资源库

中国基础教育资源库

例如,度量值,例如某年某个销售点的产品实际销售额。 在绘制数据包图时,需要确定顶层和底层的信息需求,并最终设计包含各级需求的数据仓库。 数据包图法是从用户的角度开始设计,从用户的角度着眼于企业的一个或几个主题,重点分析与主题相关联的数据的多维特性的自顶向下的数据建模方法,此自顶向下的方法几乎涉及所有信息12 ) a )收集、分析、确认业务分析需求,分析、理解主题和元数据、事实及其尺度、粒度和维度的选择与设计、数据仓库物理存储方式的设计等。13.a ()1)业务需求收集与分析; )2)建立数据模型和数据仓库的物理设计(3)定义数据源(4)选择数据仓库技术和平台(5)操作型数据库到数据仓库的数据提取、清洗和转换(6)提取14 .答:参考3.3节的过程。

第四章关联规则

1. apriori,fp-growth,fp-growth。

2. {{abc}{abd}{acd}},{{abc}{abd}}。 3. {{a}{b}{c}},{ac}。

4 ) a )关联规则挖掘最初由R.Agrawal等人提出,发现用户在超市购买的商品之间的隐含相关关系,将其以规则的形式表现称为关联规则(Association Rule ) 关联规则除了可以发现超市购物中隐含的相关关系外,还可以应用于很多其他领域。 关联规则的应用还包括文本挖掘、商品广告邮寄分析、网络故障分析等。 5 .答:关联规则分类:(1)基于与规则相关的数据维数,相关规则可以分为单维的和多维的。 )根据规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。 )3)根据规则中处理的变量类型,相关规则可以分为布尔型和数值型。关联规则挖掘步骤:

)1)找到交易数据库中所有频繁项集,这些项集的支持度至少为用户指定的最小支持度)利用频繁项集合生成所需的关联规则,根据用户设定的最小可信度进行取舍选择,生成强关联规则。6 .答:规则: c=a,a=c。 7 .答案:第五章数据分类

1 .数据获取、预处理、分类器设计、分类决策。 2 .划分数据集、分类器结构、分类器测试。3 .准确度、召回率和符合率、F-measure、几何平均。 4 .多项式核函数、径向基核函数、s型核函数。

5.a )分类是指给定输入的属性向量和相应的类组,用基于归纳的学习算法求出分类,将数据样本映射到预先定义的类上的学习过程。 分类问题是数据挖掘领域研究和应用最广泛的技术之一,许多分类算法都包含在统计分析工具包中,作为专用的分类工具。 分类问题广泛应用于商业、银行业、医疗诊断、生物学、文本挖掘、网络筛选等领域。 例如,在银行业,分类方法可以帮助员工对普通信用卡用户和诈骗信用卡用户进行分类,并采取有效措施降低银行损失。在医疗诊断中,分类方法是医务人员对正常细胞和癌变细胞进行分类,及时制定救治方案, 在有助于挽救患者生命的网络筛选中,分类方法可以帮助网民对普通邮件和垃圾邮件进行分类,从而制定有效的垃圾邮件过滤机制,防止垃圾邮件干扰人们的正常生活。 6 .答:求解过程请参考例5.1。7 .答:通过计算x和x1~x7之间的欧氏距离,可知x的最近邻为x4,x的前三个邻居为x4,x1,x2,因此,在用最近邻分类方法对x进行分类时,x的类标签采用y=-1,k-近邻分类方法(例如第六章数据聚类

1 .连续型、二值离散型、多值离散型、混合型。 2 .欧几里得距离、曼哈顿距离、明考斯基距离。

3 .选定某一距离作为数据样本之间的相似性度量,选择评估聚类性能的基准函数,选择某一初始分类,然后通过迭代方法得到聚类结果,使得评估聚类的基准函数取最优值。 4 .聚集型层次聚类、分解型层次聚类。

5.a )聚类分析是指将物理或抽象数据集合分为多个类别的过程,聚类后每个类别中任意两个数据样本之间的相似度较高,不同类别数据样本之间的相似度较低。 聚类分析是数据挖掘应用的主要技术之一,可作为独立的工具,将未知类标签的数据集分为多个类别后,观察每个类别中数据样本的特征,并对特定类别进行进一步分析。 此外,聚类分析还可以用作分类学习、关联规则挖掘等其他数据挖掘技术的预处理。 聚类分析在科学数据分析、商业、生物学、医疗诊断、文本挖掘、Web数据挖掘等领域有着广泛的应用。 在科学数据分析中,例如卫星遥感照片,聚类可以对相似的区域进行分类,有助于研究人员根据情况进一步分析。在商业领域,聚类是市场分析人员通过分析客户的基本数据,发现购买模式不同的客户群,进而实现的在生物学上,聚类有助于研究者根据基因相似度对动物和植物的种群进行分类,获得对种群固有结构的认识。在医疗诊断中,聚类可以对细胞进行分类,医务人员发现异常细胞的聚类, 在有助于患者及时采取措施的文本挖掘和Web数据挖掘领域,聚类可以根据读者的兴趣对网站数据进行分类,有助于改善网站内容。6 .答:见图6.1。7 .答:参考6.4.2节的程序。8 .根据给定的数据集,以欧几里得距离确定数据样本之间的距离,并采用最小距离用于聚类集合之间的相似性的度量。 聚类结果如下图所示。第七章贝叶斯网络

1 .答:发现产生/不产生HO的概率为0.56566/0.43434; 由PX发生可知,发生/不发生BT的概率为0.0891/0.9109。 根据表7.6所示的结合条件的概率分布,发生/不发生HA的概率为0.4533/0.5467。 进而通过条件概率公式,p(Bt|ha )=p ) ha|Bt ) Bt )/p ) ha )=0.9509 0.0891/0.4533=0.1869。2 )实际上,“有酒精的味道”和“长脑肿瘤”之间没有任何因果关系。 也就是说,“有酒精的味道”不影响脑肿瘤的发生。 但是,“有酒精的味道”会影响“变成脑肿瘤”的诊断概率。 这是因为“有酒精的味道”,导致“头痛”的因素不是脑肿瘤,而是归类为饮酒,从而大幅度降低了得“脑肿瘤”的概率。3 .答:贝叶斯网络的三个主要议题分别是预测、诊断和历史数据训练。4 .答:要学习条件概率p(b|a ),统计历史数据中发生a的次数t ) a ),然后计算在发生a的数据中发生b的次数t ) a ),b ),条件概率p ) b|a )=t ) b ) ) 为了训练联合条件概率p(c|a,b ),在历史数据中统计a,b共同发生的次数t ) a,b ),接下来统计a,b共同发生的数据中c发生的次数t ) a,b,c ),联合条件概率p (c ) 5.a )要从历史数据中得到各节点的发生概率,需要: (1)将各节点的发生次数除以总数据条数,即为各节点的发生概率。 )2)首先,用第一方法计算原因节点的出现概率,继而计算从原因节点到中间节点或结果节点的条件概率,最后根据原因节点的概率和这些条件概率计算结果节点的概率;

随机看看

NEW ARTICLE

标签

Tag