学生联盟网为您提供优质参考范文! 体会工作报告法律咨询精彩演讲各类材料
当前位置: 学生联盟网 > 试题综合 > 小学数学 > 数据挖掘_概念与技术(第三版)部分习题答案

数据挖掘_概念与技术(第三版)部分习题答案

时间:2021-10-03 13:19:14 来源:学生联盟网

1.4数据仓库和数据库有何不同有哪些相似之处答区别数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持 管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是而向 操作型的数据库,是组成数据仓库的源数据。它用表组织数据,采用ER数据模型。相似它们都为数据挖掘提供了源数据,都是数据的组合。1.3定义下列数据挖掘功能特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟 悉的现实生活的数据库,给出每种数据挖掘功能的例子。答特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有 大学的计算机科学专业一年级学生的轮脈 这些特征包括作为一种髙的年级平均成绩GPA Grade point aversge的信息,还有所修的课程的最大数量。区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,具有髙GPA的学生的一般特性可被用来与具有低GPA的一般特性比较。最终的描述可能是学生的 一个一般可比较的轮廓,就像具有高GPA的学生的75是四年级计算机科学专业的学生,而具有低 GPA的学生的65不是。关联是指发现关联规则,这些规则表示一尼频繁发生在给上数据集的特征值的条件。例如,一 个数据挖掘系统可能发现的关联规则为majorX,computing scienceM ownsX,upersonal computerM Lsupport12,confidence二98其中,X是一个表示学生的变量。这个规则指出正在学习的学 生,12支持度主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率 是98 置信度,或确定度。分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型或功 能.而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性 是他们都是预测的工具分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间 的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对彖类。聚类也便于分类法组织 形式,将观测组织成类分层结构,把类似的事件组织在一起。数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据 的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析23假设给定的数据集的值已经分组为区间。区间和对应的频率如下。年龄频率1520051545015203002050150050807008011044计算数据的近似中位数值。解答先判定中位数区间N二200450300150070044二3194 N/21597V 200450300950159724509501500; 2050对应中位数区间。我们冇厶20,3197,审呦尸950,/轡/1500,我t30,使用公式23median 厶*一为如下每种抽样技术勾画b例元组子T,13Tio22T1935T215T25t2035Ts16T1225T2j35T416T1325T2236Ts19T1425T2340t620T1530T2445t720T1633T2546Ts21T1733T2652t922Tls35T2770SRSWOR和SRSWR不是同次的随机扣样结果可以不同,但血者因无放回第3章数据仓库与OLAP技术概述SRSWORn5SRSWRn5t416t720t620t720Tio2235Tn25Ti35T1652T1546聚类抽样设起始聚类共有6类,可抽其中的m类。Sample 1Sample2Sample 3Sample4Sample5Sample6T,13T620Th25T1633T2I35t2652T15T720Tl225Tl733T2236T2770t316Ts21Tb25T|35T2340t416t922Th25T1935T2445t519Tio22T530T(35T2546Sample Sample5t620T2135T720T2236T821T2340T922T2445Tl022t2546Ti13youngTio22youngTw35middle aget215youngTn25youngT2035middle aget316youngT1225youngT2135middle aget416youngT1325youngT2236middle ageT519youngTu25youngT2340middle aget620youngT1S30middle ageT2445middle aget720youngT,633middle aget2546middle aget821youngT1733middle ageT2652middle ageT922youngT1835middle ageT2770seniorT416youngT1225youngT1733middle aget2546middle age第3章 数据仓库与OLAP技术概述t2770Senior4.3假龙数据仓库包含三维time,doctor和patient;和两个度量count和charge;北中,charge 是医生对病人一次诊治的收费。a 列举三种流行的数据仓库建模模式答三类模式一般用于建模数据仓库架构的星形模型,雪花模型和事实星座模型。b 使用a列举的模式之一,画出上而的数据仓库的模式图riinekey time keyJdoocior_iddaydoctor iddoctor nameday o 匚 weekJpatient idphonemonth//addressquarter/chargesexyear/counttimedoctordimension table葩bleliinensioii tablepatient dimension tablepatientjdsex description addiess数据仓库的星形模型C由基本方体day,doctor,patient开始,为列出2004年每位医生的收费总数,应当执彳亍 哪些OLAP操作沿课程course维从course_id 上卷”到departmentc 沿时间诚维从day “上卷”到代帖。

  取time2004,对维币w作“切片戦 操作 沿病人网泅H维从个别病人“上卷”到全部病人。d为得到同样结果,写一个SQL査询.假立数据存放在关系数掳库中,其模式为feeday,month,year,doctor9 hospital,patient,counts chargeo答SQL査询语句如下select doctor.SUMchargefrom feewhere year2004 group by doctor4 area_id ,major,status,university ,coursecourse_name.4-department ,semestersemester,year和instructordept.rank 2 个度 count 於11 avg_grade 在最低概念层,度量avg_grade存放学生的实际课程成绩。

  尹较高概念层,avg_grade存放给定组合的平均成绩。a为该数据仓库画出雪花形模式图。B b由基本方体student.course,semester,instructor开始,为列 fll BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特g二殊的OLAP操作。解答第3章数据仓库与OLAP技术概述a 为该数据仓库画出雪花形模式图雪花模式如图所示。courseunivstudent维表爭实表维表b由基本方体student,course,semester,instructor为列出BigUniversity每个学生的CS课程的平均成绩,应当使用哪些特殊的 OLAP操作。这些特殊的联机分析处理OLAP 操作有i.沿课程course维从course_id 上卷”到departmentsii.沿学生student维从 student_id 上卷到 university oiii.取 depart me nt “ CS ” 和 university二Big University 7 沿课程course 维和学生student维切片。iv.沿学生student维从 university K钻到student_name。这个立力体将包含5625个方体。如果每维有5层4.5假上数据仓库包含4维date,spectator,location.和gd疋,和两个度昼count和charge;其中,charge 是观众在给宦的日期观看节目的付费。观众可以是学生、成年人或老年人,每类观众有不同的收费标准。(a)画出该数据仓库的星形模式图。答星形模式图如下sales fact tablespectator Umeusiou tabledatedimeusiou tableb.由基本方体.date,spectator,location,ga“e开始,为列出2001年学生观众在GM_Place的总付费,应执 行的OLAP操作 沿时间(能re)维从datjid “上卷”到 w 沿时间(网Q维从Se_id 上卷”到全部。

  沿时间 location维从location_id 上卷到 location_name。

  沿时间 I spectator 维从 spec tat or_id 上卷到 status。

  以 statusstudents location name GM Place and year200i 作转轴操作4.6数据仓库可以用星形模式或雪花模式建模。简略讨论这两种模式的相似点和不同点,然后分析它们的相 对做优、缺点。哪种模式更实用,给出你观点并陈述你的理由。答星形模式或雪花模式的相似点是它们包含一个事实表和一些维表。它们主要的不同在于,雪花模式 的维表可能是规范化形式,以便减少了冗余,这种表易于维护并节省存储空间。然而,与巨大的事实表相比,这种空间的节省可以忽略。此外,由于执行查询需要更多的连接操作,雪花形结构可能降低浏览的性能,这 样,系统的性能可能相对的受到影响。星型模式的优点是简单、这使得它更有效,但它需要更多的空间。因 此,只要空间的要求不是太大时,星形模式比雪花模式更好,因为通常效率比空间具有更高的优先级。在工 业上,有时可能将数据从一个雪花模式非规范化为星型模式以加快处理速度,另一种选择是保持雪花模式的 维表,然后相同数据的当前用户折叠为星形。4.9解答a 根据计算数据芷方体所用的聚樂函数.列出度虽的三种类型。三聊度毘分别是分布式厦量.代数式度量.整休式厦量。b 烛于具有3个维time,location和product的数据立方体,函数variaact 方 差属于哪一类如果该立方休分刮成一些块.描述如何计算它。提示计算variant函数的公式是z 壬兀-打其山.艾是这些口的平均似N飞囲为曲边12函数的i卜算公式是又由于代万事因此方差函数可表示为所以.方差函数是代数度址。如果立方休可以被分成许多大块,方差可以用如下方法计算2逐个读取大块屮的每一个数据.保留并累加如下聚集1 元组的数址;叶的和3兀的和。渎完所有的块以后.将元组的数虽N、卅的和.为的和帯入.就可应用上述公式得到方差variancec 假迄函数是“最窩的10个销唐额二讨论如何在频据立方休里有效的计 算该度童。1 对每个立方休,初始时先用10个存储单元存储任意选定的10个销售楸;2 将这10个存储祇元屮的销售额由大到小排序3 在立方体中读一个元组,如来该元组屮的销書额大于10个中最小销害 额,就用、前销售额替换用小甫皆额。4 亟复2、3,直到读遍芷方休中所有的元组后停止。4.11解答(a)简要描述每种实现技术。关系联机分析处理技术(ROLAP)是中I可服务器.可用于执行多维视图任 务,介于关系的后端服务器和客户前端匸具Z间。使用关系的或扩充关系的 DBMS存储并管理数据仓库而OLAP中间件支持具余部分。务维联机分析处理服务器(MOLAP)由基于数组的多维存储引率支持数据 的多维式图,将*维视関直接映射到数据立方体数组结构。混合联机分析处理服务結 HOL.AP)结合f ROLAP和MOLAP技术,得 益于ROLAP较犬的叮伸缩性和MOLAP的快速计算HOLAP允许将大虽的详 細数据存放在关系数据库屮,而聚集保持在分离的MOLAP存储屮。(b)对每种技术.解释如下函数如何实现1.数据仓库的产生(包括聚集)。ROLAP采用一个OLAP服务器.数撫仓哼的产生可以由一个使用汇 总实爭表的关系型或扩展的关系型数据庄管理系统;DBMS)丈现,这 个实事表可以存储给定立方体的聚集数据和由给定数据芷方体的模式 连接键捋出的抽彖级中的数据MOLAP为了产生一个数据仓阵,MOLAP H术使用多维数组结构來存储数据和多路数绘聚集來计算数据立方体。HOLAP HOLAP拉术的特色是应用一个关系数据库來存储数据和一些 低层次的聚集,并且应用一个MOLAP來存储离层次的聚集。ii.上卷ROLAP沿一维用兀总的实事表上卷,我们在包含期望维的一个泛化的表中寻找记录c例如,从日到月上卷数据维,其中选择那些包含所有特定值的区间的日期的记录。记录中给定前测虽域的他.例如以类元计的销吿俎.将会包含用于期型的上卷的部分和。K4OLAP在数据立方休中执行上卷.为得到期望的维直接攀爬到相应 的概念煤。例如.沿着地点维从城市上卷购国家,得到史泛化的数撫。HOLAP使用HOLAP技术建行上卷的方法将会与ROLAP或MOLAP 相似,主婆体现在依靠在相应维舲执行中所使用的技术。iii.下钻。ROLAP我们使用汇总的事实表沿杲一维下钻,是为找表屮的记求.这个表包含对期里维的一个泛化。例如,沿地点维从国家到省或者州下 钻.选扌t下一槪念层能昼低区域的记录,即对应包含所有特定值的地点。在这种情况下、城市域可能包含所有的儘。这个记录中给定的测屋域的他将会包含下钻所期望得到求和,例如dollars sold.MOLAP为了在数据立方体屮执行下钻操作,直接降低睥念分层以御 到期望的维。例如你可以沿日期维从丿份下钻到毎日,用日聚集数撫 而不是用月。HOLAP使用HOLAP技术进行下钻的方法将会与ROLAP或N5OLAP 相似,主要休现在依靠在相应维的执行中所使用的技术。tv.增量更新.OLAP为门丸行増呈必新,先检奁是杏相应的元组在汇总的事实表中。

  如若不是,则插入元组到汇总的爭丈表中,并且向上传播结果。否则.更新元组值”并且也向上传播结风。MOLAP;为J执厅增址更新,先检斎是杏相应的兀胞处在MOLAP立 方体中。如若不是,则插入元胞到该立方体,并向上传播结果。占则.更新该元胞,并且向上传播结果.HOLAP与ROLAP或MOL.AP相似.主要体现在依靠在相应维的执行 中所便用的技术。c 你喜欢那种实现技术为什么HOLAP经常被优先采用,悯为它兼有ROLAP和MOL.4P方法的优点.并 且避免J它们的缺点。如果立方体是很稠密的,用该选MOLAP方法。如果数 据是稀疏的,且维比较烏那将会有许多兀胞服从殆数增长,这种怙况下,往往希望计算冰山立方休,而不是难立方休完全物化5.1 5.221侵定L0结星3方尊只包吿3个展本俎元如去人几.D 2dH .戎么和3d丿.g几.dArfio.具中GKd.g苑共 菽立力体的便足warn.之败盘立方住申色含事少个非空方体b支仝之方体中包金事少O莽空聚集季戛本皐元脚睪冰山立方笄的乖仟空-2.沖山立方佯包會多少个芋空聚卑 单元但单元亡是紡单元.采兀再在单元a他备日是单元c的侍联化wrfia 过用非””些妙換个中馆”-得劃井昱d与具幻用司的度毡用吉方 体是仅曲团单兀組處的数需立万停磁龙全立方佯中何参少个3P元WSa K仝數去立方体中包會多少令菲空方体2怦.b 丸全0方停十包含多少人菲兰聚集菲基不卑元1 甸一6牟元可以产生丁“一1.个非空宴負的P元这样包括帝渚琢的1K金.R*fi共右切T心单元2 Sfflfi *2f 只宜叠一PKiSTi Aft的尊元.1 *2PC.*.么.A.rfw个父费两次共记了 3畑的单元试样艮们炖去除总数丛5-.2交 叠的竝元.3 这样茁勺赧F-X14T个李空累集芈元.c 匸采祢山XT方体的糸件l-conni2 iUuT方体包含多少个苯仝聚 M元了上去芯.*必沟个计数两为它是由g元1和址元2P生的 ,九.心竹*佝2个计建,丙为它足由单元1和单元2产生的;G必.,去必J 9 2 6计败因为它展由单元1和車元2 P生的;几.B 100; C 1,000; 小计1,001,100AB 1,000,000*100100,000,000; BC 100*1,000100,000; AC 1,000,000*1,0001,000,000,000; 小计1,100,100,000ABC 1,000,000*100*1,000100,000,000,000总和11,001,1001,100,100,000100,000,000,000101,101,101,101 * 4 404,404,404,404 字节 C指出空间需求量最小的立方体中的块计算次序,并计算2-D平面计算所需要的内存空间总量。答顺序计算,需要最少数量的空间BC-A.如图所示ALLABCABC讣算二维平而需要的总主内存空间是总空间100X l.OOO 1OOOOOO X 10 100 X 10.000 203 00.000 单元*4字节/单元80400Q00 字节 6.3 Apriori算法使用子集支持性质的先验知识。a 证明频繁项集的所有非空的子集也必须是频繁的。答设s是一个频繁项集,是最小支持度阀值,任务相