教学工作的资源分享

第三章-数据资料探索

大专

大专

第三章数据探索

鸢[yun]尾花数据集总结统计可视化

*OLAP和多维数据分析什么是数据搜索

数据初探的目的是更好地理解数据的特性数据搜索的主要动机帮助选择合适的数据预处理和分析工具利用人识别数据模式的能力人有可能识别出数据分析工具无法捕获的模式关于探索性数据分析(EDA )

探索性数据分析是由统计学家John Tukey开始的 Tukey的其他贡献: FFT、bit、software独创的书是当归的《探索性数据分析》好的互联网介绍可以在NIST的工程统计手册第1章中找到

33558 www.ITL.NIST.gov/div 898/handbook/index.htm数据搜索技术在EDA中,正如Tukey的定义一样重点是可视化

聚类和异常检测被认为是搜索技术

在数据挖掘、聚类和异常检测中,重要的是感兴趣的领域,不仅如此只是探索在我们讨论的数据探索中,主要关注总结统计——摘要统计信息可视化——可视化联机分析处理——联机分析处理(OLAP )。主要内容1 .光圈数据集2 .总结统计3 .可视化 4. OLAP和多维数据分析4爱丽丝数据集

许多探索性的数据技术可以用光圈数据集为例进行说明您可以从UCI机器学习库获得光圈数据集

UCI机器学习库: http://archive.ics.uci.edu/ml/爱丽丝数据集: http://archive.ics.UCI.edu/ml/datasets/iris来源于统计学家Douglas Fisher三花型(类) :

清风藤——Setosa锦葵——Virginica虹膜——Versicolour四种(非分类)属性萼片的宽度和长度花瓣的宽度和长度爱丽丝数据集主要内容

1 .光圈数据集2 .总结统计3 .可视化 4. OLAP和多维数据分析7总结统计

总结统计量归纳了数据的性质

单个个数或数量的小集合,捕获大值集合的各种特征。/有家庭平均收入归纳的性质包括频率、位置和发散示例:位置平均

发散标准差

包括在内。 单个属性值的聚集统计信息,可变元素的聚集统计信息。大多数统计量可以根据单遍扫描数据计算频率度量——频率和模式数频率和模式数:用于离散属性

对于无序分类的值的集合,为了进一步刻画值的性质,除除了计算特定数据集中每个值出现的频率外,您可以做的事情不多。频率:对{v1,vi,vk}赋予取值的分类属性x和m个对象的集合、值vi的频率是多少

例如,对于代表属性"性别"和人口人,签约性别"女性"50%的机会。休数。

属性的最频值是最频繁出现的属性值例如,以分米为单位测量身高mv

frequency vII

具有属性值的对象数()=位置度量——百分比用于规则或连续属性百分比

x是规则属性或连续属性,p是0到100之间的数,第p个百分号xp是xx的p%的观测值小于xp的值第二十五个、第五十个和第七十五个百分比分别表示为Q1、Q2和Q3,分别称为第一、第二和第三个四分位数)。第二个四分位数Q2也称为中值(median )

在值的个数n为奇数的情况下,中央值是规则集合的中央值; 否则中位数为中间两个数的平均值中间四分位数极差(IQR ) : IQR=Q3 Q1五数摘要)

由中值m、四分位数Q1和Q3、最小和最大观测值构成Minimum,Q1,m,Q3,Maximum位置度量——中值考虑m个对象的集合和属性x,将{x1,…,xm,}作为该m个对象的x属性值

,{x(l ),…,{x(l ) }表示按非降序排序的x属性值,则x ) l )=min(x )。如果x(m )=max(x ) x,则中值的定义如下:奇数值:中值为中值

偶数个值:中值是中央两个值的平均值===

x x m m rx m m rmedian xrr

) 221

2 1()

() ) )1) ) ) )。(1) ) ) )。是偶数,是奇数,

位置度量——平均值

平均(mean )是中心位置的测量值

加权算术平均:各值xi与权重wi相关联,i=1,m如果各权重之和为1,则上式能够简化==mIIxmx11

===

mIImI

x wixiw1 1

位置度量——平均值(续) )。

平均值问题:少量的极值可能对平均值有很大的影响公司的平均工资可能会因少数高报酬的经理而显著上升班级的考试平均成绩可能因为少数非常低的成绩而下降很多解决方法使用:截断平均截止平均值是除去高、低极端后得到的平均值

例如,可以对工资观测值进行排序,然后在计算平均值之前去除上下2%的值。然后求平均请不要在两端切断的比例太大。 例如,20%那样。 因为这可能对损失有价值信息散布测量——极差和方差极端的差距和方差是散布的尺度极差(range ) )。

range(x )=max(x ) (x ) (x ) (x ) (x ) ) ) ) ) )。标准偏差。方差是标准偏差的平方

方差和标准差都是最常用的统计量

容易受到极端值(偏离值)的影响,可能会因偏离值而变形因为方差使用平均计算=

=mI

x ixm 12()1

1

其他散布度量

绝对平均偏差(absolute average deviation,AAD ) ) ) ) ) ) ) )。中值绝对偏差(median absolute deviation,MAD ) )。中间四分位数极差(interquartile range,IQR ) )。IQR=Q3 Q1==mIIxm

教学资源库

教学资源库

()

() (|,| )1MAD x median x x x x= m多元统计

数据对象的平均值协方差矩阵s

s的第ij个要素sij是数据的第I个和第j个属性的协方差关联矩阵r的第ij个元素是数据的第I个和第j个属性性的相关关系(,…,) )1 n

x=x x=

==mK

i j i j ki i kj jx x x xm

s、1

() ) ) )11

二氧化碳(xx ) )。i ji j

i j i js

r correlationcovariance (,)。()、)。x

=x x=主要内容

1 .光圈数据集2 .总结统计3 .可视化 4. OLAP和多维数据分析17

可视化

可视化是将数据转换为可视视图或表格格式,以便分析或报告数据性与数据项或属性的关系。

可视化的目标是形成可视化信息的人工解释和信息的语义模型。数据可视化是数据搜索最强大、最有吸引力的技术之一。人类有分析大量视觉信息的能力可以检测一般的模式和趋势能够检测异常值和异常模式

大多数分析都强调算法和数学方法,但大多数情况下都有可视化技术手术也可以发挥重要的作用。数据挖掘(visual data mining )。可视化:例以下是1982月的海面温度(SST )成千上万个数据点被集中在一个个图形上在照片中,可以看到海洋的温度在赤道最高,在两极最低。可视化:显示可视化的第一步是将信息映射为可视格式

信息中的对象、属性和联系人映射到可视对象、属性和联系人。例如,点、线、形状和颜色等。样品:

对象通常表示为二维或三维空间中的点点可以用圆、十字、方形等几何图形表示。特性可以表示为点的位置或点的特性例如,x、y或z轴上位置、颜色、大小、形状等使用的位置,即无论是形成簇还是孤立,点之间的关系点,都很容易发现。可视化:安排

可视化显示中的元素布局

数据的理解难度可能会产生很大的差异例:

具有6个二元属性的9个对象的表(左)被排列成建立行和列的连接亮(右)可视化:安排例:

请考虑图3-3a。 这个图展示了图的可视化。分离连接子图后,如图3-3b所示,节点与图的连接变得更容易理解可视化:选择

删除或不突出显示特定对象/属性用可视化方法不能有效地显示大量的属性如果同时显示很多对象,则会过于拥挤处理许多属性:选择属性的子集通常,使用维度规约技术,将维度降至二维或三维可以成对考察属性

采用主成分分析(PCA )等方法。处理大量对象:选择对象的子集

在数据点数量多(例如超过数百个)的情况下,或数据质量极端差的情况下无法在画面上显示太多的对象。 一些数据点可能会屏蔽其他数据点可以采样,也可以放大数据的特定区域可视化技术:茎叶图茎叶图)。

可用于观测一维整数或连续数据的分布。

对各组中包含的值除最后一位外都相同的值进行分组。 各结构为茎,小组的最后一个数字是叶子。 Example:

鸢尾数据集:萼片长,以厘米为单位(乘以10,取整数值)。Iris数据集的著作片可视化技术:直方图

直方图(Histogram )。通常显示各个变量的值的分布将值拆分为一个框,并显示每个框中对象数量的条形图。每个栏的高度表示对象的数量直方图的形式取决于箱子的数量 Example:

Iris数据集萼片长\宽、花瓣长\宽等宽直方图(10bins ) )。直方图(续)二维直方图(two-dimensional histogram ) )。显示两个属性值的连接分布示例: Iris数据集花瓣长度和花瓣宽度的二维直方图可视化技术:箱图

盒状图

J. Tukey提交的这是显示数据分布的另一种方法 Iris数据集的著片盒状图输出者10th个人25th百分比75th百分比50th百分比90th百分比方框图(续) ) )。方块图可用于比较属性方框图(续) ) )。使用方块图比较不同物件类别之间的性质变更可视化技术:饼图饼图)。

与直方图相似,但通常用于具有相对较少值的分类属性使用饼图中圆的相对面积显示不同值的相对频率示例: Iris数据集光圈的类型分布可视化技术:累计分布函数累计分布函数(CDF ) (计算分散函数,CDF ) )。对于统计分布的各值/各观测值,显示点小于该值的概率经验累计分布函数是阶梯函数 Iris数据集萼片的长(宽、花瓣的长度\宽度可视化技术:散点图散布图)。

使用数据对象的两个属性的值作为x和y坐标值二维散点图最常见,还有三维散点图

可以通过表示对象的标记的大小、形状、颜色等来显示更多的属性散点图阵列可以简洁地概括几对属性之间的关系。用途以图形方式显示两个属性之间的关系

职教云旧版本

职教云旧版本

为花瓣的宽度和花瓣的长度等许多属性提供适度的光圈种类的划分散点图:展示了三个属性有两种方法可以显示三个属性方法1:三维散点图

例如,Iris数据萼片宽度、萼片长度、花瓣宽度的三维散点图散点图:显示了三个属性(续)。方法采用2:二维散点图

将第三个属性与标记特性(如大小、颜色和形状)相关联例: Iris数据集花瓣长对花瓣宽度的散点图,标志大小示萼片宽度时空数据:等高线图等高线图)。

空间网格上连续属性的观测值集合将平面分割为相似值的区域

区域边界的轮廓线由值相等的点连接在一起最常见的示例:地面位置高程等高线图也可以显示温度、降雨量、气压等等高线图:例 1998年12月平均海洋表面温度(SST )等高线图地面温度任意设定为0c

蜂窝电话

时间空间数据:曲面图

“曲面出图”(surface plot )用两个属性表示x和y坐标以及曲面出图的第三个属性性显示的高度高于前两个属性定义的平面至少在一定范围内,前两个属性值的所有组合都需要第三个属性的值有定义

适合直纹曲面

示例: 12点密度函数时间数据:低维切片

记录不同地点和时间的某个量----涉及两个维度例: 1982年12个月的海面气压可视化高维数据:矩阵基本思想

可以将图像视为像素的矩形阵列,每个像素都以其颜色和亮度绘制数据矩阵是值的矩形阵列

通过将数据矩阵的每个元素与图像中的一个像素相关联,可以减少数据矩数组被视为图像,像素的亮度和颜色由矩阵中相应元素的值决定从实践出发如果知道类编号,请更改数据矩阵的顺序,使其成为一个类的所有对好像在一起

对属性进行标准化,使平均值为0,标准偏差为1防止具有最大值的属性在视觉上左右图形雷德尔设备

基质:例

Iris数据集的标准化数量根据矩阵表示 Setosa花瓣的宽度和长度远远低于平均值月季花的花瓣

宽度和长度是平均的价格附近

Virginica花瓣的宽度度和长度高于平均值基质:例

Iris数据集:关系矩阵各组内的花彼此最相似

Versicolour和Virginica非常相似,都与Setosa有很大的不同可视化高维数据:平行坐标系平行坐标系(parallel coordinates )每个属性都有一个坐标轴,但坐标轴是平行的而不是正交的对象用线而不是点表示对象中每个特性的值都映射到与该特性相关联的坐标轴上的点,然后将这些点连接起来,形成表示对象的线中所述

对象分为少数群体

各组内的点的属性值相同数据对象的数量不太多缺点:图案的检测可能取决于坐标轴的顺序平行坐标系:例示例: Iris数据集的平行坐标系表示两种显示只是坐标的顺序不同右图更容易看到:根据花瓣的宽度和花瓣的长度,三种类型有很好的区分其他技术:星形坐标星形图(Star Plots )。坐标轴从中心点向周围辐射所有属性值都映射到[ 0,1 ]区间连接属性值形成多边形例:爱丽丝花150号星形图星形图:例

15种Iris花的星形图前五种花是Setosa的种类

中间五种属于Versicolour的种类最后五种是Virginica的种类其他技术: Chernoff脸 Chernoff脸(Chernoff face )。每个属性与脸部特征相关联属性的值决定了脸部特征的表现方式

例: Iris150号花的Chernoff脸数据特征脸部特征萼片的长度;脸的大小萼片宽额/颌相对弧长花瓣长额的形状花瓣宽下巴的形状Chernoff面部:例

15种Iris花的Chernoff脸前五种花是Setosa的种类

中间五种属于Versicolour的种类最后五种是Virginica的种类可视化指导方针

ACCENT原则:由D. A. Burn提出的Michael Friendly改编理解(Apprehension ) )正确察觉变量间关系的能力。图形可以最大化变量间的关系你理解吗?

清晰性(Clarity ) )。

目视识别图形中所有要素的能力。 最重要的因素或关系在于视觉最突出吗?一致性)。

根据与以前图形的相似性解释图形的能力.要素、符号形状和颜色和以前的图形一致吗?可视化指导方针(续) )。

有效性(Efficiency )

尽量用简单的方法描绘复杂关系的能力.图形要素的使用经济是吗? 图形容易解释吗?必要性(Necessity )

对图形和图形要素的需求.与其他替代方法(表、文本)相比,图形式是比提供数据更有用的形式吗? 为了表示关系,所有图形元素一切都需要吗?真实度(Truthfulness ) )。图形元素相对于隐式或显式比例的大小决定图形元素的层代表的真值能力.图形元素能正确定位和缩放吗?Tufte指南 Edward R. Tufte列举了以下图形的优点(graphical excellence )原则图形的优点是感兴趣的(物质的、统计的、设计的)数据的良好设定的显示

图形的优点包括与明了性、正确性、有效性相关的复杂思想图形的优点是它在最小的空间内,以最小的笔致,在最小的时间内向观察者提供最多的信息图形的优点几乎总是多样的

图形的优点是必须表现数据的完整性主要内容1 .光圈数据集2 .总结统计3 .可视化 4. OLAP和多维数据分析52

OLAP

关系数据库父E. F. Codd提到了在线分析处理(OLAP )出来。关系数据库将数据表示为表,而OLAP使用多维数组表示数据同调这种数据表示方法以前出现在统计和其他领域

通过使用这种数据表示,可以进行一些数据分析和数据搜索操作会更简单多维数组

将表数据转换为多维数组的两个重要步骤:首先,确定哪些属性是维,哪些属性是目标属性。用作维的属性必须具有离散值目标值通常是一个计数或连续的值,例如一个项目的组成本

除了具有相同属性值集的对象数之外,可以没有目的标记变量然后是目标值(或目标属性)的值或所有与此

与要在多维数组中搜索每个条目的条目相对应的属性值的数量请参阅。示例:光圈数据集

爱丽丝数据集:可以改变花瓣的长度、花瓣的宽度和种类变成多维数组。首先,将花瓣的宽度和长度离散化为低、中、高。请看下表。 请注意计数属性示例:光圈数据集(续)。该数据可以组织成多维数组

示例:光圈数据集(续)。数组可以显示为三个二维表切片,每个切片对应一种类型数据立方体多维度看数据的主要动机是需要用各种方法收集数据据介绍。数据立方体是数据及其所有可能集合的多维表示。数据立方体(示例)考虑数据集

记录不同日期的产品销售情况。

数据可以表示为产品ID、位置和日期的三维数组目标属性是收入。维归约与旋转轴

聚集可以看作一种维度归结。

旋转轴是指聚集在除两个维之外的所有维中。结果是二维交叉表,只有两个维被指定为其馀维。切片和切片切片是通过为一个或多个维指定特定值,从整个多维数组中中,选择一组单元格。通过指定剪切(dicing )属性值区间选择单元的子集上滚和向下钻取

考虑一下最初的销售数据吧。 这是一个多维数组,记录每天的销售。按月收集数据(上卷,roll up )销售将月销售总额分割(向下钻取、向下钻取)为一天的销售总额问题问题

随机看看

NEW ARTICLE

标签

Tag