第2章讨论了知识发现过程中重要的高层数据问题。本章是数据探索导论,对数据进行初步研究,以便更好地理解它的特殊性质。数据探索有助于选择合适的数据预处理和数据分析技术。它甚至可以处理一些通常由数据挖掘解决的问题,例如,有时可以通过对数据进行直观检查来发现模式。此外,数据探索中使用的某些技术(如可视化)可以用于理解和解释数据挖掘结果。
本章包括三个主题:汇总统计、可视化和联机分析处理(OLAP)。汇总统计(如值集合的均值和标准差)和可视化技术(如直方图和散布图)是广泛用于数据探索的标准方法。OLAP是一种新近开发的包含一系列考察多维数组数据的技术。OLAP的分析功能集中在从多维数据数组中创建汇总表的各种方法。OLAP技术包括在不同的维上或不同的属性值上聚集数据,例如,如果给定根据产品、位置和日期记录的销售信息,则可以使用OLAP技术创建按月和产品类别描述特定地点的销售活动的汇总。
本章涵盖的主题与探测性数据分析(Exploratory Data Analysis,EDA)有许多重叠,EDA是卓越的统计学家John Tukey于上世纪70年代创建的。像EDA一样,本章特别强调可视化,而与EDA不同的是,本章并不包含诸如聚类分析和异常检测等主题,其原因有二:首先,数据挖掘将描述性数据分析技术本身看作目的,而统计学(EDA由此发源)趋向于将基于假设的检验作为最终目标;其次,聚类分析和异常检测都是很大的领域,需要整章进行深入讨论。因此,聚类分析将在第8,9章给出,而异常检测则在第10章讨论。
3.1 鸢尾花数据集
在下面的讨论中,我们经常提到鸢尾花(Iris)数据集,该数据集可以从加州大学厄文分校(UCI)的机器学习库中得到。鸢尾花数据集包含150种鸢尾花的信息,每50种取自三个鸢尾花种之一:Setosa、Versicolour和Virginica。每个花的特征用下面5种属性描述:
(1) 萼片长度(厘米)。
(2) 萼片宽度(厘米)。
(3) 花瓣长度(厘米)。
(4) 花瓣宽度(厘米)。
(5) 类(Setosa, Versicolour, Virginica)。
花的萼片是花的外部结构,保护花的更脆弱的部分(如花瓣)。在许多花中,萼片是绿的,只有花瓣是鲜艳多彩的,然而,对于鸢尾花,萼片也是鲜艳多彩的。图3-1给出了一种Virginica鸢尾花的图片,鸢尾花的萼片比花瓣大并且下垂,而花瓣向上。

图3-1 鸢尾花Virginica的图片。Robert H. Mohlenbrock @ USDA-NRCS PLANTS Database/USDA NRCS. 1995. 东北湿地植物志:野外办公室植物物种指南。东北国家技术中心,切斯特,宾夕法尼亚州(删除了背景)




