地统计分析笔记——探索数据

Posted by Xiaoyan(Sharon) Mu on 2015-09-27
Estimated Reading Time 9 Minutes
Words 2.7k In Total
Viewed Times

在执行地统计分析之前,浏览、熟悉、检查自己的数据是至关重要的。绘制和检查数据是地统计分析过程中的必要阶段,我们可以从这些工作中获得一些先验知识,指导后续的工作。


Stage 1 绘制数据

通过ArcMap的图层渲染方案绘制数据,我们可以获得对数据的第一印象。

例如,使用单一符号渲染了解采样点的疏密分布,通过分类渲染了解采样点高值低值的分布,等等。


Stage 2 检查数据

绘制数据后,使用 探索性空间数据分析 (Exploratory Spatial Data Analysis,ESDA) 工具来执行数据探索的第二阶段。这些工具提供了一种比绘制数据更加量化的方式来检查数据,有助于我们更深入地了解正在研究的现象,有助于我们对插值模型的构建方式做出更加正确的决策。

ESDA 工具包括:


Ⅰ 是否服从正态分布?

Histogram/直方图

直方图用于显示感兴趣数据集的频率分布并计算汇总统计数据,如何解读图形和统计信息呢?

  • 如果数据服从正态分布,则平均值(mean)与中值(median)类似,偏度(skewness)应接近零,并且峰度(kurtosis)应接近 3。
  • 平均值即为数据的算数平均值。平均值提供分布中心的测量值。 中位数与累积比例 0.5 对应。如果数据以升序排列,50%的值位于中间值之下,50% 的值位于中间值之上。中间值提供了分布中心的另一个测量值。 第一和第三分位数分别与累积比例 0.25 和 0.75 对应。如果数据以升序排列,则 25% 的值位于第一分位数之下,25% 的值位于第三分位数之上。第一和第三分位数是分位数的特殊情况。
  • 偏度系数是分布对称度的测量值。对于对称的分布,偏度系数为零。如果分布具有较长的大值右尾部,则为正偏分布;如果分布具有较长的小值左尾部,则为负偏分布。对于正偏分布,平均值大于中间值;对负偏分布,平均值小于中间值。
  • 峰度取决于分布尾部的大小,提供分布产生异常值可能性的衡量指标。正态分布的峰度等于三。具有较厚尾部的分布被称为高峰态,其峰度大于三。具有较薄尾部的分布被称为低峰态,其峰度值小于三。
  • 数据的方差,通常对过高值或过低值很敏感。标准差为方差的平方根,它描述了数据在平均值周围的分散程度。方差和标准差越小,测量值聚类相对于平均值就越紧密。

Normal QQPlots/正态QQ图

正态 QQ 图上的点可指示数据集的单变量分布的正态性。如果数据是正态分布的,点将落在 45 度参考线上。如果数据不是正态分布的,点将会偏离参考线。


General QQPlots/普通QQ图

普通 QQ 图用于评估两个数据集的分布的相似程度。这些图的创建和所述的正态 QQ 图的过程类似,不同之处在于第二个数据集不一定要服从正态分布,使用任何数据集均可。如果两个数据集具有相同的分布,普通 QQ 图中的点将落在 45 度直线上。



### 有关数据变换

Geostatistical Analyst 中的一些插值方法要求数据呈正态分布。如果数据偏斜(分布不均衡),则可能需要将数据变换为正态分布。

Box-Cox 变换(又称幂变换)
如果在某一部分研究区域中计数值很小,这一区域的变异性就小于计数值更大的另一区域的变异性。在这种情况下,平方根变换将有助于使整个研究区域内的方差更加恒定,通常还会使数据呈正态分布。平方根变换是 Box-Cox 变换中 λ = ½ 时的特例。

对数变换
对数变换实际上是 Box-Cox 变换中 λ = 0 时的特例。对数变换通常用于呈正偏分布的数据。其中有些值非常大,如果这些大值位于研究区域中,对数变换有助于使方差更加恒定和归一化数据。

例如数据如下分布:

变换前后对比:

反正弦变换
反正弦变换可用于表示比例或百分比的数据。通常在数据为比例形式时,方差在接近 0 和 1 时最小,接近 0.5 时最大。反正弦变换有助于使整个研究区域内的方差更加恒定,通常还会使数据呈正态分布。


Ⅱ 是否存在异常值?

全局异常值是相对于数据集中的所有值而言具有非常高值或非常低值的已测量采样点。
局部异常值是一个已测量采样点,其值处于整个数据集的正常值域范围内,但查看周围点时,其值则显得异常高或异常低。

如果异常值是现象中的真实异常情况,那么这可能是研究和理解现象的最重要的位置点。如果异常值是由数据输入过程中的错误所导致的,那么在创建表面之前应该对其进行校正或移除。

Histogram/直方图

如果在直方图的最左侧(极小值)或最右侧(极大值)能够看到一个孤立的条,可能表明这个条所表示的点是异常值。这种条越孤立于直方图的主条组,点是异常值的概率就越大。


Voronoi 图

Voronoi 图是由采样点形成的泰森多边形地图。

在查看 Voronoi 图时,检查附近是否有面符号色彩差别很大的值。

例如,下图中红色面明显异于周围值。


Semivariogram/Covariance Cloud / 半变异函数/协方差云

半变异函数/协方差云工具可以用来检查数据集中空间自相关的局部特征以及查找局部异常值。

云中的每个点表示数据集中的一对点,x 轴表示各位置间的距离,y 轴表示这些位置上的值的差值平方。半变异函数中的每个点都表示一个位置对,而不是地图上的单个位置。因此云中点的数量会随着数据集中点的数量的增加而快速增加。如果数据集中存在 n 个点,则半变异函数/协方差云中将显示 n*(n-1)/2 个点。因此,不建议使用点数超过几千个的数据集。如果数据集包含几千个点,那么应使用子集要素工具来随机选择点,然后在半变异函数/协方差云中使用子集。

“半变异函数/协方差云”工具对检测局部异常值特别有用。它们显示为互相接近的点(x 轴上的低值),但在 y 轴上却是高值,表明组成点对的两个点的值有很大差异。这与所期望的结果正相反,即互相接近的点有相似的值。


Ⅲ 是否存在趋势?

Trend Analyst / 趋势分析

“趋势分析”工具提供数据的三维透视图。采样点的位置绘制在 x,y 平面上,z值表示感兴趣的属性值。趋势分析工具将散点图投影到 x,z 平面和 y,z 平面上,通过多项式曲线对每个投影进行了拟合。

浏览图形垂直墙面上的粗线。这些线表示趋势。一条趋势线沿 x 轴(通常表示纵向趋势),另一条显示沿 y 轴的趋势(通常表示纬度趋势)。如果经过投影点的曲线是平的,则不存在趋势;如果多项式曲线具有确切的模式(如下图的蓝线和绿线),这表明数据中存在某种趋势。

另外,检查趋势时更改多项式的阶非常有用;检查不同于标准 N–S 和 E–W 方向的趋势非常有帮助,可以通过旋转趋势轴检查数据。


Ⅳ 是否空间自相关?

我们可通过检查不同的位置的采样数据对来探索数据的空间自相关,仍然使用前面提到过的ESDA工具半变异函数云。


Semivariogram/Covariance Cloud / 半变异函数/协方差云

如果存在空间相关性,则距离较近的点对(在 x 轴的最左侧)应具有较小的差值(在 y 轴上的值较小)。随着各个点之间的距离越来越大(点在 x 轴上向右移动),通常,差值的平方也应随之增大(在 y 轴上向上移动)。通常,平方差超过某个距离后就会保持不变。超过这个距离的位置对被视为不相关。

如果半变异函数中的点对构成一条水平的直线,那么数据中可能不存在空间自相关,因而对数据进行插值也就失去了意义。

地统计方法的基本假设是,对于任意两个彼此间的距离和方向都相近的位置,其差值的平方也应相近。这种关系称为平稳性。空间自相关可能仅依赖于两个位置之间的距离,这被称为各向同性。如果事物在某些方向上比在其他方向上更相似,也就是半变异函数和协方差中都存在这种方向性影响,它被称为各向异性


交叉协方差云

“交叉协方差云”工具可用于研究两个数据集之间的交叉相关。交叉协方差云显示了两个数据集间的所有位置对的经验交叉协方差,并且将其作为两位置间距离的函数对其进行绘制,与上面的工具类似,该工具也提供具有搜索方向功能的协方差表面。


对数据有了第一印象,并且用 ESDA 工具对数据做了检查,我们已经对待研究的数据有了一些先验知识,那么下面就可以选择插值方法来创建表面了,下一篇继续。


如果您喜欢此博客或发现它对您有用,则欢迎对此发表评论。 也欢迎您共享此博客,以便更多人可以参与。 如果博客中使用的图像侵犯了您的版权,请与作者联系以将其删除。 谢谢 !