地学计算方法/地统计学(第三章区域化变量理论)

3第三章 区域化变量理论

3.1区域化变量的概念与性质

地统计学是以区域化变量理论为基础的
谁能说说与随便变量相比,区域化变量的特色?
-与位置相关
-既有随机性又有结构性
-不能重复取值
-样本之间存在空间相关性
区域化变量是定义在随机场的概念之上的

3.1.1随机场

随机变量:随机变量表示随机试验各种结果的实值单值变量(Z),且对于试验中的任何实值都有确定的概率,随机变量和对随机变量的观测可以从总体和抽样的角度来理解。随机变量(Z)每次的观测结果是一个确定的数值(z),就相当于总体中一个样本的观测值,数值z称为随机变量的一个实现

随机函数:随机实验每个结果都有一函数Z(x1,x2,...,xn,w)(x1,x2,...Xn)Z(x_1,x_2,...,x_n,w) (x_1,x_2,...\in X_n),当各自变量均取任一固定值时,函数ZZ为一随机变量,则称Z为定义在X1,X2,..Xn{X_1, X_2, …..X_n}上的一个随机函数,随机函数Z(x1,x2,...,xn,w)Z(x_1,x_2,...,x_n,w)可理解为具有nn个参数的随机变量族或式所有实Z(x1,x2,...,xn,w)Z(x_1,x_2,...,x_n,w)的集合

随机过程:当随机函数中只有一个自变量x1x_1,且x1=tx_1=t(一般表示时间)时,称为随机过程,记为Z(t,ω)Z(t,ω)Z(t)Z(t). 有两种理解
随机过程是所有随机实现的集合
随机过程是依赖于一个参数t的一族随机变量

你能给出一个现实生活中随机过程的例子吗?

商品价格的涨跌

随机场

•当随机函数依赖于多个(两个及两个以上)自变量时,称为随机场。随机场也可从两方面来理解

•随机场是其所有实现的集合

•随机场是依赖于空间点的一族随机变量,当参数固定时,就是随机变量

小结:

随机函数是具有n个参数的随机变量族
当随机函数中的自变量取一固定值时,随机函数为一随机变量
image-20200517113805829

3.1.2区域化变量

当一个变量呈空间分布时,称之为区域化,这种变量常常反映某种空间现象的特征,用区域化变量描述的现象称之为区域化现象

假设在研究区D内进行机械采样采集了土壤的一种属性,样点个数为nnn*n,其观测值为:

z(xj,yj)i=1,2,...,n,j=1,2,...nz(x_j,y_j) i=1,2,...,n,j=1,2,...n

则区域化变量定义为:数据集z(xj,yj)z(x_j,y_j)是来自于随机函数Z(x,y)(x,y)DZ(x,y) (x,y)∈D,的一个特定实现,即区域化变量z(x,y)z(x,y)的样品实现值集合

区域化变量性质:

  • 随机性:ž局部的、随机的、异常的性质
  • 结构性:变量在点XX与点X+hX+hhh为距离)处的数值Z(x)Z(x)Z(x+h)Z(x+h)具有某种程度的自相关。这种自相关依赖于两点间的距离hh及变量特征
  • 空间局限性:被限制在一定的空间范围内,在该范围之外,变量的属性为0
  • 不同程度的连续性:用相邻样点之间的变异来度量,如土壤厚度连续性强,而土壤有效氮可能在两个非常靠近的样点上,也可能有很大差异(块金效应)
  • ž不同类型的各向异性:若在各个方向上的性质变化相同,称为各向同性,反之,称为各向异性。

两两间隔相同的三个点,其中一组点之间的差异会比另一组点差异大

平原地区的农田可以看出是各项同性的

3.2协方差函数与变异函数

3.2.1协方差函数

Z(x)Z(x)为区域化变量,xx为空间点的位置,hh为空间两点的距离,则协方差函数C(x,x+h)C(x,x+h)
Cov[Z(x),Z(x+h)]=E({Z(x)E[Z(x)]}{Z(x+h)E[Z(x+h)]}) \operatorname{Cov}[Z(x), Z(x+h)]=E(\{Z(x)-E[Z(x)]\}\{Z(x+h)-E[Z(x+h)]\})
h=0h=0,协方差函数C(x,x+h)=var[Z(x)]C(x,x+h)=var[Z(x)]

协方差函数计算方法:

Z(x)Z(x)为区域化随机变量,并满足二阶平稳条件,hh为两样本点空间分隔距离(步长),Z(xi)Z(x_i)Z(xi+h)Z(x_i+h)分别是Z(x)Z(x)在空间位置xix_ixi+hx_i+h上的观测值,则协方差函数的计算公式为
C(h)=1N(h)i=1N(h)[Z(xi)Z(xi)][Z(xi+h)Z(xi+h)] C^{*}(h)=\frac{1}{N(h)} \sum_{i=1}^{N(h)}\left[Z\left(x_{i}\right)-\overline{Z\left(x_{i}\right)}\right]\left[Z\left(x_{i}+h\right)-\overline{Z\left(x_{i}+h\right)}\right]
Z(xi)\overline {Z\left(x_{i}\right)}Z(xi+h)\overline {Z\left(x_{i}+h\right)} 分别为Z(xi)Z(x_i)Z(xi+h)Z(x_i+h)的算术平均值,N(h)N(h)是分隔向量hh时样本的对数

image-20200517130011892

为什么要计算这么复杂的协方差?

协方差函数用于分析空间自相关性变化

3.2.2变异函数

变异函数要会计算,默写

一般成为试验变异函数,有样点计算

是随着一个递增趋势,随着变异性增加,距离是增大的

一维条件下,当空间点xx在一维xx轴上变化时,区域化变量**Z(x)Z(x)在点xxx+hx+h处的值Z(x)Z(x)Z(x+h)Z(x+h)差的方差一半定义为区域化变量Z(x)在x轴方向上的变异函数**。
通常区域化变量Z(x)Z(x)所描述的现象是二维和三维的,则变异函数可定义为在任一方向αα,相距h|h|的两个区域化变量值Z(x)Z(x)Z(x+h)Z(x+h)的增量的方差
2γ(x,h)=Var[Z(x)Z(x+h)]=E[(Z(x)Z(x+h))2](E[(Z(x)Z(x+h))])2 2\gamma(x,h)=Var[Z(x)-Z(x+h)] =E[(Z(x)-Z(x+h))^2]-(E[(Z(x)-Z(x+h))])^2
其中γ(x,h)γ(x,h)称为半变异函数,但有时为方便也称变异函数
变异函数计算公式
γ(h)=12N(h)i=1n[Z(xi)Z(xi+h)]2 \gamma(h)=\frac{1}{2N(h)}\sum_{i=1}^n[Z(x_i)-Z(x_i+h)]^2
其中hh为距离(滞后距)
N(h)N(h)为样点中符合该距离hh的点对数量
xix_ixi+hx_i+h为各点对位置

image-20200517132728681

ž变程 (Range):通常变异函数是一个单调递增函数,当步长hh超过某一数值(a,a>0)(a, a>0)后,变异函数的值不再继续单调地增大,而往往稳定在一个极限值附近,这种现象称为“跃迁现象”,a称为变程。

ž基台值 (Sill): 当变异函数随步长增加到一个相对稳定的水平所对应的变异函数的值。

ž块金常数(Nugget): 对于变异函数γ(h)γ(h),当h0h\to0时,limγ(h)=C0(C0>0)lim γ(h)=C_0 (C_0>0), 即为常数, 这种现象称为块金效应,C0C_0 称为块金常数。

变异函数性质

  • γ(h)=0\gamma(h)=0变异函数在h=0h=0时为0
  • γ(h)=γ(h)\gamma(h)=\gamma(-h),偶函数
  • γ(h)0\gamma(h)\ge0恒大于或等于0
  • h|h|\to \infty时,γ(h)C(0)\gamma(h)\to C(0),当空间上样点间距离无限大时,变异函数接近先验方差
  • [γ(h)][-γ(h)]必须是一个条件非负定函数

变异函数功能:

  • 变异函数通过变程反映变量的影响范围

    1. 通常空间相关性随两点距离的增大而减弱,当步长(h)(h)大于变程(a)(a)时,协方差C(h)=0C(h)=0,即Z(x)Z(x)Z(x+h)Z(x+h)间不存在空间相关性。
    2. 基台值的大小反映了区域化变量变化幅度的大小,即反映区域化变量在研究范围内变异的强度
  • 不同方向上的变异函数图可以反映区域化变量的各向异性,如果在各个方向上区域化变量的变异性相同或相近,则称区域化变量是各向同性,反之称为各向异性。各向同性是相对的,各向异性是绝对的。

  • 块金常数C0C_0的大小可反映区域化变量的随机性大小。块金常数主要有两种来源:微观结构,即区域化变量在小于抽样尺度h时所具有的变异性;采样、测量和分析等误差

  • 变异函数在原点处的性状可以反映区域化变量的空间连续性
    image-20200517132728681

随机样点的试验半方差

在很多情况下,样点并不是规则采集(机械采样)的,而是呈现不规则分布,这时,如何计算试验半方差?
一般地,在实际计算时,假设步长为laglag,当前滞后级别为nn(nn为正整数),则h=nlagh=n*lag,应该这样处理:

计算步骤
1.研究区所有点,找到点对(Pi,Pj)(P_i,P_j),其符合条件:(n1)lag<dis(Pi,Pj)<=nlag(n-1)*lag<dis (P_i,P_j)<=n*lag,它们之间的距离记为DISiDIS_i
2.计算[z(pi)z(pj)]2[z(p_i)-z(p_j)]^2,记为SiS_i.
3.设找到N(h)N(h)个这样的点对,计算平均距离havg=1N(h)i=1N(h)DISih_{avg}=\frac{1}{N(h)}\sum_{i=1}^{N(h)}DIS_i
4.计算r(havg)=12N(h)i=1N(h)Sir^*(h_{avg})=\frac{1}{2N(h)}\sum_{i=1}^{N(h)}S_inn滞后级别上的经验半方差值。
5.将各个级别的(havgr(havg))(h_{avg},r*_{(havg)}),绘制在图上,形成经验半方差图

变异函数计算(三维)

三维区域化变量的计算和二维区域化变量的计算相似

  • 对于等间距规则网格采样数据,在找数据对时可将三维采样数据看做若干二维采样数据分别进行数据对查找
  • 对于不规则网格采样数据,则需在三维空间进行分组

思考题

思考1:为什么变异函数散点图一般在短距离范围内呈递增状态,而达到一定距离(变程)后呈上下波动状态?

超过变程之后,任意两随机样点将不再具有空间相关性

思考2:变程,基台值和块金值三个参数的大小各反映了地理属性空间相关性的什么特征?

变程是变量影响范围的大小,基台值反映的是变异幅度,块金值反映区域化变量的随机性大小,在最小采样尺度下的距离以及随机误差

思考3:对于时空样点数据,如何计算时空经验变异函数?如何理解下图中的时空变异函数?

image-20200517143346497

定义时空变量Z(x)=Z(s,t)sS,tTZ(x)={Z(s,t)|s\in S,t\in T}其中SR2,TRS\in R^2,T\in RSS表示空间域,TT表示时间域

在本征假设条件下,时空变异函数如下:
γ(hS,hT)=12N(hS,hT)i=1N(hS,hT)[z(si,ti)z(si,+hS,ti+hT)]2 \gamma\left(h_{S}, h_{T}\right)=\frac{1}{2 N\left(h_{S}, h_{T}\right)} \sum_{i=1}^{N\left(h_{S}, h_{T}\right)}\left[z\left(s_{i}, t_{i}\right)-z\left(s_{i},+h_{S}, t_{i}+h_{T}\right)\right]^{2}

式中,hSh_ShTh_T分布式空间和时间间隔,N(hS,hT)N(h_S,h_T)为符合所定义间隔点对数

时空变异函数模型

相比较于空间理论变异函数模型,时空变量由于在时间和空间上的度量以及变异情况的不同,使得所需构建的模型较为复杂。通常将时空理论变异模型分为分离型模型和非分离型模型。其中,时空分离模型将时间和空间上的变异分别用一个模型拟合(如球状模型、高斯模型),再将其用乘积、线性组合、乘积和等方式组合起来;而时空非分离模型将时空变异统一考虑,一般基于数学模型产生,如随机微分方程、极限理论、谱密度函数等

时空经验半方差计算

举例

设置空间计算步长为5 km,时间计算步长为1d,最大空间计算距离为100km,最大时间计算距离为14 d,按照上式计算时空经验半方差函数(如图2中黑色“火”型离散点所示)。在空间上,经验半方差函数值随着空间距离增加而增加;在时间上,经验半方差函数值随着时间距离增加而增加,直到3 d以后,经验半方差函数值趋于平稳。

理解时空变异函数:
经验时空变异函数值越小说明两点之间的时空变异性就越小,将时间固定不变,则其就是在二维空间域距离上的变异函数,将空间间距视为不变,则就是在时间维度上的变异,从时间跨度上来看,在时间维度上的变异往往比距离上的变异要大

更加详细内容见如下文献

梅杨,杨勇,李浩.时空理论变异函数模型及其精度影响[J].测绘科学,2017,42(06):1-5+35.

3.3地统计学理论假设

因为区域化变量在同一地点不能重复观测,因此地统计学提出了平稳假设内蕴假设

3.3.1平稳假设

  • 平稳假设:表示当将既定的nn个点的点集从研究区域某一处移向另一处时,随机函数的性质保持不变,也称为平移不变性。

Fx1,...,xn(z1,...,zn)=Fx1+h,...,xn+h(z1,...,zn) F_{x_1,...,x_n}(z_1,...,z_n)=F_{x_1+h,...,x_n+h}(z_1,...,z_n)

随机函数分布的规律性不因位移而改变,是严格平稳的,具有平稳性

举例:

image-20200517131013894

上图中上面一个符合平稳假设

  • 二阶平稳假设

二阶平稳性假设(弱平稳性假设):随机函数的均值为一常数,且任何两个随机变量之间的协方差依赖于它们之间的距离和方向,而不是它们的确切位置

二阶平稳假设需满足两个条件

  • 在整个研究区内,区域化变量的数学期望对任意x存在,且等于常数

E[Z(x)]=m,xD E[Z(x)]=m,x\in D

  • 在整个研究区内,区域化变量的协方差函数对任意x和h存在,且平稳,即:

Cov[Z(x),Z(x+h)]=E[{Z(x)E[Z(x)]}{Z(x+h)E[Z(x)]}]=E[{Z(x)m}{Z(x+h)m}]=E[Z(x)Z(x+h)m2]=C(h) \begin{array}{l} \operatorname{Cov}[Z(x), Z(x+h)]=E[\{Z(x)-E[Z(x)]\}\{Z(x+h)-E[Z(x)]\}] \\ =E[\{Z(x)-m\}\{Z(x+h)-m\}] \\ =E\left[Z(x) Z(x+h)-m^{2}\right]=C(h) \end{array}

在二阶平稳条件下,协方差函数的平稳会对变异函数产生什么影响呢?

  • 协方差函数平稳意味着方差函数和变异函数的平稳。变异函数平稳,意味着变异函数只与步长(h)相关,而与具体位置x无关。
  • 在二阶平稳假设条件下,协方差与变异函数有如下关系:γ(h)=C(0)C(h)γ(h)=C(0)-C(h)
  • ž协方差函数和变异函数都表示相距为hh的两个变量Z(x)Z(x)Z(x+h)Z(x+h)之间的自相关性

3.3.2内蕴(本征)假设

当区域化变量Z(x)Z(x)的增量[Z(x)Z(x+h)][Z(x)-Z(x+h)]满足下列两个条件时,称为满足内蕴(本征)假设:

  • 在整个研究区内,区域化变量Z(x)Z(x)的增量[Z(x)Z(x+h)][Z(x)-Z(x+h)]的数学期望为0,即

E[Z(x)Z(x+h)]=0 E[Z(x)-Z(x+h)]=0

E(x)E(x)存在,条件等价于E[Z(x)]=E[Z(x+h)]=m()E[Z(x)]=E[Z(x+h)]=m(常数)

  • 在整个研究区内,区域化变量Z(x)Z(x)的增量[Z(x)Z(x+h)][Z(x)-Z(x+h)]的方差函数存在且平稳(即只依赖于位移hh, 而与xx无关)

var[Z(x)Z(x+h)]=2γ(h) var[Z(x)-Z(x+h)]=2\gamma(h)

3.3.3准二阶平稳和准内蕴假设

在实际应用中,区域化变量Z(x)Z(x)往往在整个研究区域内并不满足二阶平稳(或内蕴)假设,但有限大小的领域内满足二阶平稳(或内蕴)假设,则称区域化变量Z(x)Z(x)是准二阶平稳(或准内蕴)的

3.3.4小结

就严格性而言:

平稳性假设>二阶平稳性假设>本征假设
本征假设是地统计学中对随机函数的基本假设

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章