① 地理加权回归是怎么一回事(GWR)
1 http://ke..com/view/1189359.html?tp=0_00
2 http://www.cqvip.com/qk/91153A/200803/27235808.html
3 http://www.pinggu.org/bbs/dispbbs.asp?boardid=64&ID=213568
他是空间经济计量学的一个模型
D.P.McMillen和J.F.McDonald(1997),C.Brunsdon,A.S.Fotheringham;MartinCharlton(1996),提出地理加权回归模型(简称GWR模型)。
软件:matlab,gauss均可,只是需要相关检验的时候,需要自己编程
② 地理加权回归需要数据标准化吗
地理加权回归是一种探索空间非平稳性的方法。空间非平稳性是指简单的“全局”回归模型不能充分解释一个地理区域内某些变量之间的关系的一种情况。相反,模型的性质应该随着空间的变化而改变,以反映数据中的结构。例如,在一个地理区域内,与风险因素相关的疾病风险是否保持不变,还是在该区域内的某些点这种关系更强。
Brunsdon等人(1996)开发了地理加权回归,试图通过校准多元回归模型来捕捉这种空间变化,该模型允许变量在空间的不同点之间存在不同的关系。
简介
地理加权回归的基本思想是,在数据中的每一点拟合一个回归模型,根据距离这一点的函数加权所有观测值。这与这样一种观点相一致,即在回归集中的观测点附近采样的观测结果比在更远的观测结果对该点的回归参数有更大的影响。然后在定义的地理区域的每个点生成一组参数估计。然后可以使用GIS软件绘制这些参数估计数,以确定变量之间的关系在何处变化,从而提供一种有用的探索性分析形式。利用蒙特卡罗方法可以进行2个假设检验:
可以用全局模型而不是非平稳模型来描述数据。
个体回归系数在地理空间上是否稳定。
我将介绍如何使用ado文件gwr和gwrgrid在Stata中实现这种方法,这两个文件都将地理加权回归应用于包含地理参考点的数据集。这两个ado文件之间的唯一区别是,gwrgrid在地理区域上放置一个网格,并在每个网格中心执行回归,而gwr在数据的每个点上执行回归。
这些ado文件中的代码是基于Brunsdon等人的论文和由Brunsdon等人编写的FORTRAN程序,并且通过大量依赖Stata中现有的glm函数,已扩展到任何形式的广义线性模型。
案例:将以Brunsdon等人给出的例子为例进行演示——这是1991年英国人口普查中有关汽车拥有率、社会阶层和英格兰东北部泰恩威尔郡男性失业率的一个数据集。
参考文献:
Brunsdon, C., A. S. Fotheringham, and M. E. Charlton. 1996.
Geographically weighted regression: A method for exploring spatial nonstationarity. Geographical Analysis 28: 281–298.
操作应用
空间统计目前Stata进行地理加权回归主要有命令spregxt以及gwr、gwrgrid等,本文主要简介介绍 gwr、gwrgrid命令的基本应用。
gwr语法格式为:
Geographically weighted regression
----------------------------------
gwr depvar [varlist] [ ifexp] [ inrange] , east(varname)
north(varname) [options]
选项包括
saving(filename) dots reps( #) double eform family(familyname)
link(linkname) [ln]offset(varname) testreplace noconstant
nolog scale(x2|dev| #) disp(#) iterate(#) init(varname)
outfile(filename) comma wide bandwidth( #) mcsave(filename)
sample( #)
其中
familyname选项包括 gaussian | igaussian | binomial [varname| #] | poisson | nbinomial [#] | gamma,即核函数类型
linkname 选项包括如下内容:identify | log| logit | probit | cloglog | opower # | power # | nbinomial
test:要求测试带宽的重要性。这测试了gwr模型对数据的描述是否明显优于 全局的回归模型。
sample( #)指定在带宽校准过程中使用的观测值百分比,默认为100%。这是特别对于大型数据集很有用,可以减少校准带宽所需的时间。如果指定了该选项,将随机抽取#%的观测数据并用于校准过程。
bandwidth( #)允许用户输入带宽值,并减少gwr运行所需的时间。
nolog抑制带宽优化迭代的显示。
iterate( #)指定在估计带宽时允许的最大迭代次数。默认值为50。
save (filename)创建一个Stata数据文件,其中包含从计算gwr的每个点估算的参数。
outfile(filename)创建文本文件filename。
replace表示save和/或outfile指定的文件可以 被覆盖。它也适用于mcsave选项。
reps( #)指定要执行的蒙特卡罗模拟的数量。默认值为1000。
操作案例:
gwr cars class unemp, east(easting) north(northing) test
gwr flag class unemp, east(east) north(north) fam(binomial) link(logit)
gwrgrid y x1, east(east) north(north) fam(b) link(l) square(10) samp(25)
结果为:
. gwr cars class unemp, east(easting) north(northing) test
Global Model
Source | SS df MS Number of obs = 120
-------------+---------------------------------- F(2, 117) = 287.17
Model | 4.51965851 2 2.25982925 Prob > F = 0.0000
Resial | .920700696 117 .007869237 R-squared = 0.8308
-------------+---------------------------------- Adj R-squared = 0.8279
Total | 5.4403592 119 .045717304 Root MSE = .08871
------------------------------------------------------------------------------
cars | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
class | .0188073 .0033449 5.62 0.000 .0121829 .0254316
unemp | -.0182798 .0011238 -16.27 0.000 -.0205054 -.0160543
_cons | .8847704 .0288569 30.66 0.000 .8276208 .94192
③ 地理加权回归
这些都是统计分布的特征参数。min就是最小值,max是最大值,mean是平均值,median是中位数,1st quantile是第一分位数,就是排名前25%对应的样本值,3nd quantile是第三分位数,也就是前75%对应的样本值。
④ gis进行地理加权回归解释变量局部共线性怎么解决
对于具有统计显着性的系数,其概率和/或稳健概率列的
p
值旁将带有星号。您也可以从此报表该页上的信息了解是否存在任何冗余的解释变量(表示有问题的多重共线性)。除非理论另有说明,否则应逐个删除具有较高方差膨胀因子
(VIF)
值的解释变量,直到剩下的所有解释变量的
VIF
值均小于
7.5。
Koenker
(BP)
统计量(Koenker
的标准化
Breusch-Pagan
统计量)是一种检验方法,用于确定模型的解释变量是否在地理空间和数据空间中都与因变量具有一致的关系。如果模型在地理空间中一致,由解释变量表示的空间进程在研究区(进程稳态)各位置处的行为也将一致。如果模型在数据空间中一致,则预测值与每个解释变量之间关系的变化不会随解释变量值的变化而变化(模型不存在异方差性)。假设要对犯罪情况进行预测,其中一个解释变量为收入。如果对收入的中位数较小的位置的预测比对收入的中位数较大的位置的预测更准确,则说明模型的异方差性就会出现问题。该检验的零假设为所检验的模型是稳态的。对于大小为
95%
的置信度,p
值(概率)小于
0.05
表示模型具有统计学上的显着异方差性和/或非稳态。如果该检验的结果具有统计显着性,则需参考稳健系数标准差和概率来评估每个解释变量的效果。具有统计显着性非稳态的回归模型通常很适合进行地理加权回归
(GWR)
分析。
⑤ 关于地理加权回归模型的问题,有没有懂统计学的大神解释一下。
s://blog.csdn.net/allenlu2008/article/details/72870882
地理加权回归分析完成之后,与OLS不同的是会默认生成
⑥ 如何运用Matlab进行地理加权回归分析
地理加权回归,由英国Newcastle大学地理统计学家A.S Fortheringham及其同事基于空间变系数回归模型并利用局部多项式光滑的思想提出的模型。模型公式如下:
其中(yi;xi1,xi2,…,xip)为在地理位置(ui,vi)处的因变量y和自变量x1,x2,…,xp的观测值(i=1,2,…,n).βj(ui,vi)(j=0,1,…,p)为观测点(ui,vi)处的未知参数,它是(ui,vi)的未知函,εi(i=1,2,…,n)为独立同分布的随机误差,通常假定其服从N(0,σ2).
⑦ 地理加权回归需要考虑多重共线性吗
需要。1、描述
执行“地理加权回归 (GWR)”,这是一种用于建模空间变化关系的线性回归的局部形式。
2、一图读懂GWR
GWR 为局部回归模型。系数可以变化。
3、使用
GWR 为数据集中的各要素构建了一个独立的方程,用于将各目标要素的带宽范围内的要素的因变量和解释变量进行合并。带宽的形状和范围取决于用户输入的核类型、带宽方法、距离以及相邻要素数等参数,但也存在一条限制:如果相邻要素的数目超过 1000,则仅将最相邻的 1000 个要素合并到各个局部方程中。
GWR 通常被要求用于处理包含数百个要素的数据集,以便获得最佳结果, GWR 不适用于小型数据集。而且,此工具不能用于处理多点数据。
注:GWR 工具会生成各种输出。右键单击结果窗口中的消息条目,然后选择视图,将显示 GWR 工具的执行汇总报告。
此外,GWR 工具也会生成一个输出要素类和一个包含了工具执行汇总报告诊断值的表。会自动将此表以输出要素类名加上 _supp 作为后缀的形式进行命名。输出要素类会自动添加至内容列表中,并会对模型残差应用热/冷渲染方案。在解释 GWR 结果中提供了有关各输出的完整说明。_supp 文件的创建位置始终与输出要素类相同,除非输出要素类被创建在一个要素数据集内。当输出要素类位于要素数据集内时,_supp 表则会创建在该要素数据集所在的地理数据库中。
建议您使用投影数据。这一点在距离成为分析的一部分时尤其重要,因为在您针对核类型选择固定时,会对 GWR 使用投影数据。建议您使用投影坐标系(而非地理坐标系)对数据进行投影。
由 GWR 工具执行的某些计算会利用多个 CPU 以提高性能,并会自动使用多达 8 条线程/CPU 进行处理。
应该始终从普通最小二乘法 (OLS) 回归开始回归分析。首先获得一个正确指定的 OLS 模型,然后使用同样的解释变量运行 GWR(不包括表示不同空间组织的任何“哑元”解释变量)。
因变量和解释变量应该是包含各种值的数值型字段。线性回归方法(如 GWR)不适于预测二进制结果(例如,因变量的所有值不是 1 就是 0)。
如果在 GWR 模型中包含名目数据或分类数据,则需谨慎操作。在类别出现空间聚类的地方,存在局部多重共线性的风险。GWR 输出中包含的条件数指明了局部共线性何时会导致问题(条件数小于零、大于 30 或设置为“空”)。存在局部多重共线性的结果是不稳定的。
请勿使用人工解释变量来表示 GWR 模型中的不同空间组织(例如,向城镇中心外的人口普查区赋予值 1,而向其他区域赋予值 0)。由于 GWR 允许解释变量系数发生变化,这些空间组织解释变量并不必要,并且如果包含了这些变量,则会产生局部多重共线性问题。
要更好地了解解释变量系数当中的区域变化,请检查由 GWR 创建的可选栅格系数表面。将在系数栅格工作空间中创建这些栅格表面。对于面数据,您可以对输出要素类中的每个系数字段使用渐变色彩或由冷色到暖色的渲染以检查整个研究区域的更改。
通过提供预测位置要素类(通常,此要素类与输入要素类相同)、预测解释变量和输出预测要素类,您可以使用 GWR 进行预测。在用来校正回归模型的字段(解释变量字段的输入值)与用来预测的字段(预测解释变量字段的输入值)之间必须是一对一的对应关系。这些变量的顺序必须相同。例如,假设您当前正针对交通事故构建一个有关速度限制、道路条件、车道数量以及汽车数量的函数。通过创建一个具有修正后的速度限制和道路条件的新变量,您可以预测更改速度限制或改善道路状况可能对交通事故产生的影响。现有变量将用于校正回归模型,并用作解释变量的参数。修正的变量将用于预测,并可作为预测解释变量。
如果提供了预测位置要素类,但未指定预测解释变量,则仅使用各位置的已计算系数创建输出预测要素类(不进行任何预测)。
如果回归模型缺少关键解释变量,则会导致回归模型的指定错误。如果回归残差的空间自相关具有统计学上的显着性,或者在一个或多个解释变量的系数当中发生了非期望的空间变化,则表明错误指定了您的模型。您应该尽一切努力(例如,通过 OLS 残差分析和 GWR 系数变化分析)来查找这些丢失的关键变量,以便在模型中包含这些变量。
时刻关注解释变量的不稳定性是否会出现问题。例如,假设您正将特殊植物种类的密度构建为若干变量(包括 ASPECT)的函数。如果发现在整个研究区域中 ASPECT 变量的系数发生了更改,则可能要查看是否有缺少关键解释变量的迹象(例如,可能存在大量竞争植被)。应该尽一切努力将所有关键解释变量包含到回归模型中。
为带宽方法参数选择 AICc(更正后的 Akaike 信息准则)或 CV(交叉验证)时,GWR 将查找最佳距离(对于固定核)或最佳相邻要素的数目(对于自适应核)。但是,局部多重共线性问题将会阻止 AICc 和 CV 带宽方法解析最佳距离/相邻要素的数目。如果出现表示模型设计存在严重问题的错误,则请尝试指定特殊距离或相邻要素的数目, 然后检查输出要素类中的条件数,以查看哪些要素与局部共线性问题相关联。
严重模型设计错误或用于表明局部方程未包含足够多相邻要素的错误,通常表示回归存在全局或局部多重共线性问题。要确定出现问题的位置,请使用 OLS 运行模型,然后检查每个解释变量的 VIF 值。如果某些 VIF 值较大(例如,大于 7.5),则全局多重共线性会阻止 GWR 解决问题。但是,更有可能是局部多重共线性所导致的问题。请尝试为各解释变量创建一个专题地图。如果在地图上出现相同值的空间聚类,考虑将这些变量从模型中移除,或将这些变量与其他解释变量合并以便加大值的变化性。例如,如果要对房屋价格进行建模且具有卧室和浴室两个变量,则可能需要将其合并以加大值的变化性,或将其表示为浴室/卧室的建筑面积。在构造 GWR 模型时,要避免使用空间组织哑元变量、空间聚类名目或数值变量或者几乎不可能具有值的变量。
GWR 是一种线性模型,其前提条件与 OLS 相同。要确保正确指定您的 GWR 模型,请参阅回归分析基础知识中的回归模型失效方式部分。