Ⅰ 地理加权回归需要数据标准化吗
需要。地理加权回归是源型一种空间分析技术,广泛应用于地理学及涉及空激键间模式分析的相关学科,需要数据标准化,通过建立空间范围内每个点处的局部回归方程,来探索研究对象在某一尺度下的空间变化及相关驱动因素,并可用雹铅猜于对未来结果的预测。
Ⅱ 统计学的知识,有没有人知道地理加权回归模型
愤怒的小小刚
LV.7 2019-01-14
s://blog.csdn.net/allenlu2008/article/details/72870882
Ⅲ 关于地理加权回归模型的问题,有没有懂统计学的大神解释一下。
s://blog.csdn.net/allenlu2008/article/details/72870882
地理加权回归分析完成之后,与OLS不同的是会默认生成
Ⅳ 地理加权回归分析需要多大的数据量才能做
本帖最后由 区域经济爱好者 于 2013-11-23 13:00 编辑
第一,GWR缺少统一的统计推断框架。不同区位回归系数之间的依赖性也没有在模型中说明。因此,GWR中标准误是近似的。这是由于不同区位参数估计中,重复使用了数据;还因为应用这些数据线估计了带宽,然后估计回归系数。
我对这段话只是明白一部分,请大家进一步解释一下。谢谢。
第二,GWR计算每个样本点的回归系数。如果样本数很大,那将导致非常复杂的结果。如何利用并解析这些结果,归纳出一定的规律呢?另一方面,如果样本很小,又怎么进行GWR估计呢?所以样本大了,不容易找规律;样本小了,又没法进行回归分析。这是一个矛盾体。
怎么办?
Ⅳ 地理加权回归难吗
难,空间回归模型中的回归系数不随空间位置而变化,因此空间回归模型是全局模型。但是由于空间异质性和空间非平稳性,不同空间子区域中自变量和因变量的关系很可能不同,因此就需要处理空间异质性的局部空间回归方法,因此就有了地理加权回归模型(Geographically Weighted Regression, GWR)的提出。地理加权回归同时考虑了空间的相关性与异质性。
地理加权回归模型一般形式如下:
第 1 页
防火板首选福建原时态
A级防火板生产厂家,技术领先品质保障,尺寸齐全,厂家直销 。可按需定制。详情欢迎来电咨询
点击立即咨询,了解更多详情
咨询
福建原时态建筑工程 广告
;
其中,与是因变量与自变量在处的观测值,为第个采样点的坐标,是第个采样点上的第个回归参数,点被称为回归点。,当时,。简便记为:
第 2 页
地理加权回归会得出个回归方程,对应每个回归点,都会有一个回归方程。若郑誉贺,则地理加权回归模型退化为普通线性回归模型。
模型回归参数需要通过局部加权最小二乘进行估计。假设在位置的权重为,(),那么位置的参数估计为使达到最小的值。
上式中的为权函数,反映其他观测点的样本对回归点的影响。权函数值越大,影响越大。该值通常由对应两点之间的距离决定。常用的权函数有:
第 3 页
(1)Gauss函数:
(2)bi-square函数:
以上两式中的为点到点的距离。被称为带宽,是需要人工选择的参数。这两个函数中,距离越大,函数值都越小。这说明选择这两个函数时,都假设观测点越远,影响越小。
第 4 页
地理加权回归模型将数据的空间位置嵌入到回归参数中,因此考虑了空间的异质性。同时,由于不同位置虚告的观测点对回归参数的影响大小不同(通常离回归点越近,影响越大),因此该模型也考虑了空间相关性。地理加权回归的使用,也当同时以空间相关性与异质性为前提。如果没有空间相关性,那么该模型就缺乏合理性。如果没有空间异质性,那么该模型就缺乏必要性。
【案例72】
以2011年北京、天津、唐山各县(区)疾病发病率和同期各县(区)的人口密度、人均GDP、年平均风速、光照强度
第 5 页
、相对湿度、年降水量等数据为例,研究社会经济和气象因素对该疾病发病率在各地区影响的不稳定性。
本节所用的数据为2011年某地区某疾病的发病率(C:\Example\Data\7.3WGR\地区汇总.csv),命名为“地区汇总.csv”。此处只展示前10条
表 73 2011年某地区的某疾病发病情况
code
precp
relHum
sunShn
wndspd
PopuDen
PerGdp
rate
110101
58.06842
49.82301
206.0755
2.195716
15318.95
0.002438
347.1859
110102
62.59835
52.05048
202.8901
2.169381
14956.04
0.003675
447.7185
110105
57.65938
50.06015
205.5302
2.189571
8528.913
0.00096
1139.069
110106
55.73981
50.20182
205.5477
2.215026
7698.981
0.000419
1759.943
110107
52.39305
50.77886
205.6759
2.255836
8249.254
0.000541
1561.691
110108
52.13075
51.01494
207.5023
2.255693
8524.685
0.001021
1010.973
110109
44.66608
53.70504
218.3655
2.473628
224.6719
0.00038
758.6155
110111
46.62295
52.79277
208.7774
2.333494
532.4592
0.000457
2082.544
110112
55.23023
51.21378
201.2761
2.186171
1454.807
0.00036
2406.252
110113
50.22722
55.34219
195.5819
2.014273
967.6505
0.001211
1643.1
第 6 页
表 74各变量的含义
变量名称
变量含义
单位
code
地理编码
无
precp
降喊派水量
毫米
relHum
相对湿度
%
sunShn
日照强度
瓦/平方米
wndspd
风速
千米/时
popuDen
人口密度
千人/平方公里
PerGdp
人均国内生产总值
千元
rate
发病率
此外,还需要的数据是包含该地区所有区县的地图文件(.dbf文件和.shp文件
从光盘中获取,C:\Example\Data\Geodata\JJT)。该文件也可以通过arcgis软件从全国各区县地图中选择生成。
(2)采用R语言建立地理加权回归模型
第一步,加载如下程序包,代码如下:
library(spgwr)
第二步,导入所需的数据,代码如下:
hData <- read.csv("C: /Example/Data/7.3WGR/地区汇总.csv ")#导入发病率和影响因素的数据
dbf <- read.dbf("C: /Example/Data/Ge
odata /JJT.dbf")#导入地图的数据(dbf格式)
第三步,将导入的两组数据合并,代码如下:
Data <- merge(hData,dbf, by.x="code" , by.y = "CNTY_CODE" , all.x =T)
第四步,确定带宽,采用gwr.sel函数。所使用的参数如下:
formula:模型公式,用于指出因变量与自变量;
data:自变量与因变量取值的数据集;
coords:代表空间观测值位置的坐标矩阵。
代码如下:
col.bw <- gwr.sel(rate ~ PopuDen + PerGdp+precp+relHum+sunShn+wndspd, data=data, coords=cbind(data$x, data$y)) #利用交叉验证选择最优带宽
第五步,生成地理加权回归模型,采用gwr函数,使用的各参数意义如下:
formula:模型公式,用于指出因变量与自变量;
data:自变量与因变量取值的数据集;
coords:代表空间观测值位置的坐标矩阵;
第 10 页
bandwidth:带宽,由上步gwr.sel生成;
gweight:不指定时,默认使用高斯函数确定权重矩阵;
hatmatrix:如果为TRUE,帽子矩阵作为结果的一部分返回。
代码如下:
col.gauss <- gwr(rate ~ PopuDen + PerGdp+precp+relHum+sunShn+wndspd, data=data, coords=cbind(data$x, data$y), bandwidth=col.bw, hatmatrix=TRUE)
col.gauss
此外,地理加权回归还经常使用bi-square权函数,该方法和Gauss权函数方法相似,这里只将实现代码列出,代码如下:
col.d <- gwr.sel(rate ~ PopuDen + PerGdp+precp+relHum+sunShn+wndspd, data=data, coords=cbind(data$x, data$y), gweight=gwr.bisquare) #确定带宽
col.bisq <- gwr(rate ~ PopuDen + PerGdp+precp+relHum+sunShn+wndspd, data=data, coords=cbind(data$x, data$y), bandwidth=col.d, gweight=gwr.bisquare, hatmatrix=T) #建立地理加权回归模型
第 12 页
col.bisq #结果展示
(3)结果分析
建立的地理加权回归截距和系数统计如表 75所示:
表 75 加权回归系数统计表
变量
最小
四分之一分位数
中位数
四分之三分位数
最大值
全局
截距
-3478.00
-2391.00
896.50
4100.00
11420.00
1223.24
PopuDen
-0.05
-0.04
-0.04
-0.03
0.01
-0.04
PerGdp
-191700.00
-106600.00
-24080.00
-1769.00
44410.00
-37167.70
precp
-0.68
-0.34
-0.26
0.28
2.29
-0.08
relHum
-133.90
-72.10
-21.84
32.26
52.46
-31.49
sunShn
-16.88
0.50
0.84
1.45
2.94
0.66
wndspd
-91.81
357.90
625.00
667.20
874.70
775.70
从计算结果可以看出,由于地理加权回归得出了影响因素在每个地区的影响系数,各个因素对每个地区的影响程度并不相同,若系数的变化范围较大,说明该影响因素总体上影响程度有很大的不稳定性,若系数的变化范围较小,说明该影响因素总体上影响比较稳定。从该案例可以看出,当月人均国内生产总值对疾病的发病率影响最大,并且在大部分地区呈负相关关系,即当月人均国内生产总值越高,疾病发病率越低,此外该变量的系数变化范围十分大,说明该因素在不同地区的影响程度有很大差别,具有不稳定性。其次,风速对该病的发病率影响也较大,但风速与该病的
第 14 页
发病率大部分呈正相关,即风速越大,该病的发病率越大,可以推断该病可以通过空间传染。在6个影响因素中人口密度对疾病的发病率影响最低。
地理加权回归模型的R2为0.47,即该模型能解释疾病发病率总变异的47%,比全局普通线性回归的R2(0.23)大一倍。因此对于存在空间相关性的变量,应该使用地理加权回归进行计算。
空间回归与地理加权回归的比较:
空间回归与地理加权回归都是在经典的回归模型上考虑事物的空间属性,从而发展出来的。
空间回归通常只考虑空间相关性,而地
理加权回归同时考虑了空间相关性与异质性。
从本质上说,两种模型考虑空间相关性的角度也不同。空间回归模型实质是考虑值的空间相关性。而地理加权回归模型考虑的是数量关系或规律的空间相关性。
与只考虑空间相关性的空间回归模型相比,同时考虑空间相关性与异质性的地理加权回归模型显然考虑得更为细致。但是地理加权回归模型的求解更为复杂,且结果更难解读。比如需要逐个解读n个回归方程。这意味着通过地理加权回归较难掌握全局的规律。因此,空间回归模型更善于刻画全局规律。
Ⅵ 地理加权回归需要数据标准化吗
地理加权回归是一种探索空间非平稳性的方法。空间非平稳性是指简单的“全局”回归模型不能充分解释一个地理区域内某些变量之间的关系的一种情况。相反,模型的性质应该随着空间的变化而改变,以反映数据中的结构。例如,在一个地理区域内,与风险因素相关的疾病风险是否保持不变,还是在该区域内的某些点这种关系更强。
Brunsdon等人(1996)开发了地理加权回归,试图通过校准多元回归模型来捕捉这种空间变化,该模型允许变量在空间的不同点之间存在不同的关系。
简介
地理加权回归的基本思想是,在数据中的每一点拟合一个回归模型,根据距离这一点的函数加权所有观测值。这与这样一种观点相一致,即在回归集中的观测点附近采样的观测结果比在更远的观测结果对该点的回归参数有更大的影响。然后在定义的地理区域的每个点生成一组参数估计。然后可以使用GIS软件绘制这些参数估计数,以确定变量之间的关系在何处变化,从而提供一种有用的探索性分析形式。利用蒙特卡罗方法可以进行2个假设检验:
可以用全局模型而不是非平稳模型来描述数据。
个体回归系数在地理空间上是否稳定。
我将介绍如何使用ado文件gwr和gwrgrid在Stata中实现这种方法,这两个文件都将地理加权回归应用于包含地理参考点的数据集。这两个ado文件之间的唯一区别是,gwrgrid在地理区域上放置一个网格,并在每个网格中心执行回归,而gwr在数据的每个点上执行回归。
这些ado文件中的代码是基于Brunsdon等人的论文和由Brunsdon等人编写的FORTRAN程序,并且通过大量依赖Stata中现有的glm函数,已扩展到任何形式的广义线性模型。
案例:将以Brunsdon等人给出的例子为例进行演示——这是1991年英国人口普查中有关汽车拥有率、社会阶层和英格兰东北部泰恩威尔郡男性失业率的一个数据集。
参考文献:
Brunsdon, C., A. S. Fotheringham, and M. E. Charlton. 1996.
Geographically weighted regression: A method for exploring spatial nonstationarity. Geographical Analysis 28: 281–298.
操作应用
空间统计目前Stata进行地理加权回归主要有命令spregxt以及gwr、gwrgrid等,本文主要简介介绍 gwr、gwrgrid命令的基本应用。
gwr语法格式为:
Geographically weighted regression
----------------------------------
gwr depvar [varlist] [ ifexp] [ inrange] , east(varname)
north(varname) [options]
选项包括
saving(filename) dots reps( #) double eform family(familyname)
link(linkname) [ln]offset(varname) testreplace noconstant
nolog scale(x2|dev| #) disp(#) iterate(#) init(varname)
outfile(filename) comma wide bandwidth( #) mcsave(filename)
sample( #)
其中
familyname选项包括 gaussian | igaussian | binomial [varname| #] | poisson | nbinomial [#] | gamma,即核函数类型
linkname 选项包括如下内容:identify | log| logit | probit | cloglog | opower # | power # | nbinomial
test:要求测试带宽的重要性。这测试了gwr模型对数据的描述是否明显优于 全局的回归模型。
sample( #)指定在带宽校准过程中使用的观测值百分比,默认为100%。这是特别对于大型数据集很有用,可以减少校准带宽所需的时间。如果指定了该选项,将随机抽取#%的观测数据并用于校准过程。
bandwidth( #)允许用户输入带宽值,并减少gwr运行所需的时间。
nolog抑制带宽优化迭代的显示。
iterate( #)指定在估计带宽时允许的最大迭代次数。默认值为50。
save (filename)创建一个Stata数据文件,其中包含从计算gwr的每个点估算的参数。
outfile(filename)创建文本文件filename。
replace表示save和/或outfile指定的文件可以 被覆盖。它也适用于mcsave选项。
reps( #)指定要执行的蒙特卡罗模拟的数量。默认值为1000。
操作案例:
gwr cars class unemp, east(easting) north(northing) test
gwr flag class unemp, east(east) north(north) fam(binomial) link(logit)
gwrgrid y x1, east(east) north(north) fam(b) link(l) square(10) samp(25)
结果为:
. gwr cars class unemp, east(easting) north(northing) test
Global Model
Source | SS df MS Number of obs = 120
-------------+---------------------------------- F(2, 117) = 287.17
Model | 4.51965851 2 2.25982925 Prob > F = 0.0000
Resial | .920700696 117 .007869237 R-squared = 0.8308
-------------+---------------------------------- Adj R-squared = 0.8279
Total | 5.4403592 119 .045717304 Root MSE = .08871
------------------------------------------------------------------------------
cars | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
class | .0188073 .0033449 5.62 0.000 .0121829 .0254316
unemp | -.0182798 .0011238 -16.27 0.000 -.0205054 -.0160543
_cons | .8847704 .0288569 30.66 0.000 .8276208 .94192
Ⅶ 求教:地理加权回归做出来结果(GWR)怎么检验
SAM软件可以做GWR模型也可以检验。输入多个变量不能计算,估计是因为你的数据有问题。但是把那个有问题的数据删除了就可以计算。GWR缺少统一的统计推断框架。不同区位回归系数之间的依赖性也没有在模型中说明。因此,GWR中标准误是近似的。这是由于不同区位参数估计中,重复使用了数据;还因为应用这些数据线估计了带宽,然后估计回归系数。求教:地理加权回归做出来结果(GWR)怎么检验
Ⅷ 求助用matlab怎么做地理加权回归
地理加权回归(Geographically Weighted Regression,简称GWR),由英国Newcastle大学地理统计学家A.S Fortheringham及其同事基于空间变系数回归模型并利用局部多项式光滑的思想提出的模型。模型公式如下:
其中(yi;xi1,xi2,…,xip)为在地理位置(ui,vi)处的因变量y和自变量x1,x2,…,xp的观测值(i=1,2,…,n).βj(ui,vi)(j=0,1,…,p)为观测点(ui,vi)处的未知参数,它是(ui,vi)的未知函,εi(i=1,2,…,n)为独立同分布的随机误差,通常假定其服从N(0,σ2).
Ⅸ 地理加权回归是怎么一回事(GWR)
1 http://ke..com/view/1189359.html?tp=0_00
2 http://www.cqvip.com/qk/91153A/200803/27235808.html
3 http://www.pinggu.org/bbs/dispbbs.asp?boardid=64&ID=213568
他是空间经济计量学的一个模型
D.P.McMillen和J.F.McDonald(1997),C.Brunsdon,A.S.Fotheringham;MartinCharlton(1996),提出地理加权回归模型(简称GWR模型)。
软件:matlab,gauss均可,只是需要相关检验的时候,需要自己编程
Ⅹ 地理加权回归
这些都是统计分布的特征参数。min就是最小值,max是最大值,mean是平均值,median是中位数,1st quantile是第一分位数,就是排名前25%对应的样本值,3nd quantile是第三分位数,也就是前75%对应的样本值。