① 地理信息系统包括哪些研究方向
美国大学一般将地理信息系统硕士课程开设在地理系。2002年,美国大学地理信息科学协会(UCGIS)为地理信息系统划分了19个研究方向,这19个 方向又可以归属于地理数据的收集、处理、分析与表达四个阶段。
在地理数据的获取和收集过程中,GIS主要研究地理数据的准确性和不确定性(Uncertainty in Geographic Information)。地理数据通常通过野外测量、数字化、遥感等手段获得,获取过程中不可避免地存在误差。该研究方向讨论的便是如何处理、减少这些 误差,以及针对数据中存在的不确定性错误进行处理的方法和技术。数据的获取手段和表达处理方式日渐成熟,但数据的误差和不确定性却会永久存在,因此该研究 方向被视为GIS研究领域中富有永久生命力的方向之一。
随着中国地理信息数据库的建设和更新以及全球地理信息数据共享热潮的到来,地理信息的组织和管理过程是当前国内GIS领域研究的重点,在中国有着最为广泛 的实践和应用空间。其中较为热门的研究方向包括空间认知(Spatial Cognition)、海量数据库机构体系(Institutional Aspects of Spatial Data Infrastructure)、空间本体论(Spatial Ontologies)、空间决策支持系统(Spatial Decision Support System)、时空数据关系及建模(Space and Space/Time Analysis and Modeling)、GIS和RS技术的集成(Incorporating Remotely Sensed Data and Information in GIS )、时空数据语义研究(Geospatial Semantic Web)、空间数据共享以及互操作研究(Integration)等。
地理信息数据获取手段的不断丰富和提高使得地理信息数据量正在以惊人的速度增长,海量的地理数据正在等待GIS专家进行分析和利用,地理数据背后隐藏的巨 大潜力仍有待挖掘。鉴于此,国外目前的GIS研究热点集中在地理信息的分析和表达过程,其中最为热门的研究方向包括与网络结合的网络地理服务 (GeoWeb)、与计量地理有关的空间数据统计分析(Geo-computation)、空间数据挖掘(Geographic Data Mining and Knowledge Discovery)、应急反应中的数据获取和分析(Emergency Data Acquisition and Analysis)、空间信息可视化和虚拟地理环境(Visualization)、社会背景中GIS的表达以及GIS在公众信息传播中的研究(GIS and Society)等。
② 大数据的不确定性指的是什么
你好 很高兴回答你的问题
不确定性数据的产生原因比较复杂。可能是原始数据本来就不准确或是采用了粗粒度的数据集合,也可能是原始数据是为了满足特殊应用目的或是经过处理缺失值或者数据集成而生成的。
③ 地理信息科学的地理信息科学基本问题
1)分布式计算
2)地理信息的认知
3)地理信息的互操作
4)比例尺
5)空间信息基础设施的未来
6)地理数据的不确定性和基于GIS的分析
7)GIS和社会
8)地理信息系统在环境中的空间分析
9)空间数据的获取和集成等等
地理信息科学在对于地理信息技术研究的同时,还指出了支撑地理信息技术发展的基础理论研究的重要性。
随着以地理信息系统技术为核心的遥感、全球定位系统等技术的发展以及其间的相互渗透,逐渐形成了3S集成化技术系统,为解决区域范围更广,复杂性更高的现代地学问题提供了新的分析方法和技术保证。七十年代以来,由于整个人类社会面临的人口、资源、环境和发展等各方面的问题,逐渐开始重视全球变化(GlobalChange)以及可持续发展 (Sustainable Development)等方面的研究,这两个方面的推动,最终促成了地球信息科学的产生。
④ 啥叫“不确定”
“不确定” 这个词儿,三脚猫专家到处滥用,在人工智能安全(AI safety)、风险管理、投资组合优化、科学计量、保险等领域尤甚。试摘录几则,常见于日常交流之间:
在数学上, 不确定性 反应了随机变量的 离散程度 。换句话说,不确定性是一个具体的数值,反应某个随机变量有多么“随机”。在金融领域,不确定性还有个名字,叫 风险 。
说来奇怪,至今没有公式来表示不确定性。现存度量离散程度的方法有多种:标准差、方差、风险值(value-at-risk,VaR)、熵。不过,对于以上方法算来的数值,却不尽然反应“随机性”,这是因为随机性涉及整个随机变量的全部。
尽管如此,为了优化和比较,将随机性降低到单个数字表示是必要的。 划重点, “不确定性更大”,通常等同于“更糟糕” (增强学习的某些实验除外)。
统计机器学习关注模型的参数估计 ,进而估计未知的随机变量 。多种形式的不确定性在这里发挥作用,其中一些描述了预期的内在随机性(例如硬币翻转的结果),其他一些则来源于对模型参数的信心程度。
为了使上述理论更具体,让我们考虑一个递归神经网络(RNN),它从一系列地表的气压计读数中预测当天的降雨量。 气压计测量大气压力,即将下雨时通常气压会下降。 下图总结了降雨预测模型里,不同类型不确定性的图表。
内在不确定性中,aleatory的拉丁文词源是 aleatorius ,本意是用来当骰子玩的 羊距骨 ,引申义为蕴含随机性的过程。内在不确定性描述了数据生成过程本身的随机性。哪怕采样再多的数据,也无法消除这一随机性。 正如抛掷硬币,在落地之前无法知道其结果。
我们用降雨预测做类比,气压表的不精确带来了内在不确定性。除此之外,还有一些重要的变量在数据收集设置里没有观察到:昨天有多少降雨量? 我们是在测量当前的气压,还是最后一次冰期时的气压?这些未知变量是我们数据收集装置所固有的,因此从该系统收集更多数据,并不能免除这种不确定性。
内在的不确定性将会从输入,一直延续到模型的预测结果。考虑一个简单的模型 ,输入采用正态分布式 。这时 。因此,预测分布的内在不确定性可以用来描述 。当然,在输入数据 的随机机制不清楚时,预测内在不确定性会更难。
有人可能会认为,由于内在不确定性是不可减少的,因而对此也做不了什么,所以应该忽略它。 事实上并不是!训练模型时须注意选择那些能够正确表示内在不确定性的输出表示。 标准LSTM不会产生概率分布,因此尝试学习硬币翻转的结果只会收敛到均值。 相反,用于语言生成的模型产生了一系列分类分布的随机概率(单词或字符),可以用在句子补全任务中,捕获模型的内在不确定性。
“好的模型总是相似的;坏的模型各有各的错法。”
认知不确定性中,Epistemic源于希腊词根epistēmē,意思是 有关知识的知识 。 它衡量的是,由于我们对正确模型参数的未知,而带来的对正确预测的未知程度。
下图是某些一维数据上高斯过程回归的模型图。 置信区间(蓝色)反映了认知不确定性。对于训练数据(红点),不确定性为零。随着我们离训练点越来越远,预测分布将分配到更高的标准差。 与内在不确定性不同,我们可以通过在缺乏知识的输入区域收集更多数据,来“消除”模型的认知不确定性。
如果想要在模型选择上注入更大的灵活性,一个好主意就是使用模型集成(ensemble),即合理利用“多个独立学习模型结果”的一种巧妙方式。类似于高斯过程解析地定义了 预测分布 ,集成学习估计了预测的 经验分布 。
由于在训练过程中发生的随机偏差,任何单个模型都会产生一些错误。但是,把多个模型集成起来就会很强大。因为集成的模型犯错类型不同,当某个模型暴露其具有自身风格的失败时,其他多数模型与正确推断的预测一致。
我们如何从多个模型中随机抽样,构建集成模型呢?在 使用自举聚合进行集成 【也叫bagging】时,我们从规模为 的训练数据集中,采样 个大小为 的数据集(其中各个数据集都不涵盖整个原始训练集)。使用 个模型在各自的数据集上独立训练,其结果预测形成共同的经验预测分布。
如果训练多个模型代价太大,也可以使用 Dropout 操作来近似模型集成。不过,引入Dropout涉及额外的超参数,并且可能损害单个模型的性能(对于现实中的应用,Dropout在准确性要求极高,而不确定性估计是次要的场景中,是不能使用的)。
因此,如果你拥有丰富的计算资源(就像谷歌那样),训练一个模型的多个副本,【对于减少认知不确定性来说,】通常会更容易。这种做法具备集成的好处,而又不会损害性能。这即是 深度集成学习 这篇论文采用的方法。论文的作者还提到,不同权重初始化将引起训练的随机波动,这就足以形成多种【表现迥异的】模型,而不必通过自举聚合来应对训练集的多样性。从实际工程的角度来看,不以模型的性能为依据的风险评估方法是明智的。研究人员想要尝试的其他集成方法,在选择模型时,都不应该 仅 依据模型的性能表现。
对于我们的降雨量预测器,如果输入数据不是地表气压计的连续读数,而是太阳附近的温度,结果会如何?如果输入是一系列零呢?或者气压计读数单位不统一呢? 我们的RNN模型会“愉快地”计算并报告一个预测,但结果毫无意义。
上述情况下,一旦测试了与训练集不同的数据,模型的预测将完全不合格。这是一种在(基准驱动的)机器学习研究中经常被忽略的典型失败模式,因为我们通常假设训练集、验证集和测试集都是由干净的、独立同分布的数据组成的。
输入数据是否“有效”,是在实践中部署模型的一个需要特别注意的问题,有时这被称为越界(Out of Distribution,下文简称OoD)问题。有时也被称为 模型错误指定 或 异常检测 。
OoD检测的适用范围并不限于强化学习系统。例如,我们希望构建一个监控患者生命体征的系统,并在出现问题时提醒我们,而不必做所有病理检查。再如,我们管理数据中心时,想了解每时每刻可能发生的异常活动(像磁盘填满、安全漏洞、硬件故障等)。
由于OoD仅在测试时发生,我们不应该假设提前知道模型遇到的异常分布。这就是使OoD检测变得棘手的原因——我们必须强化模型,防止在训练期间遇到从未见过的输入!这正是 对抗样本学习 中典型的攻击系统的情形。
有两种方法可以处理机器学习模型的OoD输入:1)在我们将它们放入模型之前捕获不良输入;2)给出模型预测输入的“怪异性”,暗示我们输入可能是错误的。
第一种方法,我们不假设下游机器学习任务,只考虑输入数据是否在训练分布中。这正是生成式对抗网络(GAN)中判别器的职责。然而,单个判别器并不很可靠,它只能区分真实据分布和产生器的分布;当输入数据出离二者之外,判别器将反馈任意预测。
判别器不成了,我们就构建了预测正常分布的概率密度的模型,例如核密度估计器、或将 归一化流 拟合到数据。最近我和Hyunsun Choi在 使用现代生成模型进行OoD检测 的论文中对此进行了研究。
第二种OoD检测方法,则是使用模型预测(认知)不确定性,在输入是OoD的时候告诉我们。理想情况下,错误输入将会产生“怪异的”预测分布 。例如, Hendrycks和Gimpel证明 ,OoD输入的最大softmax概率(即预测类别)往往低于正常分布的输入。在这里,不确定性与最大softmax概率建模的“置信度”成反比。高斯过程这样的模型,构造性给出不确定性估计,而另一种做法,就是通过深度集成学习(Deep Ensembles)计算认知不确定性。
在强化学习中,遇到OoD输入是 好事 ,因为OoD代表了实际过程中模型尚不明确如何处理的输入。鼓励政策把寻找OoD输入看作成全其“自身的好奇心”的手段,以 探索模型预测不佳的区域 。这样的策略很好,但我很想知道,在现实世界环境中,如果发生了传感器破裂、或其他实验异常时,这些好奇心驱动的模型会发生什么。机器人将如何区分“没见过的状态”(好OoD)和“传感器破坏”(坏OoD)?是否会导致模型学到干扰它们的传感器机制,以产生最大的新奇感?
如前一节所述,防御OoD输入的方法之一是建立一个“监视”输入的模型。我更喜欢这种方法,它将OoD问题与任务模型中的认知不确定性与内在不确定性脱钩。从工程角度来看,更易于分析。
但我们不应该忘记,模型也是一个函数逼近器,可能有它自己的OoD错误! 我们在最近关于 产生式集成学习 的论文中给出(DeepMind的 同时期工作 也给出类似结论),在CIFAR似然模型下,来自SVHN的图像比CIFAR自身图像具有更大的似然值!
不过,情况并非一塌糊涂! 事实证明,似然模型的认知不确定性是似然模型自身的OoD检测器。 通过使用密度估计来实现认知不确定性估计,我们可以使用似然模型的集成学习,来以模型无关的方式保护机器学习模型,免受OoD输入的影响。
假设我们的降雨RNN预测模型告诉我们,今天的雨量将服从 。如果我们的模型被 校准 ,那么在相同条件下 重复 这个实验,我们将会观察到雨量的经验分布为 。
承接上文,我要提醒读者:不要仅仅看到模型输出了置信区间,就以为区间内的值代表了实际结果的概率!
置信区间(例如 )隐含地假设预测分布是高斯分布。如果尝试预测的分布是多模态的、或长尾的,那么模型将无法精确地校准(重复)!
当今学术界开发的机器学习模型,主要针对测试精度,或某些适应度函数进行优化。研究人员没有通过在重复相同的实验中部署模型,并测量校准误差来进行模型选择。因此(不出所料),我们的模型往往 校准不佳 。
展望未来,如果我们相信在现实世界中部署的机器学习系统(机器人、医疗保健等),“证明我们的模型正确理解世界”的更强大的方法是测试它们的统计校准。良好的校准性也意味着良好的准确性,因此校准将是一个严格的标准。
尽管标量的不确定性有用,随机变量形式的不确定性将提供更多信息。我发现,像粒子滤波和基于优化分布的强化学习等方法,在整个数据分布上进行优化,无需借助简单的正态分布来跟踪不确定性,这些方法很酷!我们构建基于机器学习的决策系统时,可以诉诸于分布的完整结构,而不是使用单个标量的“不确定性”,来决定下一步做什么。
隐含量化网络(Implicit Quantile Networks) 的论文(Dabney等人)就如何从输出分布中构建“风险敏感模型”进行了详细的讨论。在某些环境中,人们可能更倾向于选择探索未知的机会;而在另一些环境中,未知事物可能不安全,应该避免。 风险度量 的选择决定了如何将模型输出的分布映射到可以优化的标量。所有风险度量都可以从分布中计算出来,因此一旦预测了完整分布,我们就能够轻松地组合多种风险。此外,支持灵活的预测分布似乎是改进模型校准的好方法。
更糟的是,即使在分析意义上,它们也难以使用。我希望,对于基于优化分布的强化学习系统、蒙特卡罗方法、灵活的生成式模型的研究,将建立与投资组合优化器紧密结合的风险度量的可微松弛。如果你从事金融工作,我强烈建议你阅读IQN论文的“强化学习中的风险”部分。
以下是本文的重点概述:
⑤ 如何看待地理学的不确定性与科学性
地理学其实还是一份重要的科学,它是研究地球的变化,所以说这种变化有些是猜测得,这就是所谓的不确定性吧。
⑥ 【高二地理】AC选项区域的“不确定性”和“过渡性”有什么区别
区域具有一定的面积、形状、范围和界限,有明确的区位特征,但有些区域之间没有截然的界限,具有过渡性质。
天气可以说多变不确定,地理区域不能说具有不确定性。
⑦ 什么是地理信息系统的数据质量具体包括哪些内容
-关于数据质量
质量:是一个用来表征人造物品的优越性或者证明其所具有技术含量的多少或
者表示其艺术性高低的常用术语。
近年来由于一下原因,关注数据质量:
1, 增加私营部门的数据生产 。
2,进一步利用地理信息作为决策支持工具。
3,日益依赖二手数据来源。
—空间数据质量的概念:
1,误差:反映了数据与真值或者大家公认的真值之间的关系。
2,数据的准确度:被定义为结果计算值或估计值或公认值之间的接近程度。
3,数据的精密度(仪器本身):是指在数量上能够辨别的程度,指数据的有效位
数,表示测量值本身的离散程度。分辨率影响到一个数据库对某个具体应用的适用
程度。
4,不确定性:是关于空间过程和特征,不能被准确确定的程度。
⑧ 地理科学与地理信息科学有什么区别
地理科学(地理科学类):
地理科学专
业不像大家想象的那么简单,而是需要掌握扎实的自然地理与资源环境的基本原理、基础知识和基本方法,了解自然地理与资源环境相关的理论前沿、发展现状、应
用前景和最新发展。在具备了这些专业相关的学科知识后,我们还需要了解国家环境保护、可持续发展战略等相关政策和法规。
地理科学是一个整体,是自然科学与社会科学的汇合。钱学森老先生曾在他发起的地理科学大讨论中说过:‘为什么我提地理科学而不是简单地称地理?或者说地学?因为我要突出讲地理科学是自然科学和社会科学的汇合,或叫交叉。’学习地理科学,不能只学习课本上关于自然地理和环境的知识,更要学习社会系统,不能将这两个方面孤立开来,我们需要系统的知识去全面地认识我们生活的这个世界。
当学医的同学大清早拿着书本背记的时候,我们已经踏上了去野外的路程。有时路况很差,走起来很艰难甚至是没有路可走,我们拿着GPS,背着背包,在大山里穿梭前行。虽然会觉得很辛苦,但当我们采集到第一手信息时,那种喜悦是无法言表的。纵然野外实习很辛苦,我们也需要实践来证明理论的正确性。
主要课程:
公共基础课:数学、物理、化学等。
专业课:自然地理学、地貌学、生物地理学、经济地理学、地貌学、气候学、水文学、土壤地理学等。
毕业去向:
地理科学专业的学生今后可以成为一名光荣的人民教师,也可以去相关部门从事地理科学研究的工作。
拥有地理科学专业国家特色专业院校名单:安徽师范大学、东北师范大学、华东师范大学、河南大学、湖南文理学院、广西师范学院、贵州师范大学、北京师范大学、太原师范学院、哈尔滨师范大学、陕西师范大学、兰州大学、西北师范大学、北京大学、河北师范大学等。
⑨ 不确定性数据的产生因素
一、原始数据不准确
这是产生不确定性数据最直接的因素。首先,物理仪器所采集的数据的准确度受仪器的精度制约;其次,在网络传输过程(特别是无线网络传输)中,数据的准确性受到带宽、传输延时、能量等因素影响;最后,在传感器网络应用与RFID应用等中,周围环境也会影响原始数据的准确度。
二、使用粗粒度数据集合
很明显,从粗粒度数据集合转换到细粒度数据集合的过程会引入不确定性。例如,假设某人口分布数据库以乡为基础单位记录全国的人口数量,而某应用却要求查询以村为基础单位的人口数量,查询结果就存在不确定性。
三、满足特殊应用目的
出于隐私保护等特殊目的,某些应用无法获取原始的精确数据,而仅能够得到变换之后的不精确数据。
四、处理缺失值
缺失值产生的原因很多,装备故障、无法获取信息、与其他字段不一致、历史原因等都可能产生缺失值。一种典型的处理方法是插值,插值之后的数据可看作服从特定概率分布。另外,也可以删除所有含缺失值的记录,但这个操作也从侧面变动了原始数据的分布特征。
五、数据集成
不同数据源的数据信息可能存在不一致,在数据集成过程中就会引入不确定性。例如,Web中含很多信息,但是由于页面更新等因素,许多页面的内容并不一致。
六、其它
对某些应用而言,还可能同时存在多种不确定性。例如,基于位置的服务(Location-Based Service, LBS)是移动计算领域的核心问题,在军事、通信、交通、服务业等中有着广泛的应用。LBS应用获取各移动对象的位置,为用户提供定制服务,该过程存在若干不确定性。首先,受技术手段(例如GPS技术)限制,移动对象的位置信息存在一定误差。其次,移动对象可能暂时不在服务区,导致LBS应用采集的数据存在缺失值情况。最后,某些查询要求保护用户的隐私信息,必须采用“位置隐私”等方式处理查询。
⑩ 区域的不确定性是什么
不确定性侧重于大地测量学科中的误差 ,是一种具有统计意义的概念 。然而 ,自然界中还存在大量模糊地理实体。一般地 ,这类实体属性在空间上是连续分布的
,并且它的真实边界位置往往较难测定