① 地理信息系統包括哪些研究方向
美國大學一般將地理信息系統碩士課程開設在地理系。2002年,美國大學地理信息科學協會(UCGIS)為地理信息系統劃分了19個研究方向,這19個 方向又可以歸屬於地理數據的收集、處理、分析與表達四個階段。
在地理數據的獲取和收集過程中,GIS主要研究地理數據的准確性和不確定性(Uncertainty in Geographic Information)。地理數據通常通過野外測量、數字化、遙感等手段獲得,獲取過程中不可避免地存在誤差。該研究方向討論的便是如何處理、減少這些 誤差,以及針對數據中存在的不確定性錯誤進行處理的方法和技術。數據的獲取手段和表達處理方式日漸成熟,但數據的誤差和不確定性卻會永久存在,因此該研究 方向被視為GIS研究領域中富有永久生命力的方向之一。
隨著中國地理信息資料庫的建設和更新以及全球地理信息數據共享熱潮的到來,地理信息的組織和管理過程是當前國內GIS領域研究的重點,在中國有著最為廣泛 的實踐和應用空間。其中較為熱門的研究方向包括空間認知(Spatial Cognition)、海量資料庫機構體系(Institutional Aspects of Spatial Data Infrastructure)、空間本體論(Spatial Ontologies)、空間決策支持系統(Spatial Decision Support System)、時空數據關系及建模(Space and Space/Time Analysis and Modeling)、GIS和RS技術的集成(Incorporating Remotely Sensed Data and Information in GIS )、時空數據語義研究(Geospatial Semantic Web)、空間數據共享以及互操作研究(Integration)等。
地理信息數據獲取手段的不斷豐富和提高使得地理信息數據量正在以驚人的速度增長,海量的地理數據正在等待GIS專家進行分析和利用,地理數據背後隱藏的巨 大潛力仍有待挖掘。鑒於此,國外目前的GIS研究熱點集中在地理信息的分析和表達過程,其中最為熱門的研究方向包括與網路結合的網路地理服務 (GeoWeb)、與計量地理有關的空間數據統計分析(Geo-computation)、空間數據挖掘(Geographic Data Mining and Knowledge Discovery)、應急反應中的數據獲取和分析(Emergency Data Acquisition and Analysis)、空間信息可視化和虛擬地理環境(Visualization)、社會背景中GIS的表達以及GIS在公眾信息傳播中的研究(GIS and Society)等。
② 大數據的不確定性指的是什麼
你好 很高興回答你的問題
不確定性數據的產生原因比較復雜。可能是原始數據本來就不準確或是採用了粗粒度的數據集合,也可能是原始數據是為了滿足特殊應用目的或是經過處理缺失值或者數據集成而生成的。
③ 地理信息科學的地理信息科學基本問題
1)分布式計算
2)地理信息的認知
3)地理信息的互操作
4)比例尺
5)空間信息基礎設施的未來
6)地理數據的不確定性和基於GIS的分析
7)GIS和社會
8)地理信息系統在環境中的空間分析
9)空間數據的獲取和集成等等
地理信息科學在對於地理信息技術研究的同時,還指出了支撐地理信息技術發展的基礎理論研究的重要性。
隨著以地理信息系統技術為核心的遙感、全球定位系統等技術的發展以及其間的相互滲透,逐漸形成了3S集成化技術系統,為解決區域范圍更廣,復雜性更高的現代地學問題提供了新的分析方法和技術保證。七十年代以來,由於整個人類社會面臨的人口、資源、環境和發展等各方面的問題,逐漸開始重視全球變化(GlobalChange)以及可持續發展 (Sustainable Development)等方面的研究,這兩個方面的推動,最終促成了地球信息科學的產生。
④ 啥叫「不確定」
「不確定」 這個詞兒,三腳貓專家到處濫用,在人工智慧安全(AI safety)、風險管理、投資組合優化、科學計量、保險等領域尤甚。試摘錄幾則,常見於日常交流之間:
在數學上, 不確定性 反應了隨機變數的 離散程度 。換句話說,不確定性是一個具體的數值,反應某個隨機變數有多麼「隨機」。在金融領域,不確定性還有個名字,叫 風險 。
說來奇怪,至今沒有公式來表示不確定性。現存度量離散程度的方法有多種:標准差、方差、風險值(value-at-risk,VaR)、熵。不過,對於以上方法算來的數值,卻不盡然反應「隨機性」,這是因為隨機性涉及整個隨機變數的全部。
盡管如此,為了優化和比較,將隨機性降低到單個數字表示是必要的。 劃重點, 「不確定性更大」,通常等同於「更糟糕」 (增強學習的某些實驗除外)。
統計機器學習關注模型的參數估計 ,進而估計未知的隨機變數 。多種形式的不確定性在這里發揮作用,其中一些描述了預期的內在隨機性(例如硬幣翻轉的結果),其他一些則來源於對模型參數的信心程度。
為了使上述理論更具體,讓我們考慮一個遞歸神經網路(RNN),它從一系列地表的氣壓計讀數中預測當天的降雨量。 氣壓計測量大氣壓力,即將下雨時通常氣壓會下降。 下圖總結了降雨預測模型里,不同類型不確定性的圖表。
內在不確定性中,aleatory的拉丁文詞源是 aleatorius ,本意是用來當骰子玩的 羊距骨 ,引申義為蘊含隨機性的過程。內在不確定性描述了數據生成過程本身的隨機性。哪怕采樣再多的數據,也無法消除這一隨機性。 正如拋擲硬幣,在落地之前無法知道其結果。
我們用降雨預測做類比,氣壓表的不精確帶來了內在不確定性。除此之外,還有一些重要的變數在數據收集設置里沒有觀察到:昨天有多少降雨量? 我們是在測量當前的氣壓,還是最後一次冰期時的氣壓?這些未知變數是我們數據收集裝置所固有的,因此從該系統收集更多數據,並不能免除這種不確定性。
內在的不確定性將會從輸入,一直延續到模型的預測結果。考慮一個簡單的模型 ,輸入採用正態分布式 。這時 。因此,預測分布的內在不確定性可以用來描述 。當然,在輸入數據 的隨機機制不清楚時,預測內在不確定性會更難。
有人可能會認為,由於內在不確定性是不可減少的,因而對此也做不了什麼,所以應該忽略它。 事實上並不是!訓練模型時須注意選擇那些能夠正確表示內在不確定性的輸出表示。 標准LSTM不會產生概率分布,因此嘗試學習硬幣翻轉的結果只會收斂到均值。 相反,用於語言生成的模型產生了一系列分類分布的隨機概率(單詞或字元),可以用在句子補全任務中,捕獲模型的內在不確定性。
「好的模型總是相似的;壞的模型各有各的錯法。」
認知不確定性中,Epistemic源於希臘詞根epistēmē,意思是 有關知識的知識 。 它衡量的是,由於我們對正確模型參數的未知,而帶來的對正確預測的未知程度。
下圖是某些一維數據上高斯過程回歸的模型圖。 置信區間(藍色)反映了認知不確定性。對於訓練數據(紅點),不確定性為零。隨著我們離訓練點越來越遠,預測分布將分配到更高的標准差。 與內在不確定性不同,我們可以通過在缺乏知識的輸入區域收集更多數據,來「消除」模型的認知不確定性。
如果想要在模型選擇上注入更大的靈活性,一個好主意就是使用模型集成(ensemble),即合理利用「多個獨立學習模型結果」的一種巧妙方式。類似於高斯過程解析地定義了 預測分布 ,集成學習估計了預測的 經驗分布 。
由於在訓練過程中發生的隨機偏差,任何單個模型都會產生一些錯誤。但是,把多個模型集成起來就會很強大。因為集成的模型犯錯類型不同,當某個模型暴露其具有自身風格的失敗時,其他多數模型與正確推斷的預測一致。
我們如何從多個模型中隨機抽樣,構建集成模型呢?在 使用自舉聚合進行集成 【也叫bagging】時,我們從規模為 的訓練數據集中,采樣 個大小為 的數據集(其中各個數據集都不涵蓋整個原始訓練集)。使用 個模型在各自的數據集上獨立訓練,其結果預測形成共同的經驗預測分布。
如果訓練多個模型代價太大,也可以使用 Dropout 操作來近似模型集成。不過,引入Dropout涉及額外的超參數,並且可能損害單個模型的性能(對於現實中的應用,Dropout在准確性要求極高,而不確定性估計是次要的場景中,是不能使用的)。
因此,如果你擁有豐富的計算資源(就像谷歌那樣),訓練一個模型的多個副本,【對於減少認知不確定性來說,】通常會更容易。這種做法具備集成的好處,而又不會損害性能。這即是 深度集成學習 這篇論文採用的方法。論文的作者還提到,不同權重初始化將引起訓練的隨機波動,這就足以形成多種【表現迥異的】模型,而不必通過自舉聚合來應對訓練集的多樣性。從實際工程的角度來看,不以模型的性能為依據的風險評估方法是明智的。研究人員想要嘗試的其他集成方法,在選擇模型時,都不應該 僅 依據模型的性能表現。
對於我們的降雨量預測器,如果輸入數據不是地表氣壓計的連續讀數,而是太陽附近的溫度,結果會如何?如果輸入是一系列零呢?或者氣壓計讀數單位不統一呢? 我們的RNN模型會「愉快地」計算並報告一個預測,但結果毫無意義。
上述情況下,一旦測試了與訓練集不同的數據,模型的預測將完全不合格。這是一種在(基準驅動的)機器學習研究中經常被忽略的典型失敗模式,因為我們通常假設訓練集、驗證集和測試集都是由干凈的、獨立同分布的數據組成的。
輸入數據是否「有效」,是在實踐中部署模型的一個需要特別注意的問題,有時這被稱為越界(Out of Distribution,下文簡稱OoD)問題。有時也被稱為 模型錯誤指定 或 異常檢測 。
OoD檢測的適用范圍並不限於強化學習系統。例如,我們希望構建一個監控患者生命體征的系統,並在出現問題時提醒我們,而不必做所有病理檢查。再如,我們管理數據中心時,想了解每時每刻可能發生的異常活動(像磁碟填滿、安全漏洞、硬體故障等)。
由於OoD僅在測試時發生,我們不應該假設提前知道模型遇到的異常分布。這就是使OoD檢測變得棘手的原因——我們必須強化模型,防止在訓練期間遇到從未見過的輸入!這正是 對抗樣本學習 中典型的攻擊系統的情形。
有兩種方法可以處理機器學習模型的OoD輸入:1)在我們將它們放入模型之前捕獲不良輸入;2)給出模型預測輸入的「怪異性」,暗示我們輸入可能是錯誤的。
第一種方法,我們不假設下游機器學習任務,只考慮輸入數據是否在訓練分布中。這正是生成式對抗網路(GAN)中判別器的職責。然而,單個判別器並不很可靠,它只能區分真實據分布和產生器的分布;當輸入數據出離二者之外,判別器將反饋任意預測。
判別器不成了,我們就構建了預測正常分布的概率密度的模型,例如核密度估計器、或將 歸一化流 擬合到數據。最近我和Hyunsun Choi在 使用現代生成模型進行OoD檢測 的論文中對此進行了研究。
第二種OoD檢測方法,則是使用模型預測(認知)不確定性,在輸入是OoD的時候告訴我們。理想情況下,錯誤輸入將會產生「怪異的」預測分布 。例如, Hendrycks和Gimpel證明 ,OoD輸入的最大softmax概率(即預測類別)往往低於正常分布的輸入。在這里,不確定性與最大softmax概率建模的「置信度」成反比。高斯過程這樣的模型,構造性給出不確定性估計,而另一種做法,就是通過深度集成學習(Deep Ensembles)計算認知不確定性。
在強化學習中,遇到OoD輸入是 好事 ,因為OoD代表了實際過程中模型尚不明確如何處理的輸入。鼓勵政策把尋找OoD輸入看作成全其「自身的好奇心」的手段,以 探索模型預測不佳的區域 。這樣的策略很好,但我很想知道,在現實世界環境中,如果發生了感測器破裂、或其他實驗異常時,這些好奇心驅動的模型會發生什麼。機器人將如何區分「沒見過的狀態」(好OoD)和「感測器破壞」(壞OoD)?是否會導致模型學到干擾它們的感測器機制,以產生最大的新奇感?
如前一節所述,防禦OoD輸入的方法之一是建立一個「監視」輸入的模型。我更喜歡這種方法,它將OoD問題與任務模型中的認知不確定性與內在不確定性脫鉤。從工程角度來看,更易於分析。
但我們不應該忘記,模型也是一個函數逼近器,可能有它自己的OoD錯誤! 我們在最近關於 產生式集成學習 的論文中給出(DeepMind的 同時期工作 也給出類似結論),在CIFAR似然模型下,來自SVHN的圖像比CIFAR自身圖像具有更大的似然值!
不過,情況並非一塌糊塗! 事實證明,似然模型的認知不確定性是似然模型自身的OoD檢測器。 通過使用密度估計來實現認知不確定性估計,我們可以使用似然模型的集成學習,來以模型無關的方式保護機器學習模型,免受OoD輸入的影響。
假設我們的降雨RNN預測模型告訴我們,今天的雨量將服從 。如果我們的模型被 校準 ,那麼在相同條件下 重復 這個實驗,我們將會觀察到雨量的經驗分布為 。
承接上文,我要提醒讀者:不要僅僅看到模型輸出了置信區間,就以為區間內的值代表了實際結果的概率!
置信區間(例如 )隱含地假設預測分布是高斯分布。如果嘗試預測的分布是多模態的、或長尾的,那麼模型將無法精確地校準(重復)!
當今學術界開發的機器學習模型,主要針對測試精度,或某些適應度函數進行優化。研究人員沒有通過在重復相同的實驗中部署模型,並測量校準誤差來進行模型選擇。因此(不出所料),我們的模型往往 校準不佳 。
展望未來,如果我們相信在現實世界中部署的機器學習系統(機器人、醫療保健等),「證明我們的模型正確理解世界」的更強大的方法是測試它們的統計校準。良好的校準性也意味著良好的准確性,因此校準將是一個嚴格的標准。
盡管標量的不確定性有用,隨機變數形式的不確定性將提供更多信息。我發現,像粒子濾波和基於優化分布的強化學習等方法,在整個數據分布上進行優化,無需藉助簡單的正態分布來跟蹤不確定性,這些方法很酷!我們構建基於機器學習的決策系統時,可以訴諸於分布的完整結構,而不是使用單個標量的「不確定性」,來決定下一步做什麼。
隱含量化網路(Implicit Quantile Networks) 的論文(Dabney等人)就如何從輸出分布中構建「風險敏感模型」進行了詳細的討論。在某些環境中,人們可能更傾向於選擇探索未知的機會;而在另一些環境中,未知事物可能不安全,應該避免。 風險度量 的選擇決定了如何將模型輸出的分布映射到可以優化的標量。所有風險度量都可以從分布中計算出來,因此一旦預測了完整分布,我們就能夠輕松地組合多種風險。此外,支持靈活的預測分布似乎是改進模型校準的好方法。
更糟的是,即使在分析意義上,它們也難以使用。我希望,對於基於優化分布的強化學習系統、蒙特卡羅方法、靈活的生成式模型的研究,將建立與投資組合優化器緊密結合的風險度量的可微鬆弛。如果你從事金融工作,我強烈建議你閱讀IQN論文的「強化學習中的風險」部分。
以下是本文的重點概述:
⑤ 如何看待地理學的不確定性與科學性
地理學其實還是一份重要的科學,它是研究地球的變化,所以說這種變化有些是猜測得,這就是所謂的不確定性吧。
⑥ 【高二地理】AC選項區域的「不確定性」和「過渡性」有什麼區別
區域具有一定的面積、形狀、范圍和界限,有明確的區位特徵,但有些區域之間沒有截然的界限,具有過渡性質。
天氣可以說多變不確定,地理區域不能說具有不確定性。
⑦ 什麼是地理信息系統的數據質量具體包括哪些內容
-關於數據質量
質量:是一個用來表徵人造物品的優越性或者證明其所具有技術含量的多少或
者表示其藝術性高低的常用術語。
近年來由於一下原因,關注數據質量:
1, 增加私營部門的數據生產 。
2,進一步利用地理信息作為決策支持工具。
3,日益依賴二手數據來源。
—空間數據質量的概念:
1,誤差:反映了數據與真值或者大家公認的真值之間的關系。
2,數據的准確度:被定義為結果計算值或估計值或公認值之間的接近程度。
3,數據的精密度(儀器本身):是指在數量上能夠辨別的程度,指數據的有效位
數,表示測量值本身的離散程度。解析度影響到一個資料庫對某個具體應用的適用
程度。
4,不確定性:是關於空間過程和特徵,不能被准確確定的程度。
⑧ 地理科學與地理信息科學有什麼區別
地理科學(地理科學類):
地理科學專
業不像大家想像的那麼簡單,而是需要掌握扎實的自然地理與資源環境的基本原理、基礎知識和基本方法,了解自然地理與資源環境相關的理論前沿、發展現狀、應
用前景和最新發展。在具備了這些專業相關的學科知識後,我們還需要了解國家環境保護、可持續發展戰略等相關政策和法規。
地理科學是一個整體,是自然科學與社會科學的匯合。錢學森老先生曾在他發起的地理科學大討論中說過:『為什麼我提地理科學而不是簡單地稱地理?或者說地學?因為我要突出講地理科學是自然科學和社會科學的匯合,或叫交叉。』學習地理科學,不能只學習課本上關於自然地理和環境的知識,更要學習社會系統,不能將這兩個方面孤立開來,我們需要系統的知識去全面地認識我們生活的這個世界。
當學醫的同學大清早拿著書本背記的時候,我們已經踏上了去野外的路程。有時路況很差,走起來很艱難甚至是沒有路可走,我們拿著GPS,背著背包,在大山裡穿梭前行。雖然會覺得很辛苦,但當我們採集到第一手信息時,那種喜悅是無法言表的。縱然野外實習很辛苦,我們也需要實踐來證明理論的正確性。
主要課程:
公共基礎課:數學、物理、化學等。
專業課:自然地理學、地貌學、生物地理學、經濟地理學、地貌學、氣候學、水文學、土壤地理學等。
畢業去向:
地理科學專業的學生今後可以成為一名光榮的人民教師,也可以去相關部門從事地理科學研究的工作。
擁有地理科學專業國家特色專業院校名單:安徽師范大學、東北師范大學、華東師范大學、河南大學、湖南文理學院、廣西師范學院、貴州師范大學、北京師范大學、太原師范學院、哈爾濱師范大學、陝西師范大學、蘭州大學、西北師范大學、北京大學、河北師范大學等。
⑨ 不確定性數據的產生因素
一、原始數據不準確
這是產生不確定性數據最直接的因素。首先,物理儀器所採集的數據的准確度受儀器的精度制約;其次,在網路傳輸過程(特別是無線網路傳輸)中,數據的准確性受到帶寬、傳輸延時、能量等因素影響;最後,在感測器網路應用與RFID應用等中,周圍環境也會影響原始數據的准確度。
二、使用粗粒度數據集合
很明顯,從粗粒度數據集合轉換到細粒度數據集合的過程會引入不確定性。例如,假設某人口分布資料庫以鄉為基礎單位記錄全國的人口數量,而某應用卻要求查詢以村為基礎單位的人口數量,查詢結果就存在不確定性。
三、滿足特殊應用目的
出於隱私保護等特殊目的,某些應用無法獲取原始的精確數據,而僅能夠得到變換之後的不精確數據。
四、處理缺失值
缺失值產生的原因很多,裝備故障、無法獲取信息、與其他欄位不一致、歷史原因等都可能產生缺失值。一種典型的處理方法是插值,插值之後的數據可看作服從特定概率分布。另外,也可以刪除所有含缺失值的記錄,但這個操作也從側面變動了原始數據的分布特徵。
五、數據集成
不同數據源的數據信息可能存在不一致,在數據集成過程中就會引入不確定性。例如,Web中含很多信息,但是由於頁面更新等因素,許多頁面的內容並不一致。
六、其它
對某些應用而言,還可能同時存在多種不確定性。例如,基於位置的服務(Location-Based Service, LBS)是移動計算領域的核心問題,在軍事、通信、交通、服務業等中有著廣泛的應用。LBS應用獲取各移動對象的位置,為用戶提供定製服務,該過程存在若干不確定性。首先,受技術手段(例如GPS技術)限制,移動對象的位置信息存在一定誤差。其次,移動對象可能暫時不在服務區,導致LBS應用採集的數據存在缺失值情況。最後,某些查詢要求保護用戶的隱私信息,必須採用「位置隱私」等方式處理查詢。
⑩ 區域的不確定性是什麼
不確定性側重於大地測量學科中的誤差 ,是一種具有統計意義的概念 。然而 ,自然界中還存在大量模糊地理實體。一般地 ,這類實體屬性在空間上是連續分布的
,並且它的真實邊界位置往往較難測定