❶ 數據分析方法
常見的分析方法有:分類分析,矩陣分析,漏團首斗分析,相關分析,邏輯樹分析,趨勢分析,行為軌跡分析,等等。 我用HR的工作來舉例,說明上面這些分析要怎麼做,才能得出洞見。
01) 分類分析
比如分成不同部門、不同崗位層級、不同年齡段,來分析人才流失率。比如發現某個部門流失率特別高,那麼就可以去分析。
02) 矩陣分析
比如公司有價值觀和能力的考核,那麼可以把考核結果做出矩陣圖,能力強價值匹配的員工、能力強價值不匹配的員工、能力弱價值匹配的員工、能力弱價值不匹配的員工各佔多少比例,從而發現公司的人才健康度。
03) 漏斗分析
比如記錄招聘數據,投遞簡歷、通過初篩、通過一面、通過二面、通過終面、接下Offer、成功入職、通過試用期,這就是一個完整的招聘漏斗,從數據中,可以看到哪個環節還可以優化。
04) 相關分析
比如公司各個分店的人才流失率差異較大,那麼可以把各個分店的員工流失率,跟分店的一些特性(櫻或梁地理位置、薪酬水平、福利水平、員工年齡、管理人員年齡等)要素進行相關性分析,找到最能脊運夠挽留員工的關鍵因素。
05) 邏輯樹分析
比如近期發現員工的滿意度有所降低,那麼就進行拆解,滿意度跟薪酬、福利、職業發展、工作氛圍有關,然後薪酬分為基本薪資和獎金,這樣層層拆解,找出滿意度各個影響因素裡面的變化因素,從而得出洞見。
06) 趨勢分析
比如人才流失率過去12個月的變化趨勢。
07)行為軌跡分析
比如跟蹤一個銷售人員的行為軌跡,從入職、到開始產生業績、到業績快速增長、到疲憊期、到逐漸穩定。
❷ 教你如何看懂旅遊大數據
教你如何看懂旅遊大數據_數據分析師考試
有時候,一句話、一張圖片都會蘊含巨大的數字商機,但這是一門需要高度精準性的技術活兒,並非人人都看得懂大數據。
看懂遊客行為
大家都在說大數據,攜程近期投資專攻大數據研究的眾薈信息技術有限公司(下稱「眾薈」)、阿里系的去啊旅行則與石基信息合作,而東呈酒店、如家酒店等也紛紛推出智能化管理。
每個旅遊業者都會有自己的會員和消費數據記錄,這些記錄就是大數據的基礎信息,然而在一堆數字和消費者行為面前究竟該如何分析處理並得出結論呢?
「首先要知道什麼是大數據,大數據分為兩大類,即結構化數據和非結構化數據,前者就是大家看到的一系列數字,後者則可能是一張圖、一句話等並非直接體現為數字的信息。因此真正意義上的大數據分析不僅要做直接的數字分析,還要懂得建立數學模型,將非結構化數據轉變為結構化數據並得出結論,這些並不簡單。」眾薈數據智能事業部總經理焦宇告訴記者。
焦宇給記者舉了一個例子,現在很多遊客會在OTA(在線旅遊代理商)上比價和預訂酒店,那麼其搜索的關鍵詞和瀏覽痕跡就會體現在OTA的記錄里,如果客人瀏覽過這家酒店的頁面卻跳轉了,並未下訂單,則可以通過這個記錄分析該客人不下單的原因,當這個客人通過價格、品牌、區域等關鍵詞排序查找酒店信息後,其留下的瀏覽記錄則可以統計出人們是對於價格敏感還是品牌敏感。
「經過研究,大部分人還是看重價格因素,由於價格的選擇是有區間的,這就可以用瀏覽痕跡得出一個最讓遊客扮差接受的價格區間數字。只有11%的人在意品牌,說明同類酒店可替代性很強。如果以區域關鍵詞搜索,則代表地理位置數據,若可以精準到具體方位,並將這一信息傳達給該區域的酒店,則無疑提高了酒店的入住率還能根據消費者行為適當調整房價,當供大於求時下調房價,反之則提升房價。還有一個頗有意思的研究,即遊客瀏覽記錄中若有A酒店的競爭對手酒店,則可以推理這個客人對於A這一類酒店有需求,該客人就是A酒店應該關注的潛在客人。」焦宇指出,要將海量的瀏覽記錄變成有效數據,還得依靠數學模型,模型分為收斂型和發散型,大數據通常要經過收斂型模型將非結構化數據轉化成結構化數據並得出結論。
一位連鎖酒店經營者告訴記者,這些涵蓋了消費者較能接受的價格區間、品牌等信息的大數據可以讓酒店對價格、定位和營銷等做出策略性調整,以提升入住率,提高酒店整體收益管理。
神奇的語言分析
除了價格、品牌,語言文字也是一種非結構化喊蘆數據,尤其是如今當客人預訂酒店旅遊產品時一定會先看一下點評,或者自己體驗後也會留言評價,這些語言背後也大有大數據學問。
記者多方采訪和觀察後了解到,不少客人會對已經入住的酒店進行評估,這些點評中經常會出現對酒店環境、客房設施、餐飲和服務的評價,比如「房間很乾凈,但是送餐服務比較慢」、「前台的服務差評」、「洗浴感受不錯」等。這需要用專業的語義分析進行精準細分化分析並轉換成結構化數據反饋給酒店經營者。
在人工智慧和計算語言學中,語義分析為知識推理和語言提供了方法,也是未來搜索引擎發展的方向。比如,輸入「蘋廳滲皮果」通過語義分析,能夠知道用戶想找的是手機而不是水果。
「首先我們會通過專業的語義分析去除一批虛假點評或無實質內容的點評,而將真正對酒店有實質內容的點評留下,並對於每一句話進行斷句和多維度切割。舉個簡單的例子,比如『這個酒店很乾凈,但是送餐服務比較慢』,經過我們的斷句和多維度切割分析後可以知道客房清潔度不錯,但送餐有問題,那麼我們接下來就要把結論進行細化分類並反饋給各部門。這里的問題就是速度,有時還涉及口味或者服務態度等。有時一段話的分析是非常復雜的,其中還有糾錯比例。」眾薈市場部高級副總裁胡凡表示。
從事酒店業超過15年的李先生告訴記者,比起簡單的「好」或「不好」,經過多維度語義分析後得出的結論可以反饋到酒店各個相關部門,並且細化到是哪個細節好,或哪個細節有問題需要改進,那麼管理層開例會時就能明確知道接下來的工作方向,而經過改善服務態度、速度甚至裝飾風格,其所在的酒店入住率提升了10%,且RevPAR(RevenuePerAvailableRoom,每間可供租出客房產生的平均實際營業收入)有約15%的增加。
據悉,一些科技信息公司對於語義分析的維度已經可以達到1000個。
跨界與圖片信息怎麼玩
有時候,對於旅遊大數據的分析還涉及跨界合作。
「國外是跨領域研究的,結合了多領域,比如地理信息、IT、商學院、社會學等。我舉個跟蹤遊客的例子,現在我們採用跨界合作的多方位社交媒體來跟蹤遊客行為。社交媒體上有很多遊客留下的痕跡,比如flickr,flickr上的圖片留下了照片的地理坐標、拍攝時間、評論信息等,這些都是非常可貴的旅遊大數據。」長期在澳大利亞研究旅遊大數據分析的學者程明明告訴記者,用地理坐標來追蹤軌跡則需要懂地理學的專家來幫忙,而商業管理方面的專才則可以分析遊客去哪兒、是什麼時間去等具有商業價值的數據。
在多方跨界分析研究後,業者可以知道哪些景點受歡迎、哪些是新的景點、遊客在幾點左右在景點甚至每次停留多久等。掌握這些大數據信息分析結果後,相關的旅遊業者可以有效做到分流,不會造成景點承載力過於飽和。同時,對比景點信息和遊客屬性,可以知道不同國家遊客對景點有什麼不同需求,比如亞洲人是否更喜歡文化景點,如果是,則當地旅遊推廣營銷時就要更多推出人文景點。
記者在采訪中獲悉,目前中國不少景區也正在與相關大數據分析公司合作,希望通過分析來預測未來一段時間的客流量,尤其是旺季黃金周的客流量預計,能幫助景區控制進入人數,提高安全性和服務質量。
頗有意思的是,圖片也屬於大數據。
「比如一些大型旅遊預訂網站上有大量圖片,對於圖片,我們需要IT技術人員來幫忙進行機器人訓練(machinelearning)幫助我們識別不同的圖片。比如究竟是人物還是風景效果好,然後我們再通過數學模型和旅遊局、旅行社宣傳的圖片進行對比,得出遊客感興趣的圖片和旅遊局、旅行社所宣傳的是否一致。如果不一致,那麼不一致在什麼方面,並需要如何改進。」程明明說道。
據悉,另有一種腦電波測試方式,能測試出人們看到圖片時眼球第一秒會注視的地方即最吸引點,以及人們對於被測試圖片的喜好或厭惡程度等。業者通過這些分析可以決定是否在銷售時更換樣圖,餐廳或景點的宣傳圖片究竟是有人好還是空景好,合適的樣圖能夠促進銷量。
「當然,要做好旅遊大數據研究並不簡單,其數學模型比較復雜,比如包含線性回歸之類的。其實,大數據研究是一個數據不斷整合和多學科交叉的過程,未來還有很多商機可以依靠大數據被挖掘出來。」程明明如是說。
以上是小編為大家分享的關於教你如何看懂旅遊大數據的相關內容,更多信息可以關注環球青藤分享更多干貨
❸ 一般用哪些工具做大數據可視化分析
大數據正在走進人們的生活。雖然獲取數據問題不大,但有很多人不知道如何得出結論,因為數據太多。常見的數據可視化工具,在這里推薦9個:
1、Datawrapper
Datawrapper是一個用於製作互動式圖表的在線數據可視化工具。一旦您從CSV文件上傳數據或直接將其粘貼到欄位中,Datawrapper將生成一個條,線或任何其他相關的可視化文件。許多記者和新聞機構使用Datawrapper將實時圖表嵌入到他們的文章中。這是非常容易使用和生產有效的圖形。
2、Tableau Public
Tableau Public可能是最流行的可視化工具,它支持各種圖表,圖形,地圖和其他圖形。這是一個完全免費的工具,你用它製作的圖表可以很容易地嵌入到任何網頁中。他們有一個不錯的畫廊,顯示通過Tableau創建的可視化效果。
雖然它提供的圖表和圖形比其他類似工具要好得多,但我並不喜歡使用它的免費版本,因為它附帶了一個很大的頁腳。如果不是像我這樣大的關閉,那麼你一定要試試看。或者如果你能負擔得起,你可以去付費版本。
3、Smartbi
Smartbi作為成熟的大數據分析平台,具備可復用、 動靜結合獨特的展示效果,使得數據可視化靈活強大,動靜皆宜,為廣大用戶提供了無限的應用能力和想像空間。
除了支持使用Excel作為報表設計器,完美兼容Excel的配置項。支持Excel所有內置圖形、背景圖、條件格式等設計復雜的儀表盤樣式,同時支持完整ECharts 圖形庫,支持各種各樣的圖形,包含瀑布圖、關系圖、雷達圖、油量圖、熱力圖、樹圖等幾十種動態交互的圖形,藉助於地理信息技術,還打造了地圖分析功能。
4、Chart.js
非常適合小型項目。盡管只有六種圖表類型,開源圖書館Chart.js是用於愛好和小型項目的完美數據可視化工具。使用HTML 5 canvas元素繪制圖表,Chart.js創建響應式平面設計,並且正在迅速成為最流行的開源圖表庫之一。
5、Raw
Raw將自己定義為「電子表格和矢量圖形之間的缺失鏈接」。它建立在D3.js之上,設計得非常好。它有這樣一個直觀的界面,你會覺得你之前使用過它。它是開源的,不需要任何注冊。
它有一個21圖表類型的庫可供選擇,所有的處理在瀏覽器中完成。所以你的數據是安全的。RAW是高度可定製和可擴展的,甚至可以接受新的自定義布局。
6、Infogram
Infogram使您可以在線創建圖表和圖表。它有一個有限的免費版本和兩個付費選項,其中包括200+地圖,私人共享和圖標庫等功能。
它配備了一個易於使用的界面,其基本圖表設計良好。我不喜歡的一個功能是當您嘗試將互動式圖表嵌入到您的網頁(免費版)時所獲得的巨大徽標。如果他們能像DataWrapper使用的小文本那樣更好。
7、Timeline JS
顧名思義,Timeline JS可以幫助您創建美麗的時間線而無需編寫任何代碼。它是一個免費的開源工具,被Time和Radiolab等一些最受歡迎的網站所使用。
這是一個非常容易遵循四步過程來創建您的時間表,這在這里解釋。最好的部分?它可以從各種來源獲取媒體,並內置對Twitter,Flickr,Google Maps,YouTube,Vimeo,Vine,Dailymotion,Wikipedia,SoundCloud和其他類似網站的支持。
8、Plotly
Plotly是一個基於Web的數據分析和繪圖工具。它支持具有內置社交分享功能的圖表類型的良好集合。可用的圖表和圖表類型具有專業的外觀和感覺。創建圖表只需要載入信息並自定義布局,坐標軸,注釋和圖例。如果你想要開始,你可以在這里找到一些靈感。
9、Visualize Free
Visualize Free是一個託管工具,允許您使用公開可用的數據集,或者上傳您自己的數據集,並構建互動式可視化來演示數據。可視化遠遠超出簡單的圖表,而且服務是完全免費的,而開發工作需要Flash,輸出可以通過HTML5完成。
❹ 地理信息語義分析與關系構建
地理信息除了在數據結構上存在異構,在語義上也存在異構。地理信息語義上的異構可以分為空間數據的異構和非空間數據的異構,以下分別對這兩種語義異構進行闡述。
5.5.1.1 空春判逗間數據語義分析與空間關系構建
地理信息中空間數據的語義關系主要可分為以下三種。
(1)拓撲關系: 主要指地理對象間相離(DT)、相接(TO)、重疊(OV)、覆蓋(CO)、包含(CT)、相等(EQ)、被覆蓋(CB)、在內部(IN)八種關系。其中覆蓋(CO)與被覆蓋(CB),包含(CT)與在內部(IN)為逆反關系。
(2)方位關系: 主要指一個地理實體相對於另一個地理實體的方向關系。眾所周知的八個方位關系為: 北(N)、西北(NW)、西(W)、西南(SW)、南(S)、東南(SE)、東(E)、東北(NE)。以圖形(像)中央的地理實體作為第一個起始位置來確定其他地理實體相對於此起始位置地理實體的方位關系; 然後以第一個起始位置為圓心,在周圍找一個地理實體作為參照,依此類推,確定地理實體之間的相互位置關系。
如圖 5.38 所示,首先選 A 作為第一個起始參照實體,建立其他地理實體與 A 地理實體的空間方位關系; 然後在地理實體(F、G、H)中再選擇一個作為下一個參照實體,依順時針方向選擇 F 作為第二個參照實體,建立其他地理實體(除去已經建立方位關系的 A 實體)與 F 地理實體之間的空間方位關系,依此類推,用同樣的方法建立地理實體之間的空間方位關系。
圖 5.38 地理實體的參照關系
圖 5.39 空間方位之間的推理關系
如上圖 5.39 所示,在方位關系中,A 實體和 B 實體的空間方位存在以下關系。
若 B 位於 A 的北方向,則 A 位於 B 的南方向;
若 B 位於 A 的西北方向,則 A 位於 B 的東南方向;
若 B 位於 A 的西方向,則 A 位於 B 的東方向;
若 B 位於 A 的西南方向,則 A 位於 B 的東北方向;
若 B 位於 A 的南方向,則 A 位於 B 的北方向;
若 B 位於 A 的東南方向,則 A 位於 B 的西北方向;
若 B 位於 A 的東方向,則 A 位於 B 的西方向;
若 B 位於 A 的東北方向,則 A 位於 B 的西南方向。
以上方位關系在空間推理時會用到。用 OWL 建立其相互關系後,就可以用 Jena 推理出相互關系。
(3)距離關系: 通常人們用遠、近、較遠和較近等來形容兩個地理實體之間的距離,但這樣的形容不準確且容易引起歧義。對於距離關系,我們採用對象質心之間的標准歐氏距離。
針對上述空間數據的語義異構問題,提出用屬性關系圖(Attribute Relational Graph,ARG),來描述地理實體及其空間關系信息。參照圖 5.40 的圖形和它的 ARG,ARG 的結點標有對象的標號。兩個結點之間的邊標有兩個結點間的關系信息。結點 N1 與 N2 之間的邊標有(N1,D,67,8.9,N2),這表明 N1 與 N2 之間的拓撲關系為相離(Disjoint),它們之間的角度為 67°(隨下標遞增順序測量),它們之間的距離為 8.9 個單位。
圖 5.40 圖形與其屬性關系圖 ARG 的映射過程
為每幅圖形創建 ARG 之後,ARG 要映射到特徵空間的一個多維點,特徵空間中的點按照某種預先指定的順序進行組織(以中央地理實體為第一個起始參照實體)。首先是第一個地理實體,其後是該地理實體與所有其他地理實體之間的關系; 然後是第二個地理實體以及第二個地理實體與隨後所有地理實體間的關系,依此類推,直至建立完整的 ARG。在這個階段,對象之間的方位角也轉換為方位謂詞。如圖 5.40,N1 與 N2 之間的角度 67°就映射為西南方位(SW)。
5.5.1.2 非空間數據語義分析與關系構建
非空間數據中的語義異構,主要由於人們對同一或相同類的地理實體在表述概念上存在差異,如對於南京,有人稱之為金陵,又有人稱之為石頭城; 而一些國家地理劃分中的州在中國等同於省的概念。非空間數據中表示相等或相似的語義關系又稱為同主體語義關沖畢系。非空間數據的語義異構一般分為以下兩種: 異形同義詞,既不同的詞彙表達同一個含義,如南京,又可稱為金陵或石頭城; 同形異義詞,即同一個詞彙表達不同的含義。
其中同形異義詞間的關系可扒賣以用 OWL 中的以下語義標簽描述: differentFrom(個體不同),兩個個體可以顯式聲明為不同; allDifferent(全不同)和 distinctMembers(不同成員),這兩個詞配合使用表示一定數量的個體兩兩不同。
異形同義詞的關系可以用以下標簽描述: equivalentClass(等價類),兩個類可以聲明為等價,即使它們盡管名字不同,但擁有相同的實例,等價類可以用來創建同義類; sameAs(個體相同),兩個個體可以聲明為相同,用它可以創建一系列指向同一個個體的不同名字。
對於一些屬性關系可以用 equivalentProperty(等價屬性),inverseOf(逆反屬性),TransitiveProperty(傳遞屬性),SymmetricProperty(對稱屬性),FunctionalProperty(函數屬性),inverseFunctionalProperty(反函數屬性)等來描述。在建立非空間數據的語義關系時,本研究按照 ARG 中地理實體出現的順序構建非空間數據語義關系,這樣便於利用第
5.5.2 部分的演算法自動生成應用本體實例。