⑴ 【數據向】(三)數據建模、數據挖掘、數據分析異同
最近在看數據分析相關文章的時候,看到了很多相似的關鍵詞,如數據建模、數據挖掘、數據分析等等。它們指的是什麼,彼此之間又有怎樣的關聯或者區別呢。
在看數據建模相關概念時,有兩種截然不同的說法,我嘗試將它們總結如下:
- 在大數據領域,指的是將業務抽象為數據表以及表與表之間關系的過程;
- 在數據分析領域,更多的含義指的是「 數學建模 」,即找到輸入和輸出之間的規律的過程;
數據分析其實是更大的概念,但是如果單拎出來和數據挖掘進行對比時,他們的區別應該是:
- 數據分析側重依靠人的智慧對數據進行觀察,從而分析和推測
- 數據挖掘側重依靠機器從訓練集中發現規律
- 數據分析的常用方法為對比分析、分組分析、回歸分析(找A和B的規律);
- 一般流程為先明確目標(ctr不高如何提升),然後對原因做假設,並且通過現實數據對假設進行驗證,從而得到結論;
- 數據挖掘的常用方法為專家系統、統計、機器學習(分類演算法、回歸演算法)等
- 一般流程為先明確目標,然後收集和清洗數據,對數據進行建模,最後輸出模型或者規則;
這里參考的是: https://blog.csdn.net/achuo/article/details/51160456
這位大佬將流程分為了兩張圖來解釋,我這里為了方便看,把兩張圖合二為一,同樣也根據不同的步驟分層打上了不同的顏色。
同時在相關步驟的右上角也有對應的編號,關於對應編號的詳細闡述可以在圖的下方找到:
1、數據清洗:洗掉數據中的無效或干擾信息
2、數據整理:將原始數據整合成可以分析的樣子
- 數據聚合:將多張表的數據聚合,比如用戶購買流水、出售流水等,聚合為以用戶為度的統計:購買次數,出售次數等;
- 數據打標:比如我們的源數據很散,假設是一張帖子,那麼我們只需要提取其中部分信息,然後將這個帖子打上標記,比如求購貼/出售貼,涉及機型:任天堂/PS4/XBOX等
3、選擇變數:從業務邏輯和數據邏輯兩方面來考慮,業務邏輯重要程度更高
- 業務邏輯:哪些變數是可能影響結果的
- 數據邏輯:考慮變數的集中度(如果99%都是同一值,則不適合)、完整性(是否大部分數據都有該變數)
4、重構變數:調整變數或者將變數進行一定程度的轉換,如聚合(活躍天數聚合為高中低活)、組合(A+B或者A*B等)
5、選擇演算法:要根據具體業務場景選擇合適的模型(對應機器學習模型分類可以參考 【數據向】(一)人工智慧與機器學習、深度學習的關系 中),比如:
- 購物習慣分析:相關、聚類
- 購物金額預測:回歸
- 滿意度調查:聚類、分類、回歸
6、調整參數:給出一些必要的參數,比如K-means演算法中的聚類數量K和迭代次數上限等參數,並且根據訓練集的測試結果進行不斷調整;
7、迭代優化:當調參解決不了問題時,考慮更換演算法,比如K-means不好就試試系統聚類;回歸模型不好就改成時間序列;
8、描述分析和洞察結論:通過觀察事實數據,進行分組、對比等,得出一些結論,如某某地區玩家更多,某某游戲機更流行等;
⑵ 數學建模中有什麼好的數據處理方法,尤其是量大的數據
你是要做統計嗎?對大量數據的處理統計,spss是個很強大的統計軟體,只要你將excel中的數據導入spss,然後選擇你要處理的方式,軟體自動幫你解決。至於lingo,是做優化的好幫手,而MATLAB雖然也具有統計處理數據的功能,但是沒有spss強大,不過用來解微分方程是很合適的。
另外,如果你不會用spss,覺得學起來麻煩,那就用excel吧,其實excel的功能也是很強大的,處理數據很方便。我一般是先用excel對數據做一些初級的處理,比如排序啊,求和統計,平均數之類的,如果要做回歸分析或者聚類分析等等,我就會用spss來做,這個用起來很方便。
⑶ 在做數學建模題時,都有那些方法可以處理大量數據
結合數模培訓和參賽的經驗,可採用數據挖掘中的多元回歸分析,主成分分析、人工神經網路等方法在建模中的一些成功應用。以全國大學生數學建模競賽題為例,數據處理軟體Excel、Spss、Matlab在數學建模中的應用及其重要性。
當需要從定量的角度分析和研究一個實際問題時,人們就要在深入調查研究、了解對象信息、作出簡化假設、分析內在規律等工作的基礎上,用數學的符號和語言作表述來建立數學模型。
數學建模一般應用於高新技術領域和工程領域,對於尋常生活來說,並無很大的應用。而學生參與數學建模的學習和競賽主要是培養學生的數學思維、創新思維、邏輯思維、團隊協作能力和論文寫作技巧等。此外,若能在數學建模中獲獎,有利於本科、研究生等的學校申請。
數學建模的一般過程:模型准備、模型假設、模型建立、模型求解、模型分析、模型檢驗。
數學建模是一種數學的思考方法,是運用數學的語言和方法,把錯綜復雜的實際問題簡化、抽象為合理的數學結構,建立起反映實際問題的數量關系,然後利用數學的理論和方法去分析和解決問題。數學建模是數學來源於生活而有應用與生活的橋梁和紐帶。
⑷ 數學建模方法和步驟
數學建模的主要步驟:
第一、 模型准備
首先要了解問題的實際背景,明確建模目的,搜集必需的各種信息,盡量弄清對象的特徵。
第二、 模型假設
根據對象的特徵和建模目的,對問題進行必要的、合理的簡化,用精確的語言作出假設,是建
模至關重要的一步。如果對問題的所有因素一概考慮,無疑是一種有勇氣但方法欠佳的行為,所以
高超的建模者能充分發揮想像力、洞察力和判斷力,善於辨別主次,而且為了使處理方法簡單,應
盡量使問題線性化、均勻化。
第三、 模型構成
根據所作的假設分析對象的因果關系,利用對象的內在規律和適當的數學工具,構造各個量間
的等式關系或其它數學結構。這時,我們便會進入一個廣闊的應用數學天地,這里在高數、概率老
人的膝下,有許多可愛的孩子們,他們是圖論、排隊論、線性規劃、對策論等許多許多,真是泱泱
大國,別有洞天。不過我們應當牢記,建立數學模型是為了讓更多的人明了並能加以應用,因此工
具愈簡單愈有價值。
第四、模型求解
可以採用解方程、畫圖形、證明定理、邏輯運算、數值運算等各種傳統的和近代的數學方法,
特別是計算機技術。一道實際問題的解決往往需要紛繁的計算,許多時候還得將系統運行情況用計
算機模擬出來,因此編程和熟悉數學軟體包能力便舉足輕重。
第五、模型分析
對模型解答進行數學上的分析。"橫看成嶺側成峰,遠近高低各不?quot;,能否對模型結果作
出細致精當的分析,決定了你的模型能否達到更高的檔次。還要記住,不論那種情況都需進行誤差
分析,數據穩定性分析。
數學建模採用的主要方法有:
(一)、機理分析法:根據對客觀事物特性的認識從基本物理定律以及系統的結構數據來推導出模
型。
1、比例分析法:建立變數之間函數關系的最基本最常用的方法。
2、代數方法:求解離散問題(離散的數據、符號、圖形)的主要方法。
3、邏輯方法:是數學理論研究的重要方法,對社會學和經濟學等領域的實際問題,在決策,對策
等學科中得到廣泛應用。
4、常微分方程:解決兩個變數之間的變化規律,關鍵是建立「瞬時變化率」的表達式。
5、偏微分方程:解決因變數與兩個以上自變數之間的變化規律。
(二)、數據分析法:通過對量測數據的統計分析,找出與數據擬合最好的模型
1、回歸分析法:用於對函數f(x)的一組觀測值(xi,fi)i=1,2,…,n,確定函數的表達式,由
於處理的是靜態的獨立數據,故稱為數理統計方法。
2、時序分析法:處理的是動態的相關數據,又稱為過程統計方法。
3、回歸分析法:用於對函數f(x)的一組觀測值(xi,fi)i=1,2,…,n,確定函數的表達式,由
於處理的是靜態的獨立數據,故稱為數理統計方法。
4、時序分析法:處理的是動態的相關數據,又稱為過程統計方法。
(三)、模擬和其他方法
1、計算機模擬(模擬):實質上是統計估計方法,等效於抽樣試驗。①離散系統模擬,有一組狀
態變數。②連續系統模擬,有解析表達式或系統結構圖。
2、因子試驗法:在系統上作局部試驗,再根據試驗結果進行不斷分析修改,求得所需的模型結構
。
3、人工現實法:基於對系統過去行為的了解和對未來希望達到的目標,並考慮到系統有關因素的
可能變化,人為地組成一個系統。
⑸ 關於數學建模數據分析的方法
建議使用層次分析法,就是將指標通過專家打分,分別賦權重,然後構造一個指標函數,在通過Spss或其他統計軟體,進行求解。
模型的建立:目標函數的建立,以第一個,即經濟效益為例,你可以查閱經濟書本,找到這些指標同經濟效益的關系,來建立函數,一般是線性模型;
模型的求解:
你先用Spss,進行這5個指標的因子分析,得到貢獻率高的因子,並得到它的權重系數,這就是你指標函數的權重值,這樣你的指標函數就求出來了;
接著你可以用其他軟體(一般我用matlab),將具體歷年的數據代入指標函數,得到理念的經濟效益值,最後做一個歷年效益數據分析。
理論就是這樣,實際就要自己操作了。