㈠ 異常值是指什麼請列舉1種識別連續型變數異常值的方法
可以選擇以下方法。 用線性回歸的辦法求得某一點到直線最遠,去除這一點即可。 PS:線性回歸是利用數理統計中的回歸分析,來確定兩種或兩種以昌握上變數間相互依賴的定量關系的一種統計分析方法冊褲,運用十分廣泛耐姿慶。分析按照自變數和因變數之間的關系類
㈡ 講解中四的某一段數學知識
cumulativefrequency累積頻數
stemandleafdiagrams枝葉圖
boxplots箱線圖
LQlowerquartile下四分位數
UQupperquartile上四分位數
IQRinterquartilerange四分位數差
什麼是箱線圖
箱線圖在文獻中經常見到,是對數據分布的一種常用表示方法。但是所見資料中往往說的不是特別清楚,因此需要了解一下箱線圖的繪制過程,與部分的意義。
計算過程:
1計算上四分位數,中位數,下四分位數
2計算上四分位數和下四分位數之間的差值,即四分位數差(IQR,interquartilerange)
3繪制箱線圖的上下范圍,上限為上四分位數,下限為念卜下四分位數。在箱子內部中位數的位置繪制橫線鋒攔。
4大於上四分位數1.5倍四分位數差的值,或者小於下四分位數1.5倍四分位數差的值,劃為異常值(outliers)。
5異常值之外,最靠近上邊緣和下邊緣的兩個值處,畫橫線,作為箱線圖的觸須。
6極端異常值,即超出四分位數差3倍距離的異常值,用實心點表示;較為溫和的異常值,即處於1.5倍-3倍四分位數差之銀高胡間的異常值,用空心點表示。
7為箱線圖添加名稱,數軸等。
㈢ 什麼是粗大誤差(異常值)產生異常值的原因是什麼
粗大誤差指超改弊大出在規定條件下卜神預期的誤差。含有粗大誤核豎差的測得值稱之為壞值或異常值,所以必須剔除。在作誤差分析時,要估計的誤差通常只有系統誤差和隨機誤差兩類。
產生異常值的原因一般是由於疏忽、失誤或突然發生的不該發生的原因造成的。如讀錯、記錯、儀器示值突然跳動、突然震動、操作失誤等。所以必須在計算測量結果及不確定度評定中要考慮異
常值的判別和剔除。
㈣ 不符合正態分布的數列怎麼確定異常值
方法如下:設這個數列有n個數,刪掉這個數列的第i個數,然後對剩下的n-1個數求方差,這樣一共會得到n個方差,找到最大的那個,那個數就是異常值。
正態分布(Normal distribution)改模燃又名高斯分布(Gaussian distribution),是一個在數學、物理及工程等領域都非常重要的概率分布,在統計學的許多方面有著重大的影響力。若隨機變數X服從一個數學期望為μ、方差為σ^2的高斯分布,記為N(μ,σ^2)。其概率密度函數為正態分布的期望值核虛μ決定了其位置,其標准差σ決定了分布的幅度。因其曲線呈鍾形,因此碼簡人們又經常稱之為鍾形曲線。我們通常所說的標准正態分布是μ = 0,σ = 1的正態分布。
㈤ 動態異常值檢測什麼意思
意思是在檢測過程中,樣本中的個別值,其數值明顯偏搭汪離它所屬肆伍樣本的其餘觀測值。異常值檢測是機器學習中重裂枝或要的一部分,它的任務是發現與大部分其他對象顯著不同的對象。大部分機器學習過程都將這種差異信息視為雜訊而丟棄。
㈥ 請舉例說明異常值、離群值和極值有什麼聯系和區別 沒有任務詳情
異常值、離群值和極值的聯系和區別在於,離群值處理,因為過大或過小的數據可能會影響到分析結果,尤其是在做回歸的時候,我們需要對那些離群值進行處理。
實際上離群值和極值是有區別的,因為極值不代表異常,但實際處理中這兩個所用方法差不多,所以這里也不強行區分了。
異常值:異常值outlier:一組測定值中與平均值的偏差超過兩倍標准差的測定值。
杠桿點:因此殘差的方差與杠桿點有關
離群點:是指一個時間序列中,遠離序列的一般水平的極端大值和極端小值。因此,也稱之為歧異值,有時也稱其為野值。離群點是由於系統受外部干擾而造成的。
但是,形成離群點的系統外部干擾是多種多樣的。首先可能是采樣中的誤差,如記錄的偏誤,工作人員出現筆誤,計算錯誤等,都有可能產生極端大值或虧帶者極端小值。其次可能是被研究現象本身由於受各種偶然非正常的因素影響而引起的。
高杠桿點,一個有高杠桿率的觀測大耐值未必是一個有影響的觀測值,它可能對回歸直線的斜率沒有什麼影響。
影響點:強影響點:即對模型參數銷仿蘆估計值影響有些比例失衡的點。例如,若移除模型的一個觀測點時,模型會發生巨大的改變,那麼你就需要檢測一下數據中是否存在強影響點了。
某些離群點既是異常點也是杠桿點。將離群點和強影響點統稱為例外點。異常點是指因變數值遠離其平均值所對應的數據點,或者說該數據點在軸上的投影明顯遠離其他數據點在軸上的投影,其中該因變數值稱為異常值。
㈦ 異常值是指什麼請列舉1種識別連續型變數異常值的方法
先說一個熟悉的內容,數列與函數。 當然數列也是函數,但它的取值是自消態然數,取值是離散的, 而一般改正的函數取值是某一個區間,在這區間內取值往往是可以連續的。 離散型隨機變數與連續型隨機變數也是由隨機變數取值范圍核橋悔(或說成取值的形式)確定
㈧ 如何判別測量數據中是否有異常值
異常值outlier:指樣本中的個別值,其數值明顯偏離它(或他們)所屬樣本的其餘觀測值,也稱異常數據,離群值。
目前人們對異常值的判別與剔除主要採用物理判別法和統計判別法兩種方法。
所謂物理判別法就是根據人們對客觀事物已有的認識,判別由於外界干擾、人為誤差等原因造成實測數據值偏離正常結果,在實驗過程中隨時判斷,隨時剔除。
統計判別法是給定一個置信概率,並確定一個置信限,凡超過此限的誤差,就認為它不屬於隨機誤差范圍,將其視為異常值剔除。當物理識別不易判斷時,一般採用統計識別法。
對於多次重復測定的數據值,異常值常用的統計識別與剔除法有:
拉依達准則法(3δ):簡單,無需查表。測量次數較多或要求不高時用。是最常用的異常值判定與剔除准則。但當測量次數《=10次時,該准則失效。
如果實驗數據值的總體x是服從正態分布的,則
式中,μ與σ分別表示正態總體的數學期望和標准差。此時,在實驗數據值中出現大於μ+3σ或小於μ—3σ數據值的概率是很小的。因此,根據上式對於大於μ+3σ或小於μ—3σ的實驗數據值作為異常值,予以剔除。具體計算方法參見http://202.121.199.249/foundrymate/lessons/data-analysis/13/131.htm
在這種情況下,異常值是指一組測定值中與平均值的偏差超過兩倍標准差的測定值。與平均值的偏差超過三倍標准差的測定值,稱為高度異常的異常值。在處理數據時,應剔除高度異常的異常值。異常值是否剔除,視具體情況而定。在統計檢驗時,指定為檢出異常值的顯著性水平α=0.05,稱為檢出水平;指定為檢出高度異常的異常值的顯著性水平α=0.01,稱為舍棄水平,又稱剔除水平(reject level)。
標准化數值(Z-score)可用來幫助識別異常值。Z分數標准化後的數據服從正態分布。因此,應用Z分數可識別異常值。我們建議將Z分數低於-3或高於3的數據看成是異常值。這些數據的准確性要復查,以決定它是否屬於該數據集。
肖維勒准則法(Chauvenet):經典方法,改善了拉依達准則,過去應用較多,但它沒有固定的概率意義,特別是當測量數據值n無窮大時失效。
狄克遜准則法(Dixon):對數據值中只存在一個異常值時,效果良好。擔當異常值不止一個且出現在同側時,檢驗效果不好。尤其同側的異常值較接近時效果更差,易遭受到屏蔽效應。
羅馬諾夫斯基(t檢驗)准則法:計算較為復雜。
格拉布斯准則法(Grubbs):和狄克遜法均給出了嚴格的結果,但存在狄克遜法同樣的缺陷。朱宏等人採用數據值的中位數取代平均值,改進得到了更為穩健的處理方法。有效消除了同側異常值的屏蔽效應。國際上常推薦採用格拉布斯准則法。
㈨ 大數據科學家需要掌握的幾種異常值檢測方法
引言
異常值檢測與告警一直是工業界非常關注的問題,自動准確地檢測出系統的異常值,不僅可以節約大量的人力物力,還能盡早發現系統的異常情況,挽回不必要的損失。個推也非常重視大數據中的異常值檢測,例如在運維部門的流量管理業務中,個推很早便展開了對異常值檢測的實踐,也因此積累了較為豐富的經驗。本文將從以下幾個方面介紹異常值檢測。
1、異常值檢測研究背景
2、異常值檢測方法原理
3、異常值檢測應用實踐
異常值檢測研究背景
異常值,故名思議就是不同於正常值的值。 在數學上,可以用離群點來表述,這樣便可以將異常值檢測問題轉化為數學問題來求解。
異常值檢測在很多場景都有廣泛的應用,比如:
1、流量監測
互聯網上某些伺服器的訪問量,可能具有周期性或趨勢性:一般情況下都是相對平穩的,但是當受到某些黑客攻擊後,其訪問量可能發生顯著的變化,及早發現這些異常變化對企業而言有著很好的預防告警作用。
2、金融風控
正常賬戶中,用戶的轉賬行為一般屬於低頻事件,但在某些金融詐騙案中,一些嫌犯的賬戶就可能會出現高頻的轉賬行為,異常檢測系統如果能發現這些異常行為,及時採取相關措施,則會規避不少損失。
3、機器故障檢測
一個運行中的流水線,可能會裝有不同的感測器用來監測運行中的機器,這些感測器數據就反應了機器運行的狀態,這些實時的監測數據具有數據量大、維度廣的特點,用人工盯著看的話成本會非常高,高效的自動異常檢測演算法將能很好地解決這一問題。
異常值檢測方法原理
本文主要將異常值檢測方法分為兩大類:一類是基於統計的異常值檢測,另一類是基於模型的異常值檢測。
基於統計的方法
基於模型的方法
1、基於統計的異常值檢測方法
常見的基於統計的異常值檢測方法有以下2種,一種是基於3σ法咐枝猛則,一種是基於箱體圖。
3σ法則
箱體圖
3σ法則是指在樣本服從正態分布時,一般可認為小於μ-3σ或者大於μ+3σ的樣本值為異常樣本,其中μ為樣本均值,σ為樣本標准差。在實際使用中,我們雖然不知道樣本的真實分布,但只要真實分布與正太分布相差不是太大,該經驗法則在大部分情況下便是適用的。
箱體圖也是一種比較常見的異常值檢測方法,一般取所有樣本的25%分位點Q1和75%分位點Q3,兩者之間的距離為箱體的長度IQR,可認為小於Q1-1.5IQR或者大於Q3+1.5IQR的樣本值為異常樣本。
基於統計的異常檢測往往具有計算簡單、有堅實的統計學基礎等特點,但缺點也非常明顯,例如需要大量的樣本數據進行統計,難以對高維樣本數據進行異常值檢測等。
2、基於模型的異常值檢測
通常可將異常值檢測看作是一個二分類問題,即將所有樣本分為正常樣本和異常樣本,但這和常規的二分類問題又有所區別,常規的二分類一般要求正負樣本是均衡的,如果正負樣本不均勻的話,訓練結果往往會不太好。但在異常值檢測問題中,往往面臨著正(正常值)負(異常值)樣本不均勻的問題,異常值通常比正常值要少得多,搭笑因此需要對常規的二分類模型做一些改進。
基於模型的異常值檢測一般可分為有監督模型異常值檢測和無監督模型異常值檢測,比較典型的有監督模型如oneclassSVM、基於神經網路的自編碼器等。 oneclassSVM就是在經典的SVM基礎上改進而來,它用一個超球衡橋面替代了超平面,超球面以內的值為正常值,超球面以外的值為異常值。
經典的SVM
1
基於模型的方法
2
基於神經網路的自編碼器結構如下圖所示。
自編碼器(AE)
將正常樣本用於模型訓練,輸入與輸出之間的損失函數可採用常見的均方誤差,因此檢測過程中,當正常樣本輸入時,均方誤差會較小,當異常樣本輸入時,均方誤差會較大,設置合適的閾值便可將異常樣本檢測出來。但該方法也有缺點,就是對於訓練樣本比較相近的正常樣本判別較好,但若正常樣本與訓練樣本相差較大,則可能會導致模型誤判。
無監督模型的異常值檢測是異常值檢測中的主流方法,因為異常值的標注成本往往較高,另外異常值的產生往往無法預料,因此有些異常值可能在過去的樣本中根本沒有出現過, 這將導致某些異常樣本無法標注,這也是有監督模型的局限性所在。 較為常見的無監督異常值檢測模型有密度聚類(DBSCAN)、IsolationForest(IF)、RadomCutForest(RCF)等,其中DBSCAN是一種典型的無監督聚類方法,對某些類型的異常值檢測也能起到不錯的效果。該演算法原理網上資料較多,本文不作詳細介紹。
IF演算法最早由南京大學人工智慧學院院長周志華的團隊提出,是一種非常高效的異常值檢測方法,該方法不需要對樣本數據做任何先驗的假設,只需基於這樣一個事實——異常值只是少數,並且它們具有與正常值非常不同的屬性值。與隨機森林由大量決策樹組成一樣,IsolationForest也由大量的樹組成。IsolationForest中的樹叫isolation tree,簡稱iTree。iTree樹和決策樹不太一樣,其構建過程也比決策樹簡單,因為其中就是一個完全隨機的過程。
假設數據集有N條數據,構建一顆iTree時,從N條數據中均勻抽樣(一般是無放回抽樣)出n個樣本出來,作為這顆樹的訓練樣本。
在樣本中,隨機選一個特徵,並在這個特徵的所有值范圍內(最小值與最大值之間)隨機選一個值,對樣本進行二叉劃分,將樣本中小於該值的劃分到節點的左邊,大於等於該值的劃分到節點的右邊。
這樣得到了一個分裂條件和左、右兩邊的數據集,然後分別在左右兩邊的數據集上重復上面的過程,直至達到終止條件。 終止條件有兩個,一個是數據本身不可再分(只包括一個樣本,或者全部樣本相同),另外一個是樹的高度達到log2(n)。 不同於決策樹,iTree在演算法裡面已經限制了樹的高度。不限制雖然也可行,但出於效率考慮,演算法一般要求高度達到log2(n)深度即可。
把所有的iTree樹構建好了,就可以對測試數據進行預測了。預測的過程就是把測試數據在iTree樹上沿對應的條件分支往下走,直到達到葉子節點,並記錄這過程中經過的路徑長度h(x),即從根節點,穿過中間的節點,最後到達葉子節點,所走過的邊的數量(path length)。最後,將h(x)帶入公式,其中E(.)表示計算期望,c(n)表示當樣本數量為n時,路徑長度的平均值,從而便可計算出每條待測數據的異常分數s(Anomaly Score)。異常分數s具有如下性質:
1)如果分數s越接近1,則該樣本是異常值的可能性越高;
2)如果分數s越接近0,則該樣本是正常值的可能性越高;
RCF演算法與IF演算法思想上是比較類似的,前者可以看成是在IF演算法上做了一些改進。針對IF演算法中沒有考慮到的時間序列因素,RCF演算法考慮了該因素,並且在數據樣本采樣策略上作出了一些改進,使得異常值檢測相對IF演算法變得更加准確和高效,並能更好地應用於流式數據檢測。
IF演算法
RCF演算法
上圖展示了IF演算法和RCF演算法對於異常值檢測的異同。我們可以看出原始數據中有兩個突變異常數據值,對於後一個較大的突變異常值,IF演算法和RCF演算法都檢測了出來,但對於前一個較小的突變異常值,IF演算法沒有檢測出來,而RCF演算法依然檢測了出來,這意味著RCF有更好的異常值檢測性能。
異常值檢測應用實踐
理論還需結合實踐,下面我們將以某應用從2016.08.16至2019.09.21的日活變化情況為例,對異常值檢測的實際應用場景予以介紹:
從上圖中可以看出該應用的日活存在著一些顯著的異常值(比如紅色圓圈部分),這些異常值可能由於活動促銷或者更新迭代出現bug導致日活出現了比較明顯的波動。下面分別用基於統計的方法和基於模型的方法對該日活序列數據進行異常值檢測。
基於3σ法則(基於統計)
RCF演算法(基於模型)
從圖中可以看出,對於較大的突變異常值,3σ法則和RCF演算法都能較好地檢測出來, 但對於較小的突變異常值,RCF演算法則要表現得更好。
總結
上文為大家講解了異常值檢測的方法原理以及應用實踐。綜合來看,異常值檢測演算法多種多樣 ,每一種都有自己的優缺點和適用范圍,很難直接判斷哪一種異常檢測演算法是最佳的, 具體在實戰中,我們需要根據自身業務的特點,比如對計算量的要求、對異常值的容忍度等,選擇合適的異常值檢測演算法。
接下來,個推也會結合自身實踐,在大數據異常檢測方面不斷深耕,繼續優化演算法模型在不同業務場景中的性能,持續為開發者們分享前沿的理念與最新的實踐方案。