1. 生物統計學F檢驗表怎麼查
1 先計算出F值。「Ms處理間均方/Ms處理內均方=F值」
2 根據你的檢驗標准α=0.05(5%)或α=0.01(1%)。查F(一尾)檢驗表[本表雙行:上行為5%而下行為1%],自由度對應為『橫是處理自由度』;『縱為誤差自由度』。
3 表中值與你計算的F值對比,確定是否為『顯著』或『極顯著』。
4 特別提醒:查表僅用自由度來查F值。你得首先計算出各「自由 度」才能查。
2. 你知道生物統計學里的Vst(st是下標)是什麼意思嗎,具體意義是什麼,相關公式呢 還有MAF的意義和計算方
standard variation 標准差,公式這里打不來,但是隨便哪本統計學的書都會講怎麼計算標准差。
MAF不是一個統計學縮寫吧??Minor Allele Frequency?
本人不是生統專業的,知道的不多。
3. 生物統計學 抽樣誤差和標准誤有什麼不同
抽樣誤差和系統誤差不一樣,關系系統誤差,當人們一旦發現它之後,是可能找到產生原因而採取一定措施加以糾正的,抽樣誤差則無法避免。因為客觀上既然存在個體差異,那麼剛巧這一樣本中多抽到幾例數值大些的,所求樣本均數就會稍大,另一樣本多抽到幾例數值小些,該樣本均數就會稍小,這是不言而喻的。
抽樣誤差既是樣本指標與總體指標之間的誤差,那麼抽樣誤差小就表示從樣本算得的平均數或率與總體的較接近,有樣本代表總體說明其特徵的可靠性亦大。但是,通常總體均數或總體率我們並不知道,所以抽樣誤差的數量大小,不能直觀地加以說明,只能通過抽樣實驗來了解抽樣誤差的規律性。
4. 生物統計 SE字母
SE是生物統計學里的標准誤差 SE=總體標准差/根號下樣本含量
在抽樣分布統計里用的很多吧
SD是標准差 容易混淆
5. di是什麼偏差
di是絕對偏差。
絕對偏差是指某一次測量值與平均值的差異,即:di=xi-d。其中:di表示絕對偏差;xi表示測定值;d表示多次測定算術平均值。
精確度:指一組平行測定結果之間相互接近的程度,用各種偏差來表示。
絕對偏差:單次測定值與平均值之差稱為絕對偏差。
相對偏差:絕對偏差在平均值中所佔的百分比。
平均偏差:單次測定結果的絕對偏差的平均值稱為平均偏差。
相對平均偏差:平均偏差佔平均值的百分比。
標准偏差和相對標准偏差:
1、標准偏差:單次測定結果與平均值的差方和與n-1的商取算術平方根稱為標准偏差,用S表示,用來衡量一組測定值的精密度。
其中差方和均根的目的,一是避免各次分析結果的偏差相互抵消,二是突出大的偏差,更好地反映各次分析結果的分散程度;三是描述各次測定值的平均分散程度。標准偏差越小,表示平行測定結果的隨機誤差越小,分散度越小和精密度越高。
2、相對標准偏差:標准偏差在平均值所佔的百分比,用來比較在不同情況下測定結果的精密度,在生物統計學上有時也稱變異系數,用來比較變異的大小。
6. 生物統計附試驗設計
第一章緒論
1.生物統計學的內容:統計原理、統計方法和試驗設計。
2.生物統計的作用:a.科學地整理分析數據;b.判斷試驗結果的可能性;c.確定事物之間的相互關系;d.提供試驗設計的原理。
3.樣本容量常記為n,通常把n≤30的樣本稱為小樣本,n.>30的樣本稱為大樣本。
4.名解:(重)①生物統計:生物統計是應用概率論和數據統計的原理和方法來研究生物界數量變化的學科;
②總體:是被研究對象的全體,據所含的個體的多少,總體分為有限總體和無限總體。
③樣本:是指總體內隨機抽取出來若干個體所組成的單位。
④隨機誤差:由於許多無法控制的內在和外在的偶然因素所造成的誤差,內在如個體差異,外在如環境,它影響試驗的精確性。
(了)①參數:從總體計算出來的數量特徵值,它是一個真值,沒有抽樣變動的影響,一般用平均數u,標准差s。
②統計量:是從樣本計算出來的數量特徵值,它是參數的估計值,受樣本變動的影響,一般用拉丁字母表示,如平均數。
③系統誤差:主要是試驗動物的初始條件不同,試驗條件相差較大,儀器不準,標准試劑未經校正,葯品批次不同,葯品用量與種類不符合試驗計劃要求,以及觀察,記錄抄案,計算中的錯誤所引起的誤差,它影響試驗的准確性。
④准確性:指在試驗或調查中某試驗指標或形狀的觀測值與其真值接近的程度。
⑤精確性:指試驗或調查中一試驗指標或形狀的重復觀測值彼此接近的程度。
第二章資料的整理
1.統計資按性質分為:計量資料、次數資料和半定量資料。
2.計量資料是指用量測方式獲得的數量性狀資料,即用度、量、衡等計量工具直接測量獲得的數量性狀資料。計量資料整理的五步驟如下:
(1)求全距,即資料中最大值和最小值之差R=Max(x)—Min(x);
(2)確定組數即按樣本大小而定;
樣本含量與組數
樣本含量 組數
30~60 6~8
60~100 8~10
100~200 10~12
200~500 12~17
500以上 17~30
(3)確定組距,每組最大值與最小值之差記為i ,公式:組距(i)=全距(R)/組數k ;(4)確定組中值及組限,各組的最大值和最小值稱為組限,最小值為下限,最大值為上限,每組的中點值稱為組中值,組中值=(下限+上限)/2=下限+組距/2=上限-組距/2;(5)歸組劃線計數,作次數分布表。
3.常用的五種統計圖為長條圖、圓圖、線圖、直方圖、折線圖,掌握直方圖和折線圖的繪制。
4.原始資料的檢查核對主要進行下面三性的檢查:①檢查資料的完整性;②檢查資料的正確性;③檢查資料的精確性。
5大樣本資料需整理成次數分布表。
第三章資料的統計描述
1.平均數包括以下五種算術平均數、中位數、眾數、幾何平均數及調和平均數。
2.用來度量資料變異程度的指標主要有極差、方差、標准差、變異系數。
3.平均數的基本性質是(1)樣本各觀測值與平均數之差的和為零,簡述為離均差之和為;(2)樣本各觀測值與平均數之差的平方和為最小,簡述為離均差平方和為最小。
4.10頭母豬第一胎產仔數為9、8、7、10、12、10、11、14、8、9(頭)計算10頭母豬第一胎產仔數的平均數、中位數、標准差和變異系數。
解:①平均數Σx=9+8+7+10+12+10+11+14+8+9=98,n=10
②資料數據按小到大排列如:7、8、8、9、9、10、10、11、12、14
中位數
③標准差
④變異系數
第四章常用概率分布
1.事件概率具有以下性質:①對於任何事件A,有0≤P(A)≤1;②必然事件的概率為1,即P(Ω)=1:③不可能的事件概率為0,即P(Ø)=0。
2.(1)正態分布:若連續型隨機變數X的概率分布密度函數為
其中 為平均數,σ2為方差,則稱隨機變數X服從正態分布,記為X~ 。相應的概率分布函數為
正態分布密度曲線為:
(2)標准正態分布::當μ=0、σ=l時,正態總體稱為標准正態總體,其相應的函數表示式是,(-∞<x<+∞)
其相應的曲線稱為標准曲線;.標准正態總體的概率問題:
對於標准正態總體N(0,1), 是總體取值小於 的概率,
即 ,
其中 ,圖中陰影部分的面積表示為概率 只要有標准正態分布表即可查表解決.從圖中不難發現:當 時, ;而當 時,Φ(0)=0.5;標准正態總體 在正態總體的研究中有非常重要的地位,為此專門製作了「標准正態分布表」.在這個表中,對應於 的值 是指總體取值小於 的概率,即 , .
若 ,則 .
利用標准正態分布表,可以求出標准正態總體在任意區間 內取值的概率,即直線 , 與正態曲線、x軸所圍成的曲邊梯形的面積 .
(3)有關概率計算的公式:
P(0≤u<u1)=Φ(u1)-0.5
P(u≥u1) =Φ(-u1)
P(|u|≥u1)=2Φ(-u1)
P(|u|<u1)=1-2Φ(-u1)
P(u1≤u<u2)=Φ(u2)-Φ(u1)
註:用曲線圖和面積來理解記憶。
(4)關於標准正態分布要熟記下列幾種常用概率:
P(-1≤u<1)=0.6826
P(-2≤u<2)=0.9545
P(-3≤u<3)=0.9973
P(-1.96≤u<1.96)=0.95
P (-2.58≤u<2.58)=0.99
(5)例:①已知u~N(0,1),試求: (1) P(u<-1.64)=? (2) P (u≥2.58)=? (3) P (|u|≥2.56)=? (4) P(0.34≤u<1.53) =?
利用(4-12)式,查附表1得:
(1) P(u<-1.64)=0.05050
(2) P (u≥2.58)=Φ(-2.58)=0.024940
(3) P (|u|≥2.56)=2Φ(-2.56)=2×0.005234=0.010468
(4) P (0.34≤u<1.53)=Φ(1.53)-Φ(0.34)=0.93669-0.6331=0.30389
②已知u~N(0,1)試求:
(1) P(u<- )+P(u≥ )=0.10的
(2) P(- ≤u< ﹚=0.86的
因為附表2中的α值是:
所以
(1) P(u<- )+ P(u≥ )=1- P(- ≤u< ﹚=0.10=α
由附表2查得: =1.644854
(2) P (- ≤u< )=0.86 ,α=1- P (- ≤u< )=1-0.86=0.14
由附表2查得: =1.475791
對於x~N(μ,σ2),只要將其轉換為u~N(0,1),即可求得相應的雙側分位數。
③已知豬血紅蛋白含量x服從正態分布N(14.52, ), 若P(x<1.1) =0.025, P(x> )=0.025,P(x< ) =0.005,P(x> )=0.005,求 , , , 。
由題意可知,α/2=0.025,α=0.05 又因為
P(x> )=
故 P(x< =+ P(x> )= P(u<- =+ P(u> )
=1- P(- <P< )=0.05=α
由附表2查得: =1.959964,所以
( -14.52)/1.68=-1.959964, ( -14.52)/1.68=1.959964
即 ≈11.23, ≈17.81。
同理 =2.575829,所以
( -14.52)/1.68=-2.575829, ( -14.52)/1.68=2.575829
即 ≈10.19, ≈18.85。
④已知豬血紅蛋白含量x服從正態分布N(12.86, ), 若P(x< ) =0.03, P(x≥ )=0.03,求 , 。
由題意可知,α/2=0.03,α=0.06 又因為
P(x≥ )=
故 P(x< =+ P(x≥ )= P(u<- =+ P(u≥ )
=1- P(- ≤P< )=0.06=α
由附表2查得: =1.880794,所以
( -12.86)/1.33=-1.880794, ( -12.86)/1.33=1.880794
即 ≈10.36, ≈15.36。
3. ①雙側概率(重):把隨機變數X落在平均數 左右標准差σ一定倍數區間之外的概率記作σ;②單側概率:指所求得隨機變數X小於平均數 左側標准差σ一定倍數或大於平均數 右側標准差σ一定倍數的概率記作σ/2。
第五章假設檢驗
1.顯著性檢驗:就是指在對資料進行統計分析時,先提某一問題對樣本所在總體的參數提出一個統計假設,然後根據從樣本獲得的統計量所服從的概率分布,對這一假設進行檢驗;其目的是主要是看樣本是否來自於均數相同的總體即通過對樣本的研究來對總體作出統計推斷;檢驗的對象是在統計學中,是以樣本平均數差異x1- x2的大小時樣本所在的總樣本平均數 1、 2是否相同作出推斷。
2.為什麼以樣本均數作為檢驗對象呢?是因為樣本平均數具有下述特性:
(1)離均差的平方和 (xi- )2最小。說明樣本平均數與樣本各個觀測值最接近,平均數是資料的代表數。
(2)樣本平均數是總體平均數的無偏估計值,即E( )= 。
(3)根據統計學中心極限定理,樣本平均數 服從或逼近正態分布。
所以,以樣本平均數作為檢驗對象,由兩個樣本平均數x1和x2的差異去推斷樣本所屬總體平均數是否相同時有依據的。
3.(了) ①標准誤(平均數抽樣總體的標准差) 的大小反映樣本平均數 的抽樣誤差的大小,即精確性的高低。標准誤大,說明各樣本平均數 間差異程度大,樣本平均數的精確性低。反之, 小,說明 間的差異程度小,樣本平均數的精確性高。 的大小與原總體的標准差σ成正比,與樣本含量n的平方根成反比。從某特定總體抽樣,因為σ是一常數,所以只有增大樣本含量才能降低樣本平均數 的抽樣誤差。在實際工作中,總體標准差σ往往是未知的,因而無法求得 。此時,可用樣本標准差S估計σ。於是,以 估計 。記 為 ,稱作樣本標准誤或均數標准誤。②區別:樣本標准差與樣本標准誤是既有聯系又有區別的兩個統計量, = 已表明了二者的聯系。二者的區別在於:樣本標准差S是反映樣本中各觀測值 , ,…, 變異程度大小的一個指標,它的大小說明了 對該樣本代表性的強弱。樣本標准誤 是樣本平均數 的標准差,它是 抽樣誤差的估計值, 其大小說明了樣本間變異程度的大小及 精確性的高低。
4. ①小概率事件通常指發生的概率小於5%的事件,認為在一次試驗中該事件是幾乎不可能發生的。隨機事件的概率表示了隨機事件在一次試驗中出現的可能性大小。若隨機事件的概率很小,例如小於0.05、0.01、0.001,稱之為小概率事件。小概率事件雖然不是不可能事件,但在一次試驗中出現的可能性很小,不出現的可能性很大,以至於實際上可以看成是不可能發生的。在統計學上,把小概率事件在一次試驗中看成是實際不可能發生的事件稱為小概率事件實際不可能性原理,亦稱為小概率原理。小概率事件實際不可能性原理是統計學上進行假設檢驗(顯著性檢驗)的基本依據。
②一統計資料進行統計推斷判斷的原則如下:
Ⅰ、當 < ,P>0.05 時,差異不顯著,用「NS」表示,不能否H0 ;
Ⅱ、當 ≤ ≤ ,0.01< P <0.05時,差異顯著,用「*」表示,接受HA,否定H0 ;
Ⅲ、當 ≥ ,P≤0.01時,差異極顯著,用「**」表示,接受HA,否定H0 。
5.計算題:了解樣本均數與總體均數的差異性顯著檢驗及兩樣本均數的差異性顯著檢驗;重點知道正態總體平均數 的置信區間。
例:①計算下列資料總體平均數的95%,99%置信區間,119、22、104、32、53、31、118、57、30、101、、58、48、68、70。
解:資料總體平均數的95%,99%置信區間
df=n-1=14-1=13,故 =2.160, =3.012
=65.0714 ,S=33.3293, 9.2431
所以⑴95%置信半徑為 =19.9668
95%置信下限為 — =45.1046
95%置信上限為 — =85.0382
即該資料總體平均數u 的95%置信區間為45.1046≤u≤85.0382
⑵99%置信半徑為 =27.8426
99%置信下限為 — =37.2288
99%置信上限為 — =92.9140
即該資料總體平均數u 的99%置信區間為37.2288≤u≤92.9140 。
②隨機抽測了10隻兔的直腸溫度,其數據為:38.7、39.0、38.9、39.6、39.1、39.8、38.5、39.7、39.2、38.4℃。已知該品種兔直腸溫度的總體平均數為 ℃,檢驗該樣本平均數溫度與 是否有顯著性差異?
解:⑴提出無效假設與備擇假設
H0 : =39.5,HA: <39.5
⑵計算t值 經計算得 =39.09,S=0.4909
t=( - )/ =-2.6411
⑶統計推斷
由df=n-1=10-1=9,查附表得臨界t值
=2.262 =3.250, <︱t︱< ,0.01< P < 0.05
否定H0,HA接受,表明樣本平均數 與已知總體平均數 差異顯著。
7. 生物統計學中研究的誤差有哪些各自有何特點
誤差主要可分為兩大類,即系統誤差(systamatic error)或稱可測誤差(determinate error);偶然誤差(random error)或稱隨機誤差(indectmirate error)。
(1)系統誤差
系統誤差是由於某種固定的原因或某些經常出現的因素引起的重復出現的誤差,根據其特性又稱為可測誤差或恆定誤差。它的特點是:①單向性。它對分析結果的影響比較固定,即誤差的正或負通常是固定的。
②重現性。當平行測定時,它會重復出現。
③可測性。在一定條件下,其數值大小基本固定,可以被檢測出來,因而也是可以被校正的。
(2)偶然誤差
偶然誤差是由於某些無法控制和避免的客觀偶然因素造成的誤差,又稱隨機誤差或未定誤差。
偶然誤差的特點是:
① 大小和方向不定。偶然誤差是隨機變數,它的值或大或小,符號或正或負。
② 偶然誤差是無法測量的,是不可避免的,也是不能加以校正的。
③ 偶然誤差可通過增加平行測定次數來減小。
8. SD與SEM有區別嗎
SD是標准偏差,反映的是樣本變數值的離散程度。SEM是標准誤差,反映的是樣本均數之間的變異。
SD為樣本標准差 ,根據標准差SD能反映變數值的離散程度 。正負值就是在計算好的SD上加個正負號, 表示在這個范圍內波動;在平均值上加上或者減去這個數字,都認為在正常范圍內 。
標准差的統計學常用符號為s,醫學期刊常用SD表示。標准差是一個極為重要的離散度指標,常用於表示變數分布的離散程度 。對於一組變數,只用平均數來描寫其集中趨勢是不全面的,還需要用標准差來描寫其離散趨勢。標准差用公式表示為:s= ∑(x-ˉx) 2 n-1由上式可見,標准差的基本內容是離均差,即(x-ˉx)。它說明一組變數值(x)與其算術均數(ˉx)的距離,故能描述變異大小。s小表示個體間變異小,即變數值分布較集中、整齊;s大表示個體間變異大,即各變數值分布較分散。
SEM是樣品標准差,即樣本均數的標准差,是描述均數抽樣分布的離散程度及衡量均數抽樣誤差大小的尺度,反映的是樣本均數之間的變異。標准誤用來衡量抽樣誤差。標准誤越小,表明樣本統計量與總體參數的值越接近,樣本對總體越有代表性,用樣本統計量推斷總體參數的可靠度越大。因此,標准誤是統計推斷可靠性的指標。
拓展資料
生物統計學是生物數學中最早形成的一大分支,它是在用統計學的原理和方法研究生物學的客觀現象及問題的過程中形成的,生物學中的問題又促使生物統計學中大部分基本方法進一步發展。生物統計學是應用統計學的分支,它將統計方法應用到醫學及生物學領域,在此,數理統計學和應用統計學有些重疊。
9. 2019-07-29
統計學:數據的集中趨勢(圖片上傳不了,請見諒,粗略匯總,如有想法,請下方留言)
[if !supportLists](一)[endif] 數據的集中趨勢 :
集中趨勢(central tendency)在統計學中是指一組數據向某一中心值攏的程度,它反映了一組數據中心點的位置所在。集中趨勢測度就是尋找數據水平的代表值或中心值,低層數據的集中趨勢測度值適用於高層次的測量數據,能夠揭示總體中眾多個觀察值所圍繞與集中的中心,反之,高層次數據的集中趨勢測度值並不適用於低層次的測量數據。
[if !supportLists]1.[endif] 眾數 (Mode) :
定義: 眾數 (Mode) 是統計學名詞,在統計分布上具有明顯集中趨勢點的數值,代表數據的一般水平(眾數可以不存在或多於一個)。修正定義:是一組數據中出現次數最多的數值,叫眾數,有時眾數在一組數中有好幾個。用M表示。 理性理解:簡單的說,就是一組數據中佔比例最多的那個數。
相關資料: 眾數是樣本觀測值在頻數分布表中頻數最多的那一組的組中值,主要應用於大面積普查研究之中。在高斯分布中,眾數位於峰值,用眾數代表一組數據,可靠性較差,不過,眾數不受極端數據的影響,並且求法簡便。在一組數據中,如果個別數據有很大的變動,選擇中位數表示這組數據的「集中趨勢」就比較適合。當數值或被觀察者沒有明顯次序(常發生於非數值性資料)時特別有用,由於可能無法良好定義算術平均數和中位數。例子:{雞、鴨、魚、魚、雞、魚}的眾數是魚。眾數算出來是銷售最常用的,代表最多的。
計算方法: ① 觀察法。若數據已歸類,則出現頻數最多的數據即為眾數;若數據已分組,則頻數最多的那一組的組中值即為眾數。用觀察法求得的眾數,一般是粗略眾數。
金氏插入法,根據計算公式:
或
式中L表示眾數所在組的精確下限,U 表示眾數所在組的精確上限,fa為與眾數組下限相鄰的頻數,fb為與眾數組上限相鄰的頻數,i為組距。
②皮爾遜經驗法
根據計算 公式 :
可求眾數。
式中ξ為樣本均值, Md 為中數,用皮爾遜公式計算所得眾數近似於理論眾數,常稱為皮爾遜近似眾數。眾數是皮爾遜(Pearson,K.)最先提出並在生物統計學中使用的,以上是數據出自於離散型隨機變數時求眾數的方法,對於連續型隨機變數ξ ,若概率密度函數為 f ,且 f 恰有一個最大值,則此最大值稱為ξ 的眾數,有時也把 f 的極大值稱為眾數; f 有兩個以上極大值時,亦稱復眾數。
Excel:在對應單元格中輸入公式:=MODE(B3:B28),眾數次數:公式如下:=COUNTIF(B3:B28,眾數數值或者眾數所在單元格)。
[if !supportLists]2.[endif] 中位數 ( Median ) :
定義: 中位數(又稱中值/中點數,英語: Median ),統計學中的專有名詞,代表一個樣本、種群或概率分布中的一個數值,其可將數值集合劃分為相等的上下兩部分。中位數是按順序排列的一組數據中居於中間位置的數,即在這組數據中,有一半的數據比他大,有一半的數據比他小,這里用 來表示中位數。(注意:中位數和眾數不同,眾數指最多的數,眾數有時不止一個,而中位數只能有一個。)是一種衡量集中趨勢的方法。
對於有限的數集,可以通過把所有觀察值高低排序後找出正中間的一個作為中位數。如果觀察值有偶數個,通常取最中間的兩個數值的平均數作為中位數。一個數集中最多有一半的數值小於中位數,也最多有一半的數值大於中位數。如果大於和小於中位數的數值個數均少於一半,那麼數集中必有若干值等同於中位數。設連續 隨機變數 X的 分布函數 為 ,那麼滿足條件 的數稱為X或分布F的中位數。
特點: ①中位數是以它在所有標志值中所處的位置確定的全體單位標志值的代表值,不受分布數列的極大或極小值影響,從而在一定程度上提高了中位數對分布數列的代表性。
②有些離散型變數的單項式數列,當次數分布偏態時,中位數的代表性會受到影響。
③趨於一組有序數據的中間位置
計算方法: ①對於一在Matlab中,median()函數是求取一組數據的中位數的內置函數,使用規則如下:
M = median(A)
M = median(A,dim)
M = median(___,nanflag)
示例:
1)A = [0 1 1; 2 3 2; 1 3 2; 4 2 2]
M = median(A)
得到結果:M = [ 1.5000 2.5000 2.0000]
2)A = [0 1 1; 2 3 2]
M = median(A,2)
得到結果:
其他: 1)平均數是通過計算得到的,因此它會因每一個數據的變化而變化。
2)中位數是通過排序得到的,它不受最大、最小兩個極端數值的影響。部分數據的變動對中位數沒有影響,當一組數據中的個別數據變動較大時,常用它來描述這組數據的集中趨勢。
3)眾數也是數據的一種代表數,反映了一組數據的集中程度.日常生活中諸如「最佳」、「最受歡迎」、「最滿意」等,都與眾數有關系,它反映了一種最普遍的傾向。
優缺點:平均數需要全組所有數據來計算,易受數據中極端數值的影響。中位數僅需把數據按順序排列後即可確定,不易受數據中極端數值的影響。眾數通過計數得到,不易受數據中極端數值的影響。在數列中出現了極端變數值的情況下,用中位數作為代表值要比用算術平均數更好,因為中位數不受極端變數值的影響;如果研究目的就是為了反映中間水平,當然也應該用中位數。在統計數據的處理和分析時,可結合使用中位數。
[if !supportLists]3.[endif] 平均數 ( mean ) :
定義: 平均數,統計學術語,是表示一組數據集中趨勢的量數,是指在一組數據中所有數據之和再除以這組數據的個數。它是反映數據集中趨勢的一項指標。
在統計工作中,平均數(均值)和標准差是描述數據資料集中趨勢和離散程度的兩個最重要的測度值.
調和平均數≤幾何平均數≤算術平均數≤平方平均數(並且只有當所有變數值都相等時,這三種平均數才相等)
分類: ①算術平均數(arithmetic mean):算術平均數是指在一組數據中所有數據之和再除以數據的個數。它是反映數據集中趨勢的一項指標。把n個數的總和除以n,所得的商叫做這n個數的平均數。用平均數表示一組數據的情況,有直觀、簡明的特點,所以在日常生活中經常用到,如平均速度、平均身高、平均產量、平均成績等等。
優缺點:該方法的優點是計算簡單,而缺點是計算平均數時沒有考慮到近期的變動趨勢,因而預測值與實際值往往會發生較大的誤差。通常適用於預測銷售比較穩定的產品。如沒有季節性變化的糧油食品和日常用品等。
②幾何平均數(geometric mean),n個觀察值連乘積的n次方根就是幾何平均數。根據資料的條件不同,幾何平均數分為加權和不加權之分。幾何平均數多用於計算平均比率和平均速度。如:平均利率、平均發展速度、平均合格率等
1、 簡單幾何平均法
2、 加權幾何平均法
算術平均數,(a+b)/2,體現純粹數字上的關系,而根號ab,稱為幾何平均數,這個體現了一個幾何關系,作一正方形,使其面積等於以a,b為長寬的矩形,則該正方形的邊長即為a、b的幾何平均數,中國古代數學書中提到的矩形面積時 往往用長寬的幾何平均數來表示。
計算幾何平均數要求各觀察值之間存在連乘積關系,它的主要用途是:1、對比率、指數等進行平均;2、計算平均發展速度;其中:樣本數據非負,主要用於對數正態分布。
特點:1、幾何平均數受極端值的影響較算術平均數小。2、如果變數值有負值,計算出的幾何平均數就會成為負數或虛數。3、它僅適用於具有等比或近似等比關系的數據(它適用於反映特定現象的平均水平,即現象的總標志值不是各單位標志值的總和,而是各單位標志值的連乘積的情形。對於這類社會經濟現象,不能採用算術平均數反映其一般水平,而需採用幾何平均數)。4、幾何平均數的對數是各變數值對數的 算術平均數 。
計算舉例:假定某地儲蓄年利率(按 復利 計算):5%持續1.5年,3%持續2.5年,2.2%持續1年。請問此5年內該地平均儲蓄年利率。該地平均儲蓄年利率(利率=利息÷本金÷時間×100%)某銀行為吸收存款而提高利息率,五年的利息率分別為3%、4%、5%、6%、7% ,試計算五年的平均年利率(分別按單利和復利兩種情況計算)存入10000元 五年後 的實際本利和:單利:10000*(1+3%+4%+5%+6%+7%)=12500復利:10000*(1+3%)*(1+4%)*(1+5%)*(1+6%)*(1+7%)=12757.03元單利平均年利率:(3%+4%+5%+6%+7%)/5=5%復利平均年利率:[(1+3%)*(1+4%)*(1+5%)*(1+6%)*(1+7%)-1]/5=5.51%(按照此方法計算的復利的平均年利率計算方法為3.44%:
③調和平均數(harmonic mean):調和平均數又稱倒數平均數,是變數倒數的算術平均數的倒數。
計算方法:簡單調和平均數是算術平均數的變形,它的計算公式如下:
加權調和平均數:加權調和平均數是加權算術平均數的變形。它與加權算術平均數在實質上是相同的,而僅有形式上的區別,即表現為變數對稱的區別、權數對稱的區別和計算位置對稱的區別。因而其計算公式為:
加權調和平均數的應用:在很多情況下,由於只掌握每組某個標志的數值總和(M)而缺少總體單位數(f)的資料,不能直接採用加權算術平均數法計算平均數,則應採用加權調和平均數。
例如:某工廠購進材料三批,每批價格及采購金額資料如下表:
價格(元/千克)(x)采購金額(元)(m)采購數量(千克)(m/x)
第一批3510000286
第二批4020000500
第三批4515000330
合計--450001116
調和平均數可以用在相同距離但速度不同時,平均速度的計算;如一段路程,前半段時速60公里,後半段時速30公里〔兩段距離相等〕,則其平均速度為兩者的調和平均數時速40公里。
另外,兩個電阻R1, R2並聯後的等效電阻R:
恰為兩電阻調和平均數的一半。
特點:①調和平均數易受極端值的影響,且受極小值的影響比受極大值的影響更大。②只要有一個標志值為0,就不能計算調和平均數。③當組距數列有開口組時,其組中值即使按相鄰組距計算,假定性也很大,這時的調和平均數的代表性很不可靠。
④調和平均數應用的范圍較小。在實際中,往往由於缺乏總體單位數的資料而不能直接計算算術平均數,這時需用調和平均法來求得平均數。
注意事項:(1)當變數數列有一變數X的值為零時,調和平均數公式的分母將等於無窮大,因而無法求出確定的平均值。(2)調和平均數和算術平均數一樣,易受兩極端值影響。上端值越大,平均數向上偏離集中趨勢就越大。反之,下端值越大,平均數向下偏離集中趨勢越大。(3)要注意區分調和平均數和算術平均數的使用條件,因事制宜。
密度,速度,概率都是一種近似概念:A在空間B的平均分布程度,而調和平均數,是為了衡量A在空間B,C的總體平均分布程度(假設B,C不重疊)。而加權調和平均數,就是在B,C里加個權數。
調和平均數與算術平均數的舉例分析:
例一水果甲級每元1公斤,乙級每元1.5公斤,丙級每元2公斤。問:
(1)若各買1公斤,平均每元可買多少公斤?
(2)各買6.5公斤,平均每元可買多少公斤?
(3)甲級3公斤,乙級2公斤,丙級1公斤,平均每元可買幾公斤?
(4)甲乙丙三級各買1元,每元可買幾公斤?
解:例一
(1)(公斤/元)
(2)(公斤/元)
(3)(公斤/元)
[if !supportLists](4)[endif](公斤/元)
考慮一次去便利店並返回的行程:
去程速度為30 mph,返程時交通有一些擁堵,所以速度為10 mph,去程和返程走的是同一路線,也就是說距離一樣(5英里)
整個行程的平均速度是多少?如果不假思索地應用算術平均數的話,結果是20 mph((30+10)/2)。但是這么算不對。因為去程速度更快,所以你更快地完成了去程的5英里,整個行程中以30 mph的速度行駛的時間更少,以10 mph的速度行駛的時間更多,所以整個行程期間你的平均速度不會是30 mph和10 mph的中點,而應該更接近10 mph。
為了正確地應用算術平均數,我們需要判定以每種速率行駛所花的時間,然後以適當的權重加權算術平均數的計算:
去程:5 / (30/60) = 10分鍾
返程:5 / (10/60) = 30分鍾
總行程:10 + 30 = 40分鍾
加權算術平均數:(30 * 10/40) + (10 * 30/40) = 15 mph所以,我們看到,真正的平均速度是15 mph,比使用未加權的算術平均數計算所得低了5 mph(或者25%)。
那如果用調和平均數呢?
2 / (1/30 + 1/10) = 15
一下子得到了真正的行程平均速度,自動根據在每個方向上使用的時間進行調整。需要注意的是,這里之所以可以直接應用調和平均數,是因為去程和返程的距離是相等的,如果兩者距離不等(比如去程和返程走了不同路線),那麼需要應用加權調和平均數。在財經上,加權調和平均數可以用於計算組合投資多個股票的市盈率(P/E)。
當然調和平均數還有很多應用場景,比如統計學上的F1評分,就是准確率和召回的調和平均數。
④指數平均數(EXPMA):指數平均數其構造原理是對股票收盤價進行算術平均,並根據計算結果來進行分析,用於判斷價格未來走勢得變動趨勢。
EXPMA指標是一種趨向類指標,與平滑異同移動平均線[MACD]、平行線差指標[DMA]相比,EXPMA指標由於其計算公式中著重考慮了價格當天 [當期]行情得權重,因此在使用中可克服其他指標信號對於價格走勢得滯後性。同時也在一定程度中消除了DMA指標在某些時候對於價格走勢所產生得信號提前性,是一個非常有效得分析指標。
[if !supportLists]4.[endif]分位數(quantile fractile)
定義: 設連續隨機變數X的累積分布函數為F(X),概率密度函數為p(x)。那麼,對任意0<p<1的p,稱F(X)=p的X為此分布的分位數,或者下側分位數。簡單的說,分位數指的就是連續分布函數中的一個點,這個點的一側對應概率p。
[if !supportLists]5.[endif]極差(range)
定義:全距(Range),又稱極差,是用來表示統計資料中的變異量數(measures of variation),其最大值與最小值之間的差距;即最大值減最小值後所得之數據。極差不能用作比較,單位不同 ; 方差能用作比較,因為都是個比率。
極差是指一組測量值內最大值與最小值之差,又稱范圍誤差或全距,以R表示。它是標志值變動的最大范圍,它是測定標志變動的最簡單的指標。移動極差(Moving Range)是其中的一種。
極差沒有充分利用數據的信息,但計算十分簡單,僅適用樣本容量較小(n<10)情況。
優缺點:它是標志值變動的最大范圍。極差也稱為全距或范圍誤差,它是測定標志變動的最簡單的指標。換句話說,也就是指一組數據中的最大數據與最小數據的差叫做這組數據的極差。極差英文為range,簡寫為R,表示為:R=Xmax-Xmin。移動極差(Moving Range)是其中的一種。
10. 如何利用生物統計學方法進行誤差分析
在滿量程設置了幾個試驗點,和至少三桿的負載測試,遲滯和重復性誤差計算得到的數據。的的參考QJ28A或4409規格。