⑴ 不禿頭的生物統計學1 - 假設檢驗
生物統計學研究包括 試驗設計 和 統計分析 兩大部分。
表現在以下4個方面:
1. 提供整理、描述數據資料的科學方法並確定其數量特徵。(描述性統計)
2. 判斷實驗結果的可靠性。(統計推斷)
3. 提供由樣本推斷總體的方法。(統計推斷)
4. 提供試驗設計的原則。(實驗設計)
由於時間關系,先復習老師重點章節。(第一個ppt,第三頁,標藍的)
一圖勝千言,請看 統計推斷 內容包括什麼?
不要覺得這張圖不重要,瞥一眼就過去了
其實這是老師第一節課 PPT 的內容 (我填了一些內容)
當我們上完所有課後,重新回顧這張圖時
我們應該對 (老師上課講的) 生物統計學內容的脈絡有一個基本的認識
也就是說,當我們看到以上的關鍵詞,我們的腦海應該有一個大致的地圖
知道應該往那個方向走
如果還十分模糊,那接下來我和大家一起重新捋一遍思路
如果感覺有點印象,那接下來就溫故知新
先從字面開始, 假設 的是什麼? 檢驗 的是什麼?
假設,就是『猜』。
比如說《女士品茶》中,如下假設:
等價的說法是:
假設,是我們進行學術研究的第一步。我們看得每一篇文獻,進行得每一個研究課題,都有一個假設。
一個 好的假設 應該有以下特徵:
1. 陳述句
2. 提出變數間的預期關系 (如: 能分辨/不能分辨;促進/抑制)
3. 假設應基於已存在的理論或文獻基礎 (如: 有人已經研究過,先煮辣椒,再放豆腐;和先煮豆腐,再放辣椒,這兩種烹飪方式做出的麻婆豆腐味道不一樣) (我隨便舉個例子,我們研究中大多假設的基礎,應該有文獻)
4. 簡短並切中要點 (不廢話,有說服力)
5. 可檢驗 (意味著有可量化的方法判斷這個假設是對還是不對)
一個好的假設是 可檢驗的 。
什麼是可檢驗?
可檢驗就有判斷命題真偽的普遍性量化標准。
比如說,在《女士品茶》里
我們再來說一個假設:『地球是圓球』
無效假設(零假設) H0:我們要 (間接) 檢驗的假設
備擇假設(研究假設) Ha:無效假設(零假設)的對立命題 (非此即彼),我們想研究的假設。
假設檢驗的基本思想:
反證法 前面已經說過了,否認一個命題相對容易。
另外不知道有朋友發現沒有,在上面的零假設中,我用了『間接』二字。
零假設的對象是 總體 ,
如果你翻翻老師的課件,
你會發現,H0總是這樣的形式:
H0 : μ = μ0
樣本標准差是表示個體間變異大小的指標,反映了整個樣本對樣本平均數的 離散程度 ,是數據精密度的衡量指標 ;
而樣本平均數的標准誤(差),反映樣本平均數對總體平均數的 變異程度 ,從而反映 抽樣誤差的大小 ,是量度結果精密度的指標
好的,我們再回到零假設
H0 : μ = μ0
總體我們一般無法獲得,我們通常使用 抽樣 獲得一部分樣本。
那我們是如何通過樣本來間接驗證總體的呢?
首先,總體的數據會服從某種分布,而抽取的樣本構成的總體,會服從某種抽樣分布。
老師上課講的主要是:
總體分布:『正態分布』
抽樣分布:『t 分布』,『卡方分布』,『F 分布』
為什麼主要講『正態分布』?
1. 因為自然狀態下,大多數數據都服從正態分布。從正態總體中抽取樣本, 樣本均數 也服從正態分布。
2. 即使總體不是正態分布,只要樣本數 n 足夠大, 樣本均數 的分布也近似服從正態分布。(中心極限定理)
不知道大家留意到沒有,上面用的字眼是, 樣本均數的分布 ,是樣本平均數的分布。這意味著, 樣本的平均數,不是唯一的值 (分布意味著是一系列的取值)。
為什麼? (理解這一點很重要,比如會把總體,樣本,樣本總體搞混)
因為每次抽樣,抽樣的樣本是不一樣的(隨機,樣本差異)。所以每次抽取出來的樣本的平均數,肯定不會是一樣的。這樣的所有樣本均值會構成一個 新的總體 ,在這個總體裡面,均值是 μ(x),標准差是 σ(x)。(記住這些符合,後面會用到)
雖然算出來的均值可能會不一樣,但是總有個合理的范圍。如果出現某個偏離很遠的值,我們會覺得很不合理。這個就是 置信區間 。
好的,思路到這里已經越來越清晰了。
雖然老師說不用記這個圖,但是我覺得還是有必要講一下的。
1. x 軸是樣本統計量。(如:樣本的均值)
2. 概率不是 x 對應的 y 的值,而是曲線和兩個 x 軸的垂線以及 x 軸圍起來的面試,是概率。
3. N(μ,σ2),μ(總體均值) 是中心位置,σ (總體標准差) 代表數據的離散程度。但更重要的是 記住 : 離 均值μ 若干個 標准差σ 距離 代表的概率 。(如 1個 σ : 68.2%; 1.96 個 σ : 95%; 2.58 個 σ : 99%)
4. 對應到樣本均值,『樣本均值』偏離『樣本總體均值』若干個『樣本均值標准誤』也對應著相應的概率。(覺得懵的往下看)
正態分布只需要兩個參數 ( μ 和 σ ) 即可確定其曲線形狀
當 μ = 0 ,σ = 1 時,稱為標准正態分布,N(0,1)
然而,我們抽取的 樣本的均值 構成的分布,μ(x) 不會都等於 0 ,σ (x) 也不會正好等於 1,因此我們需要一個 標准化正態變換 。
是不是有種熟悉的感覺,沒錯,這個就是 u 檢驗時,我們計算的 u 值 。
(看清楚,μ 和 u ,我也不知道為什麼用這么相近的兩個字元)
(對符號含義理解還比較模糊的話往前看,這里的 μ(x) 是指所有抽取的樣本的均值構成的新總體的總體均值, σ(x)是指對應的總體標准差)
好了,到這里應該對 u 值有清晰的理解了,我們再來看看,『樣本總體』怎麼對應到『原總體』上。
到了這一步,我們看看我們還缺什麼?
很明顯,x̅ 和 n 來自樣本,我們還缺 μ 和 σ
首先看看我們的零假設,在一個樣本平均數的 u 檢驗時 :
H0 :μ = μ0 = ? ,我們是有應該理論研究總體均值μ0
也就是說 μ 可以獲得,所以還缺 σ
所以 一個樣本平均數的 u 檢驗 分為兩種情況:
好的,這里理解的話,基於這個思路,兩個樣本均值u檢驗,均值t檢驗,(頻數檢驗),應該也比較好理解了。
(考試看這個圖套公式就好了,重要的是理解每個符號的含義)
(還有就是看懂題目,知道是 u檢驗 還是 t檢驗 ,知道是 成組 還是 配對 ,知道是用 單尾檢驗 還是 雙尾檢驗 )
(這個圖有點小,放大後還是清晰的)
這張表逐一去看,理解後每個字元的含義後,直接套公式就好了。
關於顯著性水平
我怎麼知道我研究的總體是不是服從正態分布的?
或者說,我怎麼通過採集的樣本推斷總體是不是服從正態分布的?
因為我們現在的假設檢驗,基本都是基於總體服從正態分布的前提下做的,如果一開始這個前提就不成立,那不是白幹了。
還記得老師讓我們記得圖嗎?
魚群
我們將數據畫個一個頻數分布直方圖,看看它大致的形狀是不是符合正態分布,如果符合鍾型,那說明可以用正態分布,如果不廢話,那可能需要做一定的轉換,將數據變成正態分布(這個轉換我就不懂了)。
⑵ 生物統計學應用題
一、 1-15%=0.85 1-25%=0.75 查標准正太分布表0.8508對應的x值是1.04;0.7486對應的x值是0.67。這個x值是標准化了的,也就是(原始值-均值)/標准差=1.04 ,把均值和標准差代入,求得對應1.04的原始值=1.04*12.8+71=84.312;同理對應0.67的原始值是79.576.
二、此題可以做成對樣本t檢驗
> x=c(38,39,54,61,54,52,66,47,68,61,59,52)
> y=c(40,45,55,60,52,53,63,45,66,65,62,54)
> t.test(x,y,paired=T)
t = -0.9278, df = 11, p-value = 0.3734
alternative hypothesis: true difference in means is not equal to 0
結論是沒有顯著差異,以上是R做的,不會用R也可以用excel做,現在統計軟體很發達,沒必要自己計算統計量再來查表這么麻煩了。如果是試卷,建議把t統計量的公式寫上然後直接等於我算的這個-0.9278就行了。
三、這題明顯的是卡方檢驗了
> a
[,1] [,2] [,3]
[1,] 126 164 85
[2,] 58 66 143
> chisq.test(a)
X-squared = 65.3217, df = 2, p-value = 6.54e-15 #p小於0.01顯著差異
同理 答卷的話直接寫卡方=65 65>9.21 所以顯著差異,就是有影響啦。
四、單因素方差分析
統計量的計算往公式里代就行了,我這里還是用軟體算的。
統計量F=29.43 p值=1.56e-07 *** 顯著差異,肥料對株產有影響。
五、看我的這個回答http://..com/question/1239654796049909379
⑶ 生物統計學論述題:詳細論述抽樣的基本原則
抽樣調查的隨機原則是:每一個個體被抽到的可能性要相同。
隨機原則是指在抽取調查單位時,樣本單位的抽取不受調查者主觀因素的影響和其他系統性因素的影響,完全排除人們主觀意識的影響,使總體中的每個單位都有同等被抽中的機會,抽選與否純粹是偶然事件。隨機原則是隨機抽樣所必須遵循的基本原則。在統計抽樣調查中,必須堅持隨機原則。這是因為:(1)堅持隨機原則,使抽樣調查建立在概率論的理論基礎之上,排除主觀因素等非隨機因素對抽樣調查的影響,保證抽樣的科學性。(2)堅持隨機原則,才能保證所抽樣本的分布類似於總體的分布,才能保證樣本對總體的代表性。(3)堅持隨機原則才能計算抽樣誤差,把它控制在一定的范圍內,從而達到抽樣推斷的目的。步驟:抽簽法和隨機數表法。
⑷ 求助:福建師范大學網路教育學院《生物統計學》期末考試的答案
福師1103考試批次《生物統計學》復習題(一)
一、 選擇填空(每小題5分,計15分)
1、觀察到的所有對象稱為_____。生物統計學的核心問題是 。
A、總體,通過總體推斷樣本 B、總體,通過樣本推斷總體
C、樣本,通過總體推斷樣本 D、樣本,通過樣本推斷總體
2、總體平均數用符號 表示。σ用於度量 。
A、,數據分布的對稱程度 B、,數據的變異程度
C、 ,數據分布的對稱程度 D、 ,數據的變異程度
3、當作出「差異 」的結論時可能犯I型錯誤,犯錯誤的概率用 表示。
A、不顯著,a B、不顯著,b C、顯著,a D、顯著,b
二、統計分析類型判斷 (每小題20分,計40分)
A單樣本u檢驗 G方差齊性檢驗 M多重比較
B雙樣本u檢驗 H等方差成組數據t檢驗 N擬合優度檢驗
C單樣本t檢驗 I異方差成組數據t檢驗 O獨立性檢驗
D配對數據t檢驗 J單因素方差分析 P一元線性回歸
Em的置信區間估計 K無重復雙因素方差分析 Q多元線性回歸
Ff的置信區間估計 L有重復雙因素方差分析
1、 在NaCl含量為0.8、1.6、2.4、3.2(g/kg)的土壤上試種煙葉。採收時,每種土壤上各採集7株,測量各株的單位面積葉片乾重(數據略)。問:不同NaCl含量土壤的煙葉單位面積乾重有無差別?
參考答案:J單因素方差分析
2、 在第一漁場和第二漁場各測量了20條馬面魨體長(數據略)。問:這二個漁場馬面魨體長總體方差是否相等?
參考答案:G方差齊性檢驗
三、軟體操作(25分)
1、漁場1、漁場2的馬面魨體長(cm)測量結果已輸入工作表中(如下表)。已知兩漁場馬面魨體長的σ均為7.2cm。問:漁場1馬面魨的體長是否大於漁場2馬面魨的體長?
請在以下對話框中填入需要輸入的內容:
參考答案:
B1:U1
B2:S2
7.2
7.2
四、獨立性檢驗(20分)
為研究某「祖傳秘方」對甲流是否有效,某研究小組將200名甲流患者隨機分成2組:實驗組102人,服用「祖傳秘方」;對照組98人,服用安慰劑。結果:實驗組症狀改善率為90.196%,對照組症狀改善率為79.592%。問:服用該「祖傳秘方」能否提高甲流患者的症狀改善率?(c20.05=3.841,c20.01=6.635)
分組 改善 未改善 總數
實驗組 92 10 102
對照組 78 20 98
總數 170 30 200
參考答案:
假設:H0:組別與改善情況無關;H1:組別與改善情況有關,顯著水平a=0.05
由SAS軟體計算得:卡方值為4.4080,P=0.0358;
根據一般卡方檢驗的結果,按照0.05的檢驗標准,拒絕原假設,接受備擇假設,可以認為,「服用該『祖傳秘方』提高甲流患者的症狀改善率」。
福師1103考試批次《生物統計學》復習題(二)
一、選擇填空(每小題5分,計15分)
1、配對數據t檢驗的原理是:若在總體平均數______的兩個分布中不能抽到
,則判定μ1與μ2差異______。
A、無差異,顯著 B、無差異,不顯著 C、有差異,顯著 D、有差異,不顯著
2、以下判斷新葯是否有效的方法,與假設檢驗原理一致的是 。
A、只要觀察到一例「服葯後出現了好結果」,就足以證明該葯有效。
B、觀察到多例「服葯後出現了好結果」,才足以證明該葯有效。
C、不僅要觀察到「服葯後出現了好結果」,還必須通過統計分析確定所觀察到的是事實,才足以證明該葯有效。
D、不僅要有「服葯後出現了好結果」這個事實,還必須確定「不服葯就不會出現這樣的好結果」,才足以證明該葯有效。
3、以下零假設中,只有 是正確的。
A、H0: μ1=μ2 B、H0: μ1≠0 C、H0: μ≥0 D、H0: μ1>μ2
D、服葯組70%痊癒,不服葯組30痊癒。由此可得:該葯的總體痊癒率大於30%。
二、統計分析類型判斷 (每小題20分,計40分)
1、隨機抽取10名60歲男性和10名60歲女性測量舒張壓,結果如下。
男性 91、102、114、114、114、115、117、119、135、140
女性 92、 94、 95、 95、 98、104、106、114、121、125
問:60歲男性與60歲女性的舒張壓有無差異?(已知σ1=σ2)
參考答案:D配對數據t檢驗
2、15名患者以口服方式給葯、15名患者以注射方式給葯、15名患者以外敷方式給葯。已知不同給葯方式的痊癒時間有顯著差異。問:哪兩種給葯方式的痊癒時間是不同的?
參考答案:J單因素方差分析
三、軟體操作(第1題20分,第2題25分,計45分)
1、三種原料、三種溫度發酵的酒精產量如下表。試作方差分析。
實驗號 原料 溫度 酒精產量
1 1 1 41
2 1 1 49
3 1 2 11
4 1 2 13
5 1 3 6
6 1 3 22
7 2 1 23
8 2 1 25
9 2 2 25
10 2 2 24
11 2 3 26
12 2 3 18
13 3 1 47
14 3 1 59
15 3 2 43
16 3 2 32
17 3 3 8
18 3 3 38
請將數據按照Excel所要求的格式輸入下圖所示的工作表中。
參考答案:
這是輸出的結果:有方差分析結果可以看出,兩個試驗因素「YL」、「WD」有統計學意義,而兩者交互作用「YL*WD」沒有統計學意義。
2、隨機抽查某品種小麥18株,各株的單株產量w與單穗重s、有效櫱數n已輸入工作表(如下圖)。已知小麥單株產量w與單穗重s、有效櫱數n呈線性關系。請以單株產量為因變數,求二元線性回歸方程。
下一步應點擊Excel的________菜單的「數據分析」。在數據分析對話框中
選擇的分析工具是:________________________。
操作結果見下表:
回歸方程為:______________________________________________。
參考答案:工具、回歸、w=0.951372462*n-0.888616302*s+3.857105995
福師1103考試批次《生物統計學》復習題(三)
一、 選擇填空(每小題5分,計10分)
1、在擬合優度檢驗中,如果______,就要進行尾區的合並。
A、df=1 B、df>1 C、T<5 D、T>5
2、關於方差分析,正確的敘述是______。
A、變化范圍很大的百分數需要進行反正弦變換後才能用於方差分析
B、3個的比較,既可以進行3個t檢驗,也可進行1個單因素方差分析
C、兩因素交叉分組實驗設計,可以對其中一個因素進行單因素方差分析
D、實驗中如遇實驗對象死亡而出現某一個數據缺失,則不能進行方差分析
二、統計分析類型判斷 (每小題20分,計40分)
1、調查到幼兒園接小孩的家長性別,以10人為1組,記錄每組女性人數,共得到100組數據(數據略)。問:女性家長人數是否符合二項分布?
參考答案:C單樣本t檢驗
2、用正常翅的野生型果蠅(V+V+)與殘翅果蠅(V-V-)雜交、F1代自交,在所獲得的F2代中隨機檢查392隻,正常翅佔311隻。求F2代正常翅所佔的比例(=0.05)。
參考答案:Ff的置信區間估計
三、問答題 (50分)
[實驗及結果] 張三親眼觀察到李四敷用「含珠草」後不久傷口癒合了。
[張三的推斷] 由於李四隻接受了「敷用含珠草」這一種處理,因此所出現的結果只能是這惟一的處理所導致的。
(1) 影響實驗結果的因素可以分為哪兩大類?在本案例中,這兩大因素具體指的是什麼?
(2)從影響因素的角度,說明判定「傷口癒合是否由敷用含珠草所導致」的原則。
(3)請分析本案例中張三的推斷犯了什麼錯誤?該錯誤可能導致什麼後果?
(4)如果你要判定「敷用含珠草能否導致傷口癒合」,你會怎樣設計實驗?
參考答案:
(1)處理和重要的非試驗因素,分別指「敷用含珠草」和李四的體質;
(2)隨機、對照、重復、均衡;
(3)忽視了一些重要的非試驗因素;沒有消除這類因素對實驗結果的影響,不能更好的顯露出試驗因素的效應大小。
(4)實驗設計如下:
a、選擇體質(身高、體重等)相差不大的志願者,隨機分為兩組,一組為處理組,一組為對照。
b、對處理組敷用含珠草,對照組則只做簡單消毒處理,不敷葯。
c、在規定時間後檢查每位志願者的傷口癒合情況,以「完全癒合」「基本癒合」「沒有癒合」為考查標准。
d、這類資料稱為「2×2」列聯表,可採用一般卡方檢驗或者Fisher精確檢驗來處理。
⑸ 生物統計學相關問題
一、先要憑經驗邏輯進行考慮,然後要通過相關分析進行定量判斷。
二、在坐標圖上,把兩個相關的共同數據標出來,看其分布的數據類型。
如果是呈分散性的,還可以將數據變換成對數等其他數據類型,再在圖上看其屬於那一類數據類型。如果還不行,就是沒有相關性了。可以大致斷定不是函數。
⑹ 生物統計學要考試,老師出了幾個問題,找不到答案,求高手幫忙啊
參考《生物統計學》李春喜等主編。
1、進行統計推斷的時候,雙尾概率取得某一顯著水平時的臨界值。一般都可查表。比如P=0.05,雙側臨界值u0.05=1.96
2、生物是有機體,與非生物相比具有特殊的變異性,隨機性和復雜性。生物有機體生長發育過程中受外界變化影響大,會使實驗結果有較大差異,這種差異會掩蓋生物本身所含的規律,而生統就是要找出這樣的規律。
3、標准差是變異數之一,由方差開根號而得,方差的單位與原始數據的數值和單位都不相適應,需要將方差開方。就得標准差。公式,好難寫啊,你網路一下,兩個常用公式,一個是按方差開根號,一個是不含有平均數的公式。
4、樣本平均數,符號X(上面加一橫),極差R,樣本標准差s。
5、研究某一因素的影響,將總變異來源分成處理間變異和處理內變異,再進行F檢驗差異顯著性。
6、研究一個學校學生課余活動內容,在學校隨機抽取1000學生做統計。全校學生即總體,1000名學生即樣本。樣本是通過一定方法隨機抽樣而得。
7、當比較兩個樣本的時候,平均數相差懸殊或者單位不同的時候,標准差就不適合用來說明變異程度了,變異系數就是克服這樣的缺點兒產生的。計算公式,標准差除以樣本平均數,得出的百分比就是變異系數。
8、正態分布又稱高斯分布,是一種連續型隨機變數的概率分布。比如說1000株玉米的株高
9、1、提出假設(無效假設和備擇假設)2、確定顯著水平3、計算概率,u檢驗或者t檢驗等等。4、推斷是否接受假設。根據小概率原理判斷是否接受H0的判斷。
10、樣本不隨機不具有代表總體的特性,也就沒有研究的意義。樣本達到3個即可統計,大樣本一般30個。p值就是顯著水平吧,如何分析,小於0.05是顯著,小於0.01是極顯著。
⑺ 生物統計學的問題,請大俠幫忙!
哥們,學什麼的啊,前面還會,不過你補充的問題,實在太專業了。我都不知道你是幹嘛的。