⑴ 不秃头的生物统计学1 - 假设检验
生物统计学研究包括 试验设计 和 统计分析 两大部分。
表现在以下4个方面:
1. 提供整理、描述数据资料的科学方法并确定其数量特征。(描述性统计)
2. 判断实验结果的可靠性。(统计推断)
3. 提供由样本推断总体的方法。(统计推断)
4. 提供试验设计的原则。(实验设计)
由于时间关系,先复习老师重点章节。(第一个ppt,第三页,标蓝的)
一图胜千言,请看 统计推断 内容包括什么?
不要觉得这张图不重要,瞥一眼就过去了
其实这是老师第一节课 PPT 的内容 (我填了一些内容)
当我们上完所有课后,重新回顾这张图时
我们应该对 (老师上课讲的) 生物统计学内容的脉络有一个基本的认识
也就是说,当我们看到以上的关键词,我们的脑海应该有一个大致的地图
知道应该往那个方向走
如果还十分模糊,那接下来我和大家一起重新捋一遍思路
如果感觉有点印象,那接下来就温故知新
先从字面开始, 假设 的是什么? 检验 的是什么?
假设,就是‘猜’。
比如说《女士品茶》中,如下假设:
等价的说法是:
假设,是我们进行学术研究的第一步。我们看得每一篇文献,进行得每一个研究课题,都有一个假设。
一个 好的假设 应该有以下特征:
1. 陈述句
2. 提出变量间的预期关系 (如: 能分辨/不能分辨;促进/抑制)
3. 假设应基于已存在的理论或文献基础 (如: 有人已经研究过,先煮辣椒,再放豆腐;和先煮豆腐,再放辣椒,这两种烹饪方式做出的麻婆豆腐味道不一样) (我随便举个例子,我们研究中大多假设的基础,应该有文献)
4. 简短并切中要点 (不废话,有说服力)
5. 可检验 (意味着有可量化的方法判断这个假设是对还是不对)
一个好的假设是 可检验的 。
什么是可检验?
可检验就有判断命题真伪的普遍性量化标准。
比如说,在《女士品茶》里
我们再来说一个假设:‘地球是圆球’
无效假设(零假设) H0:我们要 (间接) 检验的假设
备择假设(研究假设) Ha:无效假设(零假设)的对立命题 (非此即彼),我们想研究的假设。
假设检验的基本思想:
反证法 前面已经说过了,否认一个命题相对容易。
另外不知道有朋友发现没有,在上面的零假设中,我用了‘间接’二字。
零假设的对象是 总体 ,
如果你翻翻老师的课件,
你会发现,H0总是这样的形式:
H0 : μ = μ0
样本标准差是表示个体间变异大小的指标,反映了整个样本对样本平均数的 离散程度 ,是数据精密度的衡量指标 ;
而样本平均数的标准误(差),反映样本平均数对总体平均数的 变异程度 ,从而反映 抽样误差的大小 ,是量度结果精密度的指标
好的,我们再回到零假设
H0 : μ = μ0
总体我们一般无法获得,我们通常使用 抽样 获得一部分样本。
那我们是如何通过样本来间接验证总体的呢?
首先,总体的数据会服从某种分布,而抽取的样本构成的总体,会服从某种抽样分布。
老师上课讲的主要是:
总体分布:‘正态分布’
抽样分布:‘t 分布’,‘卡方分布’,‘F 分布’
为什么主要讲‘正态分布’?
1. 因为自然状态下,大多数数据都服从正态分布。从正态总体中抽取样本, 样本均数 也服从正态分布。
2. 即使总体不是正态分布,只要样本数 n 足够大, 样本均数 的分布也近似服从正态分布。(中心极限定理)
不知道大家留意到没有,上面用的字眼是, 样本均数的分布 ,是样本平均数的分布。这意味着, 样本的平均数,不是唯一的值 (分布意味着是一系列的取值)。
为什么? (理解这一点很重要,比如会把总体,样本,样本总体搞混)
因为每次抽样,抽样的样本是不一样的(随机,样本差异)。所以每次抽取出来的样本的平均数,肯定不会是一样的。这样的所有样本均值会构成一个 新的总体 ,在这个总体里面,均值是 μ(x),标准差是 σ(x)。(记住这些符合,后面会用到)
虽然算出来的均值可能会不一样,但是总有个合理的范围。如果出现某个偏离很远的值,我们会觉得很不合理。这个就是 置信区间 。
好的,思路到这里已经越来越清晰了。
虽然老师说不用记这个图,但是我觉得还是有必要讲一下的。
1. x 轴是样本统计量。(如:样本的均值)
2. 概率不是 x 对应的 y 的值,而是曲线和两个 x 轴的垂线以及 x 轴围起来的面试,是概率。
3. N(μ,σ2),μ(总体均值) 是中心位置,σ (总体标准差) 代表数据的离散程度。但更重要的是 记住 : 离 均值μ 若干个 标准差σ 距离 代表的概率 。(如 1个 σ : 68.2%; 1.96 个 σ : 95%; 2.58 个 σ : 99%)
4. 对应到样本均值,‘样本均值’偏离‘样本总体均值’若干个‘样本均值标准误’也对应着相应的概率。(觉得懵的往下看)
正态分布只需要两个参数 ( μ 和 σ ) 即可确定其曲线形状
当 μ = 0 ,σ = 1 时,称为标准正态分布,N(0,1)
然而,我们抽取的 样本的均值 构成的分布,μ(x) 不会都等于 0 ,σ (x) 也不会正好等于 1,因此我们需要一个 标准化正态变换 。
是不是有种熟悉的感觉,没错,这个就是 u 检验时,我们计算的 u 值 。
(看清楚,μ 和 u ,我也不知道为什么用这么相近的两个字符)
(对符号含义理解还比较模糊的话往前看,这里的 μ(x) 是指所有抽取的样本的均值构成的新总体的总体均值, σ(x)是指对应的总体标准差)
好了,到这里应该对 u 值有清晰的理解了,我们再来看看,‘样本总体’怎么对应到‘原总体’上。
到了这一步,我们看看我们还缺什么?
很明显,x̅ 和 n 来自样本,我们还缺 μ 和 σ
首先看看我们的零假设,在一个样本平均数的 u 检验时 :
H0 :μ = μ0 = ? ,我们是有应该理论研究总体均值μ0
也就是说 μ 可以获得,所以还缺 σ
所以 一个样本平均数的 u 检验 分为两种情况:
好的,这里理解的话,基于这个思路,两个样本均值u检验,均值t检验,(频数检验),应该也比较好理解了。
(考试看这个图套公式就好了,重要的是理解每个符号的含义)
(还有就是看懂题目,知道是 u检验 还是 t检验 ,知道是 成组 还是 配对 ,知道是用 单尾检验 还是 双尾检验 )
(这个图有点小,放大后还是清晰的)
这张表逐一去看,理解后每个字符的含义后,直接套公式就好了。
关于显着性水平
我怎么知道我研究的总体是不是服从正态分布的?
或者说,我怎么通过采集的样本推断总体是不是服从正态分布的?
因为我们现在的假设检验,基本都是基于总体服从正态分布的前提下做的,如果一开始这个前提就不成立,那不是白干了。
还记得老师让我们记得图吗?
鱼群
我们将数据画个一个频数分布直方图,看看它大致的形状是不是符合正态分布,如果符合钟型,那说明可以用正态分布,如果不废话,那可能需要做一定的转换,将数据变成正态分布(这个转换我就不懂了)。
⑵ 生物统计学应用题
一、 1-15%=0.85 1-25%=0.75 查标准正太分布表0.8508对应的x值是1.04;0.7486对应的x值是0.67。这个x值是标准化了的,也就是(原始值-均值)/标准差=1.04 ,把均值和标准差代入,求得对应1.04的原始值=1.04*12.8+71=84.312;同理对应0.67的原始值是79.576.
二、此题可以做成对样本t检验
> x=c(38,39,54,61,54,52,66,47,68,61,59,52)
> y=c(40,45,55,60,52,53,63,45,66,65,62,54)
> t.test(x,y,paired=T)
t = -0.9278, df = 11, p-value = 0.3734
alternative hypothesis: true difference in means is not equal to 0
结论是没有显着差异,以上是R做的,不会用R也可以用excel做,现在统计软件很发达,没必要自己计算统计量再来查表这么麻烦了。如果是试卷,建议把t统计量的公式写上然后直接等于我算的这个-0.9278就行了。
三、这题明显的是卡方检验了
> a
[,1] [,2] [,3]
[1,] 126 164 85
[2,] 58 66 143
> chisq.test(a)
X-squared = 65.3217, df = 2, p-value = 6.54e-15 #p小于0.01显着差异
同理 答卷的话直接写卡方=65 65>9.21 所以显着差异,就是有影响啦。
四、单因素方差分析
统计量的计算往公式里代就行了,我这里还是用软件算的。
统计量F=29.43 p值=1.56e-07 *** 显着差异,肥料对株产有影响。
五、看我的这个回答http://..com/question/1239654796049909379
⑶ 生物统计学论述题:详细论述抽样的基本原则
抽样调查的随机原则是:每一个个体被抽到的可能性要相同。
随机原则是指在抽取调查单位时,样本单位的抽取不受调查者主观因素的影响和其他系统性因素的影响,完全排除人们主观意识的影响,使总体中的每个单位都有同等被抽中的机会,抽选与否纯粹是偶然事件。随机原则是随机抽样所必须遵循的基本原则。在统计抽样调查中,必须坚持随机原则。这是因为:(1)坚持随机原则,使抽样调查建立在概率论的理论基础之上,排除主观因素等非随机因素对抽样调查的影响,保证抽样的科学性。(2)坚持随机原则,才能保证所抽样本的分布类似于总体的分布,才能保证样本对总体的代表性。(3)坚持随机原则才能计算抽样误差,把它控制在一定的范围内,从而达到抽样推断的目的。步骤:抽签法和随机数表法。
⑷ 求助:福建师范大学网络教育学院《生物统计学》期末考试的答案
福师1103考试批次《生物统计学》复习题(一)
一、 选择填空(每小题5分,计15分)
1、观察到的所有对象称为_____。生物统计学的核心问题是 。
A、总体,通过总体推断样本 B、总体,通过样本推断总体
C、样本,通过总体推断样本 D、样本,通过样本推断总体
2、总体平均数用符号 表示。σ用于度量 。
A、,数据分布的对称程度 B、,数据的变异程度
C、 ,数据分布的对称程度 D、 ,数据的变异程度
3、当作出“差异 ”的结论时可能犯I型错误,犯错误的概率用 表示。
A、不显着,a B、不显着,b C、显着,a D、显着,b
二、统计分析类型判断 (每小题20分,计40分)
A单样本u检验 G方差齐性检验 M多重比较
B双样本u检验 H等方差成组数据t检验 N拟合优度检验
C单样本t检验 I异方差成组数据t检验 O独立性检验
D配对数据t检验 J单因素方差分析 P一元线性回归
Em的置信区间估计 K无重复双因素方差分析 Q多元线性回归
Ff的置信区间估计 L有重复双因素方差分析
1、 在NaCl含量为0.8、1.6、2.4、3.2(g/kg)的土壤上试种烟叶。采收时,每种土壤上各采集7株,测量各株的单位面积叶片干重(数据略)。问:不同NaCl含量土壤的烟叶单位面积干重有无差别?
参考答案:J单因素方差分析
2、 在第一渔场和第二渔场各测量了20条马面鲀体长(数据略)。问:这二个渔场马面鲀体长总体方差是否相等?
参考答案:G方差齐性检验
三、软件操作(25分)
1、渔场1、渔场2的马面鲀体长(cm)测量结果已输入工作表中(如下表)。已知两渔场马面鲀体长的σ均为7.2cm。问:渔场1马面鲀的体长是否大于渔场2马面鲀的体长?
请在以下对话框中填入需要输入的内容:
参考答案:
B1:U1
B2:S2
7.2
7.2
四、独立性检验(20分)
为研究某“祖传秘方”对甲流是否有效,某研究小组将200名甲流患者随机分成2组:实验组102人,服用“祖传秘方”;对照组98人,服用安慰剂。结果:实验组症状改善率为90.196%,对照组症状改善率为79.592%。问:服用该“祖传秘方”能否提高甲流患者的症状改善率?(c20.05=3.841,c20.01=6.635)
分组 改善 未改善 总数
实验组 92 10 102
对照组 78 20 98
总数 170 30 200
参考答案:
假设:H0:组别与改善情况无关;H1:组别与改善情况有关,显着水平a=0.05
由SAS软件计算得:卡方值为4.4080,P=0.0358;
根据一般卡方检验的结果,按照0.05的检验标准,拒绝原假设,接受备择假设,可以认为,“服用该‘祖传秘方’提高甲流患者的症状改善率”。
福师1103考试批次《生物统计学》复习题(二)
一、选择填空(每小题5分,计15分)
1、配对数据t检验的原理是:若在总体平均数______的两个分布中不能抽到
,则判定μ1与μ2差异______。
A、无差异,显着 B、无差异,不显着 C、有差异,显着 D、有差异,不显着
2、以下判断新药是否有效的方法,与假设检验原理一致的是 。
A、只要观察到一例“服药后出现了好结果”,就足以证明该药有效。
B、观察到多例“服药后出现了好结果”,才足以证明该药有效。
C、不仅要观察到“服药后出现了好结果”,还必须通过统计分析确定所观察到的是事实,才足以证明该药有效。
D、不仅要有“服药后出现了好结果”这个事实,还必须确定“不服药就不会出现这样的好结果”,才足以证明该药有效。
3、以下零假设中,只有 是正确的。
A、H0: μ1=μ2 B、H0: μ1≠0 C、H0: μ≥0 D、H0: μ1>μ2
D、服药组70%痊愈,不服药组30痊愈。由此可得:该药的总体痊愈率大于30%。
二、统计分析类型判断 (每小题20分,计40分)
1、随机抽取10名60岁男性和10名60岁女性测量舒张压,结果如下。
男性 91、102、114、114、114、115、117、119、135、140
女性 92、 94、 95、 95、 98、104、106、114、121、125
问:60岁男性与60岁女性的舒张压有无差异?(已知σ1=σ2)
参考答案:D配对数据t检验
2、15名患者以口服方式给药、15名患者以注射方式给药、15名患者以外敷方式给药。已知不同给药方式的痊愈时间有显着差异。问:哪两种给药方式的痊愈时间是不同的?
参考答案:J单因素方差分析
三、软件操作(第1题20分,第2题25分,计45分)
1、三种原料、三种温度发酵的酒精产量如下表。试作方差分析。
实验号 原料 温度 酒精产量
1 1 1 41
2 1 1 49
3 1 2 11
4 1 2 13
5 1 3 6
6 1 3 22
7 2 1 23
8 2 1 25
9 2 2 25
10 2 2 24
11 2 3 26
12 2 3 18
13 3 1 47
14 3 1 59
15 3 2 43
16 3 2 32
17 3 3 8
18 3 3 38
请将数据按照Excel所要求的格式输入下图所示的工作表中。
参考答案:
这是输出的结果:有方差分析结果可以看出,两个试验因素“YL”、“WD”有统计学意义,而两者交互作用“YL*WD”没有统计学意义。
2、随机抽查某品种小麦18株,各株的单株产量w与单穗重s、有效蘖数n已输入工作表(如下图)。已知小麦单株产量w与单穗重s、有效蘖数n呈线性关系。请以单株产量为因变量,求二元线性回归方程。
下一步应点击Excel的________菜单的“数据分析”。在数据分析对话框中
选择的分析工具是:________________________。
操作结果见下表:
回归方程为:______________________________________________。
参考答案:工具、回归、w=0.951372462*n-0.888616302*s+3.857105995
福师1103考试批次《生物统计学》复习题(三)
一、 选择填空(每小题5分,计10分)
1、在拟合优度检验中,如果______,就要进行尾区的合并。
A、df=1 B、df>1 C、T<5 D、T>5
2、关于方差分析,正确的叙述是______。
A、变化范围很大的百分数需要进行反正弦变换后才能用于方差分析
B、3个的比较,既可以进行3个t检验,也可进行1个单因素方差分析
C、两因素交叉分组实验设计,可以对其中一个因素进行单因素方差分析
D、实验中如遇实验对象死亡而出现某一个数据缺失,则不能进行方差分析
二、统计分析类型判断 (每小题20分,计40分)
1、调查到幼儿园接小孩的家长性别,以10人为1组,记录每组女性人数,共得到100组数据(数据略)。问:女性家长人数是否符合二项分布?
参考答案:C单样本t检验
2、用正常翅的野生型果蝇(V+V+)与残翅果蝇(V-V-)杂交、F1代自交,在所获得的F2代中随机检查392只,正常翅占311只。求F2代正常翅所占的比例(=0.05)。
参考答案:Ff的置信区间估计
三、问答题 (50分)
[实验及结果] 张三亲眼观察到李四敷用“含珠草”后不久伤口愈合了。
[张三的推断] 由于李四只接受了“敷用含珠草”这一种处理,因此所出现的结果只能是这惟一的处理所导致的。
(1) 影响实验结果的因素可以分为哪两大类?在本案例中,这两大因素具体指的是什么?
(2)从影响因素的角度,说明判定“伤口愈合是否由敷用含珠草所导致”的原则。
(3)请分析本案例中张三的推断犯了什么错误?该错误可能导致什么后果?
(4)如果你要判定“敷用含珠草能否导致伤口愈合”,你会怎样设计实验?
参考答案:
(1)处理和重要的非试验因素,分别指“敷用含珠草”和李四的体质;
(2)随机、对照、重复、均衡;
(3)忽视了一些重要的非试验因素;没有消除这类因素对实验结果的影响,不能更好的显露出试验因素的效应大小。
(4)实验设计如下:
a、选择体质(身高、体重等)相差不大的志愿者,随机分为两组,一组为处理组,一组为对照。
b、对处理组敷用含珠草,对照组则只做简单消毒处理,不敷药。
c、在规定时间后检查每位志愿者的伤口愈合情况,以“完全愈合”“基本愈合”“没有愈合”为考查标准。
d、这类资料称为“2×2”列联表,可采用一般卡方检验或者Fisher精确检验来处理。
⑸ 生物统计学相关问题
一、先要凭经验逻辑进行考虑,然后要通过相关分析进行定量判断。
二、在坐标图上,把两个相关的共同数据标出来,看其分布的数据类型。
如果是呈分散性的,还可以将数据变换成对数等其他数据类型,再在图上看其属于那一类数据类型。如果还不行,就是没有相关性了。可以大致断定不是函数。
⑹ 生物统计学要考试,老师出了几个问题,找不到答案,求高手帮忙啊
参考《生物统计学》李春喜等主编。
1、进行统计推断的时候,双尾概率取得某一显着水平时的临界值。一般都可查表。比如P=0.05,双侧临界值u0.05=1.96
2、生物是有机体,与非生物相比具有特殊的变异性,随机性和复杂性。生物有机体生长发育过程中受外界变化影响大,会使实验结果有较大差异,这种差异会掩盖生物本身所含的规律,而生统就是要找出这样的规律。
3、标准差是变异数之一,由方差开根号而得,方差的单位与原始数据的数值和单位都不相适应,需要将方差开方。就得标准差。公式,好难写啊,你网络一下,两个常用公式,一个是按方差开根号,一个是不含有平均数的公式。
4、样本平均数,符号X(上面加一横),极差R,样本标准差s。
5、研究某一因素的影响,将总变异来源分成处理间变异和处理内变异,再进行F检验差异显着性。
6、研究一个学校学生课余活动内容,在学校随机抽取1000学生做统计。全校学生即总体,1000名学生即样本。样本是通过一定方法随机抽样而得。
7、当比较两个样本的时候,平均数相差悬殊或者单位不同的时候,标准差就不适合用来说明变异程度了,变异系数就是克服这样的缺点儿产生的。计算公式,标准差除以样本平均数,得出的百分比就是变异系数。
8、正态分布又称高斯分布,是一种连续型随机变量的概率分布。比如说1000株玉米的株高
9、1、提出假设(无效假设和备择假设)2、确定显着水平3、计算概率,u检验或者t检验等等。4、推断是否接受假设。根据小概率原理判断是否接受H0的判断。
10、样本不随机不具有代表总体的特性,也就没有研究的意义。样本达到3个即可统计,大样本一般30个。p值就是显着水平吧,如何分析,小于0.05是显着,小于0.01是极显着。
⑺ 生物统计学的问题,请大侠帮忙!
哥们,学什么的啊,前面还会,不过你补充的问题,实在太专业了。我都不知道你是干嘛的。