❶ 生物统计学中研究的误差有那些 各有何特点 在实际统计分析中如何对待
生物统计学分析的第一步是资料的收集和整理。收集资料主要有调研和开展生物学试验两种方法,而资料的整理主要通过对原始资料的核查、校对,制作次数分布表和次数分布图来完成。生命科学领域的试验资料一般都具有集中性、离散性及分布形态三个基本特征:集中性主要利用算术平均数、中位数、几何平均数等反映;离散性主要通过标准差、方差、变异系数等特征数进行度量;分布形态则主要借助偏度和峰度体现。本章首先介绍总体与变量等最基本的生物统计学名词术语,继而结合实例,应用软件来阐明实验原始数据整理的具体方法,并对实验数据的特征进行统计分析,全面阐明数据资料的整理分析方法。
在科学试验与调查中,常常会得到大量的原始数据,这些对某种具体事物或现象观察的结果称为资料(data)。这些资料在统计分析前,一般是分散的、零星的和孤立的,是一堆无序的数字。为了揭示这些资料中所蕴含的科学意义,需要对其进行必要的整理分析,揭示其内在的规律。
2.1 常用统计学术语
为了更好地学习和理解后续章节的生物统计学知识,首先必须掌握以下几组生物统计学基本概念。
2.1.1 总体、个体与样本
总体(population)是指研究对象的全体,其中的每一个成员称为个体(indivial)。依据构成总体的个体数目的多寡,总体可以分为有限总体(finitepopulation)和无限总体(infinitepopulation)。例如,研究珠母贝的壳高,因为无法估计出珠母贝的具体数量,可以认为珠母贝是无限总体。
总体的数目往往非常庞大,全部测定需要耗费大量的时间、人力和物力,甚至根本无法完全测定每一个个体;另外,有时候数据的获取过程对研究对象具有破坏性,如要测定贝壳硬度,需要压碎贝壳。因此,只能通过研究总体中的一部分个体来反映总体的特征。从总体中随机获得部分个体的过程,称为抽样(sampling)。为了使抽样的结果具有代表性,需要采取随机抽样(randomsampling)的方法,如对一个生物的总体,机会均等地抽取样本,估计其总体的某种生物学特性。简单的随机抽样的方法有抽签、抓阄、随机数字表法等。从总体中抽取的一部分个体所组成的集合称为样本(sample)。样本中个体的数量称为样本容量、样本含量或样本大小(samplesize),通常记为n。如果n≤30,则该样本为小样本;n>30,该样本则为大样本。例如,2009年3月,某珍珠养殖场为了调查2007年繁育的100万只马氏珠母贝生长情况,随机取10笼,共227只马氏珠母贝。这里需要研究的100万只马氏珠母贝是总体,其中的每只珠母贝则是个体,随机抽取的全部227只马氏珠母贝是一个样本。该样本的样本容量为227,远大于30,属于大样本。
2.1.2 变量与常量
变量是研究对象所反映的指标,如海水中叶绿素a的含量,动物的体重、体长,鱼的摄食量,酶活力,细胞的直径,DNA分子的大小等。变量通常记作X或Y等大写的英文字母,而变量的观测值可以标记为x,称为资料或数据。例如,测量一批鱼的体长X,我们可以随机抽取10尾鱼作为一个样本,测量它们的体长(x,cm),得到10个观测值14.2、15.4、13.6、15.8、15.5、16.1、14.9、15.3、14.8、15.7,这里体长是变量X,而这10个观测值就是样本数据x。按照其可能取得的值,可将变量分为连续型变量(continuousvariable)和离散型变量(discretevariable)。连续型变量是指在某一个区间内可以取任何数值的变量,其测量值可无限细分,数值之间是连续不断的。例如,50~60cm的水稻株高为连续变量,因为在该范围内可取出无数个值,同样,分子运动速度、鱼的体重、贝类的壳高、酶活力的大小、DNA分子的大小等都属于连续型随机变量。连续型变量需通过测量才能获得,其观测值称为连续型数据(continuousdata),也称为度量数据(measurementdata),如长度值、时间、重量值等。如果变量可能取值的数值为自然数或整数,这种变量称为离散型变量,其数值一般通过计数获得,如鱼、贝的怀卵量等。离散型变量的观测值称为离散型数据(discretedata),也称为计数数据(countdata)。如果变量的取值,在一定的范围内是一个相对稳定的数值,那么这种变量称为常量(constant)。例如,在一个小的时空范围内,重力加速度是一个常量。常量的取值是一个常数,具有相对稳定性。
❷ 生物统计学结合单因素和多因素试验的不同比较处理和水平
第二节试验方案
一、试验因素与水平
如上节所述,试验方案是根据试验目的和要求所拟进行比较的一组试验处理(treatment)的总称。农业与生物学研究中,不论农作物还是微生物,其生长、发育以及最终所表现的产量受多种因素的影响,其中有些属自然的因素,如光、温、湿、气、土、病、虫等,有些是属于栽培条件的,如肥料、水分、生长素、农药、除草剂等。进行科学试验时,必须在固定大多数因素的条件下才能研究一个或几个因素的作用,从变动这一个或几个因子的不同处理中比较鉴别出最佳的一个或几个处理。这里被固定的因子在全试验中保持一致,组成了相对一致的试验条件;被变动并设有待比较的一组处理的因子称为试验因素,简称因素或因子(factor),试验因素的量的不同级别或质的不同状态称为水平(level)。试验因素水平可以是定性的,如供试的不同品种,具有质的区别,称为质量水平;也可以是定量的,如喷施生长素的不同浓度,具有量的差异,称为数量水平。数量水平不同级别间的差异可以等间距,也可以不等间距。所以试验方案是由试验因素与其相应的水平组成的,其中包括有比较的标准水平。
试验方案按其供试因子数的多少可以区分为以下3类:
(1) 单因素试验(single-factor
experiment)单因素试验是指整个试验中只变更、比较一个试验因素的不同水平,其他作为试验条件的因素均严格控制一致的试验。这是一种最基本的、最简单的试验方案。例如在育种试验中,将新育成的若干品种与原有品种进行比较以测定其改良的程度,此时,品种是试验的唯一因素,各育成品种与原有品种即为各个处理水平,在试验过程中,除品种不同外,其它环境条件和栽培管理措施都应严格控制一致。又例如为了明确某一品种的耐肥程度,施肥量就是试验因素,试验中的处理水平就是几种不同的施肥量,品种及其它栽培管理措施都相同。
(2) 多因素试验(multiple-factor or factorial
experiment)多因素试验是指在同一试验方案中包含2个或2个以上的试验因素,各个因素都分为不同水平,其他试验条件均应严格控制一致的试验。各因素不同水平的组合称为处理组合(treatment
combination)。处理组合数是各供试因素水平数的乘积。这种试验的目的一般在于明确各试验因素的相对重要性和相互作用,并从中评选出1个或几个最优处理组合。如进行甲、乙、丙3个品种与高、中、低3种施肥量的2因素试验,共有甲高、甲中、甲低、乙高、乙中、乙低、丙高、丙中、丙低等3×3=9个处理组合。这样的试验,除了可以明确2个试验因素分别的作用外,还可以检测出3个品种对各种施肥量是否有不同反应并从中选出最优处理组合。生物体生长受到许多因素的综合作用,采用多因素试验,有利于探究并明确对生物体生长有关的几个因素的效应及其相互作用,能够较全面地说明问题。多因素试验的效率常高于单因素试验。
(3) 综合性试验(comprehensive
experiment)这也是一种多因素试验,但与上述多因素试验不同。综合性试验中各因素的各水平不构成平衡的处理组合,而是将若干因素的某些水平结合在一起形成少数几个处理组合。这种试验方案的目的在于探讨一系列供试因素某些处理组合的综合作用,而不在于检测因素的单独效应和相互作用。单因素试验和多因素试验常是分析性的试验;综合性试验则是在对于起主导作用的那些因素及其相互关系已基本清楚的基础上设置的试验。它的处理组合就是一系列经过实践初步证实的优良水平的配套。例如选择一种或几种适合当地条件的综合性丰产技术作为试验处理与当地常规技术作比较,从中选出较优的综合性处理。
二、试验指标与效应
用于衡量试验效果的指示性状称试验指标(experimental
indicator)。一个试验中可以选用单指标,也可以选用多指标,这由专业知识对试验的要求确定。例如农作物品种比较试验中,衡量品种的优劣、适用或不适用,围绕育种目标需要考察生育期(早熟性)、丰产性、抗病性、抗虫性、耐逆性等多种指标。当然一般田间试验中最主要的常常是产量这个指标。各种专业领域的研究对象不同,试验指标各异。例如研究杀虫剂的作用时,试验指标不仅要看防治后植物受害程度的反应,还要看昆虫群体及其生育对杀虫剂的反应。在设计试验时要合理地选用试验指标,它决定了观测记载的工作量。过简则难以全面准确地评价试验结果,功亏一篑;过繁琐又增加许多不必要的浪费。试验指标较多时还要分清主次,以便抓住主要方面。
试验因素对试验指标所起的增加或减少的作用称为试验效应(experimental
effect)。例如,某水稻品种施肥量试验,每亩施氮10kg,亩产量为350kg,每亩施氮15kg,亩产量为450kg;则在每亩施氮10kg的基础上增施5kg的效应即为450-350=100(kg/亩)。这一试验属单因素试验,在同一因素内两种水平间试验指标的相差属简单效应(simple
effect)。在多因素试验中,不但可以了解各供试因素的简单效应,还可以了解各因素的平均效应和因素间的交互作用。表1.1为某豆科植物施用氮(N)、磷(P)的2×2=4种处理组合(N1P1,N1P2,N2P1,N2P2)试验结果的假定数据,用以说明各种效应。(1)一个因素的水平相同,另一因素不同水平间的产量差异仍属简单效应。如表1.1Ⅱ中18-10=8就是同一N1水平时P2与P1间的简单效应;28-16=12为在同一N2水平时P2与P1间的简单效应;16-10=6为同一P1水平时N2与N1间的简单效应;28-18=10为同一P2水平时N2与N1间的简单效应。(2)一个因素内各简单效应的平均数称平均效应,亦称主要效应(main
effect),简称主效。如表1.1Ⅱ中N的主效为(6+10)/2=8,这个值也是二个氮肥水平平均数的差数,即22-14=8;P的主效为(8+12)/2=10,也是二个磷肥水平平均数的差数,即23-13=10。(3)两个因素简单效应间的平均差异称为交互作用效应(interaction
effect),简称互作。它反映一个因素的各水平在另一因素的不同水平中反应不一致的现象。将表1.1以图1.1表示,可以明确看到,Ⅰ中的二直线平行,反应一致,表现没有互作。交互作用的具体计算为(8-8)/2=0,或(6-6)/2=0。图1.1Ⅱ中P2-P1在N2时比在N1时增产幅度大,直线上升快,表现有互作,交互作用为(12-8)/2=2,或为(10-6)/2=2,这种互作称为正互作。图1.1Ⅲ和Ⅳ中,P2-P1在N2时比在N1时增产幅度表现减少或大大减产,直线上升缓慢,甚至下落成交叉状,这是有负互作。Ⅲ中的交互作用为(4-8)/2=-2,Ⅳ中为(-2-8)/2=-5。
表1.12×2试验数据(解释各种效应)
试验
因素
N
Ⅰ
P
水平
N1
N2
平均
N2-N1
P1
10
16
13
6
P2
18
24
21
6
平均
14
20
6
P2-P1
8
8
8
0,0/2=0
Ⅱ
P
水平
N1
N2
平均
N2-N1
P1
10
16
13
6
P2
18
28
23
10
平均
14
22
8
P2-P1
8
12
10
4,4/2=2
Ⅲ
P
水平
N1
N2
平均
N2-N1
P1
10
16
13
6
P2
18
20
19
2
平均
14
18
4
P2-P1
8
4
6
-4,-4/2=-2
Ⅳ
P
水平
N1
N2
平均
N2-N1
P1
10
16
13
6
P2
18
14
16
-4
平均
14
15
1
P2-P1
8
-2
3
-10,-10/2=-5
因素间的交互作用只有在多因素试验中才能反映出来。互作显着与否关系到主效的实用性。若交互作用不显着,则各因素的效应可以累加,主效就代表了各个简单效应。在正互作时,从各因素的最佳水平推论最优组合,估计值要偏低些,但仍有应用价值。若为负互作,则根据互作的大小程度而有不同情况。Ⅲ中由单增施氮(N2P1)及单增施磷(N1P2)来估计氮、磷肥皆增施(N2P2)的效果会估计过高,但N2P2还是最优组合,还有一定的应用价值。而Ⅳ中N2P2反而减产,如从各因素的最佳水平推论最优组合将得出错误的结论。
Ⅰ
Ⅱ
Ⅲ
Ⅳ
图1.12×2试验的图示(解释交互作用)
两个因素间的互作称为一级互作(first order
interaction)。一级互作易于理解,实际意义明确。三个因素间的互作称二级互作(second order
interaction),余类推。二级以上的高级互作较难理解,实际意义不大,一般不予考察。
三、制订试验方案的要点
拟订一个正确有效的试验方案,以下几方面供参考:
1.
拟订试验方案前应通过回顾以往研究的进展、调查交流、文献探索等明确试验的目的,形成对所研究主题及其外延的设想,使待拟订的试验方案能针对主题确切而有效地解决问题。
2.
根据试验目的确定供试因素及其水平。供试因素一般不宜过多,应该抓住1~2个或少数几个主要因素解决关键性问题。每因素的水平数目也不宜过多,且各水平间距要适当,使各水平能有明确区分,并把最佳水平范围包括在内。例如通过喷施矮壮素以控制某种植物生长,其浓度试验设置50、100、150、200、250ppm等5个水平,其间距为50ppm。若间距缩小至10ppm便须增加许多处理,若处理数不多,参试浓度的范围窄,会遗漏最佳水平范围,而且由于水平间差距过小,其效应因受误差干扰而不易有规律性地显示出来。如果涉及试验因素多,一时难以取舍,或者对各因素最佳水平的可能范围难以作出估计,这时可以将试验分为两阶段进行,即先做单因素的预备试验,通过拉大幅度进行初步观察,然后根据预备试验结果再精细选取因素和水平进行正规试验。预备试验常采用较多的处理数,较少或不设重复;正规试验则精选因素和水平,设置较多的重复。为不使试验规模过大而失控,试验方案原则上应力求简单,单因素试验可解决的就不一定采用多因素试验。
3.
试验方案中应包括有对照水平或处理,简称对照(check,符号CK)。品种比较试验中常统一规定同一生态区域内使用的标准(对照)种,以便作为各试验单位共同的比较标准。
4.
试验方案中应注意比较间的唯一差异原则,以便正确地解析出试验因素的效应。例如根外喷施磷肥的试验方案中如果设喷磷(A)与不喷磷(B)两个处理,则两者间的差异含有磷的作用,也有水的作用,这时磷和水的作用混杂在一起解析不出来,若加进喷水(C)的处理,则磷和水的作用可分别从A与C及B与C的比较中解析出来,因而可进一步明确磷和水的相对重要性。
5.
拟订试验方案时必须正确处理试验因素及试验条件间的关系。一个试验中只有供试因素的水平在变动,其他因素都保持一致,固定在某一个水平上。根据交互作用的概念,在一种条件下某试验因子的最优水平,换了一种条件,便可能不再是最优水平,反之亦然。这在品种试验中最明显。例如在生产上大面积推广的扬麦1号小麦品种、农垦58号水稻品种,在品比试验甚至区域试验阶段都没有显示出它们突出的优越性,而是在生产上应用后,倒过来使主管部门重新认识其潜力而得到广泛推广的。这说明在某种试验条件下限制了其潜力的表现,而在另一种试验条件下则激发了其潜力的表现。因而在拟订试验方案时必须做好试验条件的安排,绝对不要以为强调了试验条件的一致性就可以获得正确的试验结果。例如品种比较试验时要安排好密度、肥料水平等一系列试验条件,使之具有代表性和典型性。由于单因子试验时试验条件必然有局限性,可以考虑将某些与试验因素可能有互作(特别负互作)的条件作为试验因素一起进行多因素试验,或者同一单因素试验在多种条件下分别进行试验。
6.
多因素试验提供了比单因素试验更多的效应估计,具有单因素试验无可比拟的优越性。但当试验因素增多时,处理组合数迅速增加,要对全部处理组合进行全面试验(称全面实施)规模过大,往往难以实施,因而以往多因素试验的应用常受到限制。解决这一难题的方法就是利用本书后文将介绍的正交试验法,通过抽取部分处理组合(称部分实施)用以代表全部处理组合以缩小试验规模。这种方法牺牲了高级交互作用效应的估计,但仍能估计出因素的简单效应、主要效应和低级交互作用效应,因而促进了多因素试验的应用。
❸ 实验室三大原则 生物统计学
(1)设置对照原则:在实验设计中,为排除无关条件的干扰,常常要设立对照实验。通过
干预或控制研究对象,以消除或减少实验误差,鉴别实验中的处理因素与非处理因素的差异。
(2)单一变量原则:控制其它因素不变,只改变其中一个因素,观察其对实验结果的影响。
如探索温度对酶活性的影响时,只能改变反应的温度,其它如pH、酶浓度等因素就要完全相同且适宜。
(3)平行重复原则:对所做的实验在同样条件下,进行足够次数的重复,不能只进行1-2次便轻易得出结论。需要选择的实验材料的样本数(如植株的数目、种子的粒数、实验动物
的个体数等)不能太少,否则实验的结果不足以反映出生物学现象的本来面目。任何一项生
物学实验,要有科学性,都必须能够重复,都必须经得起重复。
❹ 生物统计学要考试,老师出了几个问题,找不到答案,求高手帮忙啊
参考《生物统计学》李春喜等主编。
1、进行统计推断的时候,双尾概率取得某一显着水平时的临界值。一般都可查表。比如P=0.05,双侧临界值u0.05=1.96
2、生物是有机体,与非生物相比具有特殊的变异性,随机性和复杂性。生物有机体生长发育过程中受外界变化影响大,会使实验结果有较大差异,这种差异会掩盖生物本身所含的规律,而生统就是要找出这样的规律。
3、标准差是变异数之一,由方差开根号而得,方差的单位与原始数据的数值和单位都不相适应,需要将方差开方。就得标准差。公式,好难写啊,你网络一下,两个常用公式,一个是按方差开根号,一个是不含有平均数的公式。
4、样本平均数,符号X(上面加一横),极差R,样本标准差s。
5、研究某一因素的影响,将总变异来源分成处理间变异和处理内变异,再进行F检验差异显着性。
6、研究一个学校学生课余活动内容,在学校随机抽取1000学生做统计。全校学生即总体,1000名学生即样本。样本是通过一定方法随机抽样而得。
7、当比较两个样本的时候,平均数相差悬殊或者单位不同的时候,标准差就不适合用来说明变异程度了,变异系数就是克服这样的缺点儿产生的。计算公式,标准差除以样本平均数,得出的百分比就是变异系数。
8、正态分布又称高斯分布,是一种连续型随机变量的概率分布。比如说1000株玉米的株高
9、1、提出假设(无效假设和备择假设)2、确定显着水平3、计算概率,u检验或者t检验等等。4、推断是否接受假设。根据小概率原理判断是否接受H0的判断。
10、样本不随机不具有代表总体的特性,也就没有研究的意义。样本达到3个即可统计,大样本一般30个。p值就是显着水平吧,如何分析,小于0.05是显着,小于0.01是极显着。
❺ 不秃头的生物统计学1 - 假设检验
生物统计学研究包括 试验设计 和 统计分析 两大部分。
表现在以下4个方面:
1. 提供整理、描述数据资料的科学方法并确定其数量特征。(描述性统计)
2. 判断实验结果的可靠性。(统计推断)
3. 提供由样本推断总体的方法。(统计推断)
4. 提供试验设计的原则。(实验设计)
由于时间关系,先复习老师重点章节。(第一个ppt,第三页,标蓝的)
一图胜千言,请看 统计推断 内容包括什么?
不要觉得这张图不重要,瞥一眼就过去了
其实这是老师第一节课 PPT 的内容 (我填了一些内容)
当我们上完所有课后,重新回顾这张图时
我们应该对 (老师上课讲的) 生物统计学内容的脉络有一个基本的认识
也就是说,当我们看到以上的关键词,我们的脑海应该有一个大致的地图
知道应该往那个方向走
如果还十分模糊,那接下来我和大家一起重新捋一遍思路
如果感觉有点印象,那接下来就温故知新
先从字面开始, 假设 的是什么? 检验 的是什么?
假设,就是‘猜’。
比如说《女士品茶》中,如下假设:
等价的说法是:
假设,是我们进行学术研究的第一步。我们看得每一篇文献,进行得每一个研究课题,都有一个假设。
一个 好的假设 应该有以下特征:
1. 陈述句
2. 提出变量间的预期关系 (如: 能分辨/不能分辨;促进/抑制)
3. 假设应基于已存在的理论或文献基础 (如: 有人已经研究过,先煮辣椒,再放豆腐;和先煮豆腐,再放辣椒,这两种烹饪方式做出的麻婆豆腐味道不一样) (我随便举个例子,我们研究中大多假设的基础,应该有文献)
4. 简短并切中要点 (不废话,有说服力)
5. 可检验 (意味着有可量化的方法判断这个假设是对还是不对)
一个好的假设是 可检验的 。
什么是可检验?
可检验就有判断命题真伪的普遍性量化标准。
比如说,在《女士品茶》里
我们再来说一个假设:‘地球是圆球’
无效假设(零假设) H0:我们要 (间接) 检验的假设
备择假设(研究假设) Ha:无效假设(零假设)的对立命题 (非此即彼),我们想研究的假设。
假设检验的基本思想:
反证法 前面已经说过了,否认一个命题相对容易。
另外不知道有朋友发现没有,在上面的零假设中,我用了‘间接’二字。
零假设的对象是 总体 ,
如果你翻翻老师的课件,
你会发现,H0总是这样的形式:
H0 : μ = μ0
样本标准差是表示个体间变异大小的指标,反映了整个样本对样本平均数的 离散程度 ,是数据精密度的衡量指标 ;
而样本平均数的标准误(差),反映样本平均数对总体平均数的 变异程度 ,从而反映 抽样误差的大小 ,是量度结果精密度的指标
好的,我们再回到零假设
H0 : μ = μ0
总体我们一般无法获得,我们通常使用 抽样 获得一部分样本。
那我们是如何通过样本来间接验证总体的呢?
首先,总体的数据会服从某种分布,而抽取的样本构成的总体,会服从某种抽样分布。
老师上课讲的主要是:
总体分布:‘正态分布’
抽样分布:‘t 分布’,‘卡方分布’,‘F 分布’
为什么主要讲‘正态分布’?
1. 因为自然状态下,大多数数据都服从正态分布。从正态总体中抽取样本, 样本均数 也服从正态分布。
2. 即使总体不是正态分布,只要样本数 n 足够大, 样本均数 的分布也近似服从正态分布。(中心极限定理)
不知道大家留意到没有,上面用的字眼是, 样本均数的分布 ,是样本平均数的分布。这意味着, 样本的平均数,不是唯一的值 (分布意味着是一系列的取值)。
为什么? (理解这一点很重要,比如会把总体,样本,样本总体搞混)
因为每次抽样,抽样的样本是不一样的(随机,样本差异)。所以每次抽取出来的样本的平均数,肯定不会是一样的。这样的所有样本均值会构成一个 新的总体 ,在这个总体里面,均值是 μ(x),标准差是 σ(x)。(记住这些符合,后面会用到)
虽然算出来的均值可能会不一样,但是总有个合理的范围。如果出现某个偏离很远的值,我们会觉得很不合理。这个就是 置信区间 。
好的,思路到这里已经越来越清晰了。
虽然老师说不用记这个图,但是我觉得还是有必要讲一下的。
1. x 轴是样本统计量。(如:样本的均值)
2. 概率不是 x 对应的 y 的值,而是曲线和两个 x 轴的垂线以及 x 轴围起来的面试,是概率。
3. N(μ,σ2),μ(总体均值) 是中心位置,σ (总体标准差) 代表数据的离散程度。但更重要的是 记住 : 离 均值μ 若干个 标准差σ 距离 代表的概率 。(如 1个 σ : 68.2%; 1.96 个 σ : 95%; 2.58 个 σ : 99%)
4. 对应到样本均值,‘样本均值’偏离‘样本总体均值’若干个‘样本均值标准误’也对应着相应的概率。(觉得懵的往下看)
正态分布只需要两个参数 ( μ 和 σ ) 即可确定其曲线形状
当 μ = 0 ,σ = 1 时,称为标准正态分布,N(0,1)
然而,我们抽取的 样本的均值 构成的分布,μ(x) 不会都等于 0 ,σ (x) 也不会正好等于 1,因此我们需要一个 标准化正态变换 。
是不是有种熟悉的感觉,没错,这个就是 u 检验时,我们计算的 u 值 。
(看清楚,μ 和 u ,我也不知道为什么用这么相近的两个字符)
(对符号含义理解还比较模糊的话往前看,这里的 μ(x) 是指所有抽取的样本的均值构成的新总体的总体均值, σ(x)是指对应的总体标准差)
好了,到这里应该对 u 值有清晰的理解了,我们再来看看,‘样本总体’怎么对应到‘原总体’上。
到了这一步,我们看看我们还缺什么?
很明显,x̅ 和 n 来自样本,我们还缺 μ 和 σ
首先看看我们的零假设,在一个样本平均数的 u 检验时 :
H0 :μ = μ0 = ? ,我们是有应该理论研究总体均值μ0
也就是说 μ 可以获得,所以还缺 σ
所以 一个样本平均数的 u 检验 分为两种情况:
好的,这里理解的话,基于这个思路,两个样本均值u检验,均值t检验,(频数检验),应该也比较好理解了。
(考试看这个图套公式就好了,重要的是理解每个符号的含义)
(还有就是看懂题目,知道是 u检验 还是 t检验 ,知道是 成组 还是 配对 ,知道是用 单尾检验 还是 双尾检验 )
(这个图有点小,放大后还是清晰的)
这张表逐一去看,理解后每个字符的含义后,直接套公式就好了。
关于显着性水平
我怎么知道我研究的总体是不是服从正态分布的?
或者说,我怎么通过采集的样本推断总体是不是服从正态分布的?
因为我们现在的假设检验,基本都是基于总体服从正态分布的前提下做的,如果一开始这个前提就不成立,那不是白干了。
还记得老师让我们记得图吗?
鱼群
我们将数据画个一个频数分布直方图,看看它大致的形状是不是符合正态分布,如果符合钟型,那说明可以用正态分布,如果不废话,那可能需要做一定的转换,将数据变成正态分布(这个转换我就不懂了)。