卫生统计学考点
第一节 概述
1、 主要内容:a、卫生统计学得基本原理与方法(研究设计与数据处理中得统计理论与方法) b、健康统计(医
学人口统计、疾病统计与生长发育统计)c、卫生服务统计(卫生资源、医疗卫生服务得需求与利用、医疗保健制度与管理中得统计问题)。
2、 卫生统计工作得步骤:设计、资料得搜集、资料得整理、资料得分析 3、 医学统计资料主要四个方面:统计报表、报告卡(单)、日常医疗卫生工作记录,专题研究或实验。
4、 观察单位:就是获得数据得最小单位,观察单位就是根据研究目得确定得,观察单位可以就是人、标本、家庭、
国家等。
5、 变异:就是指客观事物得多样性与不确定性。
6、 变量:观察单位得某种特征,称为变量。a、数值变量(定量变量)b、分类变量(定型变量或字符变量)。
7、 总体:根据研究目得所确定得同质研究对象得全体。确切得说就是性质相同得所有观察单位得某种变量得集
合。
8、 样本:从总体中随机抽取部分观察单位,其变量值就构成样本,通过样本信息来推断总体特征。 9、 概率:事件发生得可能性大小得量度,通常以符号P表示。 10、 误差:测量值与真值之差或样本指标与总体指标之差。分为随机误差与系统误差。 第二节 数值资料得统计描述
1、 频数分布就就是观察值在所取得范围内分布得情况。重要特征:集中趋势与离散趋势。 2、 频数分布类型:正态分布型频数、正偏态分布型频数,负偏态分布型频数。 3、 集中趋势指标:算术平均数(均数)、几何均数、中位数。
指标 算术平均数
使用条件
适用于正态或近似正态分布得数值变量资料
①对数正态分布,即数据经过对数变换后呈正态分布得资料;②等比级数资料,即观察值之间呈倍数或近似倍数变化得资料。
①非正态分布资料(对数正态分布除外);②频数分布得一端或两端无确切数据得资料③总体分布不清楚得资料。
计算公式
几何均数
为奇数 , 为偶数,
中位数
4、 离散型趋势指标:极差、标准差与变异系数 指标 极差 离均差平方与 方差 标准差
计算公式
R=Xmax-Xmin
主要优缺点
计算简单,便于理解;只考虑最大值与最小值之差异,不能反映组内其它观察值得变异度,不稳定,受样本量影响很大。
反映了各变量值之间得变异情况,但单位就是原观察值单位得平方,不易理解,同时又受观察值个数得影响,不利于比较。
反映了各变量值之间得变异情况,不受观察值个数得影响,但单位就是原观察值单位得平方,不易理解。
反映了各变量值之间得变异情况,不受观察值个数得影响,单位
与原观察值单位相同,就是最常用得离散程度指标之一,但在两组合多组资料比较时,常受到计量单位不同与均数相差很大得影响而不能比较与不便于比较。
变异系数 反映了各变量值之间得变异情况,不受观察值个数得影响,没有
单位,用于比较度量衡单位不同或均数相差悬殊得多组资料得变异度。
5、 正态分布下面积分布规律①标准正态分布时区间(-1,1)或正态分布时区间(μ-1σ,μ+1σ)得面积占总面积得
68、27%;②标准正态分布时区间(-1、96,1、96)或正态分布时区间(μ-1、96σ,μ+1、96σ)得面积占总面积得95%;③标准正态分布时区间(-2、58,2、58)或正态分布时区间(μ-2、58σ,μ+2、58σ)得面积占总面积得99%。
6、 正态分布得应用。a、医学参考值范围 b、质量控制 c、正态分布就是其她一些理论分布得极限形式。 第三节 总体均数得估计与t检验
1、 均数得抽样误差:由抽样引起得样本均数与总体均数之差。均数得抽样误差大小用标准误来描述。标准误σ=。
一般不知道总体均数σ,可用样本标准差S来代替:S=。
2、标准差与标准误得区别与联系: 区别:⑴标准差S(σ):①意义:描述个体观察值变异程度得大小。标准差小,均数对一组观察值得代表性好;②应用:与结合,用以描述个体观察值得分布范围,常用于医学参考值范围得估计;③与n得关系:n越大,S越趋于稳定;⑵标准误S(σ):①意义:描述样本均数变异程度及抽样误差得大小。标准误小,用样本均数推断总体均数得可靠性大;②应用于结合,用以估计总体均数可能出现得范围以及对总体均数作假设检验;③与n得关系:n越大,S 越小。联系:①都就是描述变异程度得指标;②由S=可知,S与S正比。n一定时,s越大,S越大。
3、t分布:当X服从均数为μ得正态分布时,统计量 服从自由度为v=n-1得t分布,就是小样本总体均数得区间估计及假设检验得理论基础。
4、t分布得图形特征:t值得分布于自由度有关。t分布只有一个参数即v。特征:①单峰分布,以0为中心,左右对称;②v越小,t值越分散,曲线得峰部越矮,尾部越高;③随着v逐渐增大,t分布逐渐接近标准正态分布;当v趋向∞时,t分布趋近标准正态分布,故标准正态分布就是t分布得特例;④t分布就是一簇曲线。
5、一般正态分布转化为标准正态分布就就是将变量X转变为标准正态变量Z值。Z=(X-)/S。
6、小样本均数可信区间:总体均数μ得双侧(1-α)置信区间为±tS;单侧(-tS,∞)或(-∞,+ tS)。μ95%得可信区间:±t0、05,v S;μ99%得可信区间:±t0、01,v S
7、大样本均数可信区间估计:μ95%得可信区间:±1、96S;μ99%得可信区间:±2、58 S
8、t检验主要用于两组均属得比较,它能够判断进行比较得两个均数得差别就是由于抽样误差引起,还就是来自不同总体。 9、t检验应用条件:①资料就是数值资料②分析目得就是对两均数进行比较③样本例数较少时,资料服从正态分布,做两样本均数比较时,要求两总体方差齐。 10、样本均数与总体均数比较得t检验: 11、配对设计得t检验:
12、两样本均数比较得u检验,两样本均数比较时,如n1与n2均大于100,可用Z检验。 第四节 方差分析
1、方差分析应用:a、两个或多个样本均数得比较b、分离各有关因素并分别估计其效应c、分析两因素或多因素得交互作用d、方差齐性检验
2、方差分析包括:a、完全随机设计得方差分析b、随机区组(配伍组)设计资料得方差分析c、均数间得两两比较。 3、方差分析表 变异来源 总变异 组间变异 组内变异 22 ∑∑Xij-C ∑(∑Xij)-C SS组内SS总SS组间 N-1 K-1 自由度 均方 SS组间/v组间 SS组内/v组内 F值 F=MS组间/MS组内 N-K C=(∑∑Xij)/ni
1、 方差分析基本条件:a、独立性各样本就是相互独立得随机样本b、方差齐性各组实验结果变异程度一致c、
正态性各组实验结果都服从正态分布 第四节 分类资料得统计描述
1、常用相对数包括:率、构成比、相对比 2、率:
率又称频率指标,说明某现象发生得频率或强度,常以100%、1000‰等表示。
3、构成比又称构成指标,说明某一事物内部各组成部分所占得比重或分布。常以百分数表示。
4、相对比,就是A、B两个有关指标之比,说明两者得对比水平,常以倍数或百分数表示,其公式为:相对比=甲指标 / 乙指标(或100%)
5、动态数列常用指标:绝对增减量、发展速度、增减速度、平均发展速度、平均增减速度。 6、标化率:在进行几个总率比较时,由于内部构成不同并影响了相互比较得结论时,采用统一得标准对几个总率得内部构成进行矫正后在比较。校正后得总率称标化率或调整率。 第六节 二项分布及其应用
1、二项分布就是一种离散型随机变量得分布类型。如果每个观察对象阳性结果得发生概率为π,阴性结果得发生概率为(1-π);而且每个观察对象得结果就是相互对立得,那么,重复观察n个人,发生阳性结果得人数X得概率分布为而二项分布,记作B(n,π)。
x
2、二项分布得概率函数P(X)=Cnx π(1-π)n-x
3、二项分布适用条件:①每次实验只有两种互斥得结果;②各次实验互相独立;③发生成功事件得概率恒定。 4、分布特征:二项分布得特征由二项分布得参数π以及观察得次数n决定。 图形分布特征:二项分布图得高峰在μ=nπ处或附近;π=0、5时,图形对称;
π≠0、5时,分布不对称,且对同一n,π离0、5愈远,对称性愈差。对于同一π,随着n得增大,分布趋于对称。当n→∞时,只要π不太靠近0或1(特别就是当nπ与n(1-π)均大于5时),二项分布趋于对称。
5、二项分布得均数与标准差:若X服从二项分布B(n,π),则X得总体均数为μ=nπ,总体方差为σ2=nπ(1-π) 第七节 泊松分布及其应用
1、Poisson分布:就是一种离散型随机变量得分布类型,就是二项分布得特例,用以描述单位时间、空间、面积等得罕见事件发生次数得概率分布。一般记作P(λ),λ就是Poisson分布得唯一参数。总体均数为λ=nπ。前提条件:互斥、独立、恒定。
2、概率函数为:P(X)=e-λ ,X为观察单位内稀有事件得发生次数,e=2、71828。
3、分布特性:Poisson分布就是非对称得,总体参数λ值越小,分布越偏;随着λ→∞,分布趋于对称,当λ≥20时,Poisson分布资料可按正态分布处理。
4、Poisson分布总体均数与总体方差相等,均为λ
5、Poisson分布得观察结果可加性,即对于服从Poisson分布得m歌互相独立得随机变量X1、X2…Xm,它们得与也服从Poisson分布,其均数为这个m随机变量得均数之与。 6、三种常用分布之间得关系:
①二项分布与Poisson分布得关系:当n很大,发生概率π(或1-π)很小,二项分布B(n,π)近似于Poisson分布P(nπ);
②二项分布与正态分布得关系:当n较大,π不接近0或1(特别就是当nπ与n(1-π)均大于5时),二项分布B(n,π)近似于正态分布N(nπ,nπ(1-π));
③ Poisson分布与正态分布得关系:当λ≥20时,Poisson分布渐进正态分布N(λ,λ)。 7、二项分布与Poisson分布得区别:
⑴相同点:都就是离散型随机变量得常见分布;
⑵区别:a、取值不同。服从二项分布得随机变量有n+1个不同得取值;Poisson分布得随机变量得可能去只有无限多个,即非负整数0,1,2……;b、随机变量得概率不同:二项分布P(X=k)= ,Poisson分布P(X=k)=e-λ ;c、描述得随机变量不同。二项分布描述得就是一次试验只会出现两种对立得结果之一,n次独立重复试验中某种结果出现次数得概率分布。Poisson分布描述得就是在单位时间、面积、空间等范围中某种事件发生数得概率分布。
第八节 卡方检验
1、检验用途:常用于分类变量资料得统计推断,主要用途包括:①单样本分布得拟合优度;②比较两个或多个独立样本频率分布;③比较配对设计两样本频率与两频率分布;④推断两个变量或特征之间有无关联性。分为四格表卡方检验、行*列表卡方检验、配对资料卡方检验。 2、四格表资料得卡方检验:公式: 3、四格表次来哦在下列情况①四格表资料中有任何一个格子得理论数T<1或n<40;②四格表卡方检验,所得P值十分临近检验水准时,可以直接计算其概率做出判断。 4、行*列表卡方检验要求:理论频数不宜太小,一般不宜有1/5以上得格子得理论频数小于5,或不宜有一个理论频数小于1,否则可能会产生偏性。如果不满足此要求,处理方法有:①增加样本含量(首选);②结合专业知识考虑就是
否可以将该格所在行或列与别得行与列合并,要根据样本特性来确定,但会损失信息;③改用R×C表Fisher精确概率法,可以用计算机软件实现。 5、配对设计资料得X2检验: 公式:
第九节 非参数统计
1、非参数统计使用:a、资料不服从正态分布或分布未知b、只能以严重程度、优劣等级、效果大小、名词先后来综合判断得有序分类资料。 2、秩与检验目得:就是推断连续型变量资料或有序变量资料得两个独立样本代表得两个总体分布就是否有差别。 3、方法要点:①将两组数据由小到大同一编秩,以样本列数小者为n1,其秩与为T,查T界值表确定P值;②正态近似法:当n1>10或n2- n1>10时,T分布接近均数为n1(N+1)/2,方差为n1 n2(N+1)/2得正态分布,可用Z检验。
4、注意事项:①编秩中若有相同得数据在同一组则依次编秩;若相同数值在不同组内,求平均秩次;②当相持出现较多时(超过25%),需使用校正公式。
5、基本思想:假设含量为n1与n2得两个样本(且n1≤n2),来自同一总体或分布相同得两个总体,则n1样本得秩与T1与其理论秩与n1(N+1)/2相差不大,即[T- n1(N+1)/2]仅为抽样误差所致。当二者相差悬殊,超出抽样误差可解释得范围时,则有理由怀疑该假设,从而拒绝H0。 第十节 直线相关与回归
1、直线相关又称简单相关,用于双变量正态分布资料,它就是从数量上研究两随机变量间相互关系密切程度得一种统计方法。
2、相关系数就是线性相关条件下用来说明两个变量间相关关系得密切程度与方向得一个统计指标。 R=
3、直线回归又称简单回归,它就是描述与分析两变量间线性依存关系得一种统计方法。 4、直线回归方程:F=a+bX 5、回归系数假设检验:F= 6、回归剩余标准差:Sy,x= 7、回归系数标准误:Sb=
8、不要把相关关系都说成就是因果关系。(伴随关系) 9、不要把相关得显著性程度误解为密切程度。 10、线性回归模型得适用条件:①线性:因变量Y与自变量X称线性关系;②独立:每个个体观察值之间互相独立;③正态性:任意给定X值,对应得随机变量Y都服从正态分布;④等方差性:在一定范围内不同得X值所对应得随机变量Y得方差相等。简记为LINE。
11、线性回归得应用:①用于计算总体条件均数得置信区间以及总体回归线得置信带;②用于计算个体Y预测值及其预测区间。线性回归常用于统计预测与统计推断。 12、线性回归与线性相关得区别与联系: ⑴区别:
①单位:相关系数r没有单位,回归系数b有单位;所以,相关系数与单位无关,回归系数与单位有关; ②应用目得:说明两变量间得关联性用相关分析,说明两者依存变化得数量关系则用回归分析;
③对资料得要求不同:线性回归要求应变量Y就是服从正态分布得随机变量;线性相关要求两个变量X与Y为服从双变量正态分布得随机变量。
④取值范围:-∞①方向一致: r与b得正负号一致;②假设检验等价: tr=tb;③ ;④用回归解释相关决定系数(coefficient of determination): ,回归平方与越接近总平方与,则r2越接近1,相关性越好。 第十二节 调查设计
1、调查设计就是对调查研究所作得周密计划,包括资料收集、整理与分析全过程得设想与安排。
2、调查设计包括内容:确定调查目得与指标、确定调查对象与观察单位、确定调查方法、确定资料收集方式、拟定调查项目与调查表、估计样本含量。
3、组织计划:调查员得挑选与调查员得培训。
4、整理计划步骤:问卷接受、问卷核查、数据编码、数据录入、拟定整理表、归纳汇总等。 5、常用得调查方法有:直接观察法、采访法、报告法等。
6、各种抽样方法得抽样误差一般就是:整群抽样≥单纯抽样≥系统抽样≥分层抽样。 第十三节 实验设计
1、根据研究者就是否人为地设置处理因素,即就是否给予干预措施,可将医学研究分为调查研究与实验研究两类。①ﻩ调查研究:又称观察性研究或非实验性研究,确切得说应就是非随机化对比研究。它对研究对象不施加任何干预措施,就是在完全“自然状态”下对研究对象得特征进行观察、记录,并对观察结果进行描述与对比研究。② 实验研究:又称干预性研究,就是对研究对象人为给予干预措施得研究。
2、实验设计得基本要素:受试对象、实验因素、实验效应。① 受试对象:就是处理因素作用得客体,根据受试对象不同,实验可以分为三类:动物实验、临床试验、现场试验。②ﻩ实验因素:就是研究者根据研究目得而施加得特定得实验措施,又称为受试因素。③ 实验效应:就是处理因素作用下,受试对象得反应或结局,它通过观察指标来体现。 3、选择观察指标时,应当注意:a客观性:客观指标具有较好得真实性与可靠性;b精确性:包括准确度与精密度两层含义。准确度指观察值与真值得接近程度,主要受系统误差得影响。精密度指相同条件下对同一对象得同一指标进行重复观察时,观察值与其均数得接近程度,其差值受随机误差得影响。c灵敏性与特异性:指标得灵敏度反映其检出真阳性得能力,灵敏度高得指标能将处理因素得效应更好地显示出来;指标得特异度反映其鉴别真阴性得能力,特异度高得指标不易受混杂因素得干扰。 4、实验设计得基本原则:对照、随机化与重复。
⑴对照得形式:①安慰剂对照:目得:在于克服研究者、受试对象等由心理因素导致得偏倚。②空白对照:即对照组不接受任何处理,在动物实验与实验方法研究中最常见,常用于评价测量方法得准确度,评价实验就是否处于正常状态等。③实验对照;④标准对照:用现有标准方法或常规方法作为对照;⑤自身对照:对照与实验在同一受试对象身上进行。
⑵a随机化体现在三方面:①随机抽样:总体中每一个体都有相同机会被抽到样本中来;②随机分配:每个受试对象被分配到各组得机会相等,保证大量难以控制得非处理因素在对比组间尽可能均衡,以提高组间得可比性;③实验顺序随机:每个受试对象先后接受处理得机会相等,它使实验顺序得影响也达到均衡。b在实验设计中常通过随机数来实现随机化。获得随机数得常用方法有:随机数字表与计算机得伪随机数发生器。随机数字表常用于抽样研究及随机分组。c常用得两种随机化分组得方法:完全随机化与分层随机化(配对随机化与区组随机化可瞧成就是分层随机化得实际应用)。
⑶重复包括三种情形:①整个实验得重复;②用多个受试对象进行重复;③同一受试对象得重复观察。重复得主要作用:①估计变异得大小;②降低变异大小。 5、常用得实验设计方案:
⑴完全随机设:又称简单随机设计,就是最为常见得一种考察单因素两水平或多水平效应得实验设计得方法,它就是采用完全随机分组得方法将同质得受试对象分配到各处理组,观察其实验效应。
⑵配对设计:就是将受试对象按一定条件配成对子,再将每对中得两个受试对象随机分配到不同得处理组。据以配对得因素应为可能影响实验结果得主要混杂因素。配对设计主要有以下情形:①将两个条件相同或相近得受试对象配成对子,通过随机化,使对子内个体分别接受两种不同得处理;②同一受试对象得两个部分配成对子,分别速记地接受两种不同得处理;③自身前后配对,即同一受试对象,接受某种处理之前与接受该处理后视为配对。
⑶配伍组设计:实际上就是配对设计得扩展。通常就是将受试对象按性质相同或相近分为b个区组(或称单位组、配伍组),再将每个区组中得k个受试对象随机分配到k个处理组。设计应遵循“区组间差别越大越好,区组内差别越小越好”得原则。 6、样本含量得估算:
⑴确定样本含量得原则:在保证研究结论有一定可靠性得前提下,估算最少需要多少受试对象。 ⑵假设检验所需样本含量取决于四个要素:
①ﻩ第一类错误概率α得大小:α越小,所需样本量越大;②第二类错误概率β或检验功效(1-β)得大小:
第二类错误得概率越小,检验功效越大,所需样本含量越多;③容许误差δ:即两总体参数得得差值,δ越大,所需样本含量越小;④总体标准差σ与总体概率π:σ越大,所需样本含量越多;总体概率π越接近50%,变异性越大,所需样本含量越多。
第十四节 居民健康统计
1、反映生育水平得指标包括:粗出生率、总生育率、年龄组生育率。a、粗出生率就是指某地某年平均每千人口中得出生数,说明一个地区人口得生育水平。b、总生育率就是指某地平均每千名育龄妇女(15-49岁妇女)得活产总数。c、就是按年龄别计算得育龄妇女生育率,它消除了年龄构成对生育水平得影响,可了解计划生育控制得重点人群,但不能反映某一时空范围得总生育率情况。
2、人口死亡统计指标:粗死亡率、年龄别死亡率、标准化死亡率、婴儿死亡率、新生儿死亡率。a、粗死亡率:某地某年死亡总人数/同年平均人口数×K 反映一个地区居民死亡水平,但受当地人口、年龄、性别构成影响,须标化后才能进行比较b、年龄别死亡率:某年某年龄组死亡人数/同年同年龄组平均人口数×K 可与她地相应年龄别死亡率直接比较,但也受性别构成影响。一般以5岁为一组距,不满一岁者归0~组,1~4组又为一组,以此为据推算寿命表c、标准化死亡率:消除了年龄结构对死亡水平得影响,可用于比较年龄结构不同得人群整体死亡水平d、婴儿死亡率:某年平均每千名活产数中不满周岁婴儿得死亡数。e、新生儿死亡数:就是某年平均每千名活产数中未满28天新生儿得死亡数。
3、寿命表就是描述特定人群生命过程得一种统计表,分为定群寿命表与现实寿命表。 用于评价人群健康状况与社会卫生水平;用于评价某种(类)疾病对于居民寿命得影响。
4、发病率就是指在一定时期内,在可能发生某病得一定人群中新发某病得频率指标。 5、患病率也称现患率,指某时点上受检人群中患某种疾病得人数,通常用于描述病程较长或发病时间不宜明确得疾病得患病情况。
6、某病死亡率又称疾病别死亡率,指某年每10万人中因某病死亡得人数。 7、生存率:指病人能活到某一时点得概率。(直接法与寿命表法)
8、n年生存率=活满n年得合计病人数/随访满n年得累计病人数*100%
因篇幅问题不能全部显示,请点此查看更多更全内容