统计学的标准差汇总十篇

时间:2023-08-30 16:38:33

统计学的标准差

统计学的标准差篇(1)

[中图分类号]O 212 [文献标识码]A [文章编号]1005-6432(2013)10-0023-011

1 引 言

在科学实验中,测量可分为常量测量和变量测量两大类。物理量的变化量远小于测量仪器误差范围的测量称为常量测量(又称经典测量、基础测量),其核心理论是误差理论[1-3],误差理论的基本单元是误差元(测量值减真值)。测量仪器误差范围远小于物理量的变化量的测量称为变量测量(又称统计测量),其核心理论是数理统计理论(概率论是其理论基础),数理统计理论的基本单元是偏差元(又称离差元,测量值减数学期望)。标准差(standard deviation,又称标准偏差、均方差,其英文缩写词为SD,此术语1893年由卡尔·皮尔逊首创)是用来衡量一组测量数据的离散程度的统计量,它反映了随机变量的取值与其数学期望的偏离程度。经典测量学只能处理常量测量问题,而当今频域界的频率稳定度测量(常用阿伦方差表示)则属于变量测量。

等精度测量(equally accurate measurement)是指在测量条件(包括测量仪器的准确度、观测者的技术水平、环境条件影响及测量方法等)不变的情况下,对某一被测物理量所进行多次测量的一种方法。在实际测量工作中,由相同设备、相同人员、相同环境和相同方法所获得的各测量值可视为是等精度测量值。文献[4]介绍了流量计量中的计量学基本原则——等精度传递理论。

在测量实践中,有时为了获得准确度更高的测量结果,往往要求在不同的测量环境条件下,使用不同的测量仪器,选用不同的测量者和不同的测量次数,采用不同的测量方法进行对比测量,这种测量方法称为不等精度测量(unequally accurate measurement)。不等精度测量的不确定度应采用加权方式计算[5-6]。

若无特别说明,本文中所涉及的测量均指等精度测量。

2 误差的种类和应用

误差公理认为误差自始至终存在于一切科学实验和测量之中,是不可避免的,即误差无处不在,真值是不可知的。在实际应用工作中,可用约定真值或相对真值来代替理论概念中的理想真值。约定真值一般包括约定值、指定值和最佳估计值三种类型。

测量误差最基本的表示方法有如下三种:①绝对误差=测量值-真值,绝对误差通常简称为误差(即真误差);②相对误差=绝对误差/真值≈绝对误差/测量值;③引用误差=示值误差/测量范围上限(或全量程)。残差(又称剩余误差)=测量值-估计值,残差可认为是真误差的估计值。绝对误差和相对误差通常用于单值点测量误差的表示,而对于具有连续刻度和多档量程的测量仪器的误差则通常采用引用误差来表示。

按误差的特点和性质可将其分为粗大误差(parasitic error)、系统误差(systematic error)和随机误差(random error)三大类。可消除的粗大误差(又称过失误差,没有规律可循)应予全部剔除,系统误差(又称规律误差、理论误差或方法误差,一个定值或服从函数规律)反映测量的正确度(correctness),随机误差(旧称偶然误差、不定误差,服从统计规律,大多数服从正态分布规律)反映测量的精密度(precision),测量的准确度(accuracy,又译为精确度)则是用综合误差(即测量不确定度)来衡量的,有时也用极限误差来衡量测量的准确度。逐项获得测量的系统误差和随机误差,采用误差合成的方法(各系统误差绝对值相加得系统误差范围,各随机误差均方根合成则得随机误差范围。系统误差范围加随机误差范围可得综合误差范围)合成综合误差,它表征了测量结果与真值的不一致程度。

泛指性的“精度”一词常被用作“精确度(即准确度)”或“精密度”的替代词,因其并无明确和严格的科学定义,故在学术论文中应慎用或弃用。

下面简要介绍一下随机误差所遵循的一些基本统计规律,首先需要介绍中心极限定理:

当测量次数n无限增大时,在真误差序列中,若比某真误差绝对值大的误差和比其绝对值小的误差出现的概率相等,则称该真误差为或然误差(probable error,又称概率误差,它在衡量射击精密度时尤其显得重要),记作ρ。

作为精密度的评定指标,中误差最为常用,因为它反映了真误差分布的离散程度。

通常以2倍或3倍的中误差作为随机误差的极限误差(limit error),其置信概率分别是9544%(2σ准则)和9973%(3σ准则)。如果某个误差超过了极限误差,就可以认为它是粗大误差而被剔除,其相应的测量值应舍弃不用。

对于某个测量值,通常采用相对中误差(即中误差和测量值之比,又称相对标准差)配合中误差来衡量,它能更全面地表达测量值的好坏。

英国物理学家、化学家和数学家瑞利勋爵(Lord Rayleigh,1842—1919)以严谨、广博和精深而著称,他善于利用简单的设备做实验而能获得十分精确的数据。他因对气体密度的精确研究并因此参与发现稀有气体(旧称惰性气体)氩而荣获1904年诺贝尔物理学奖。1892年瑞利在研究氮气时发现[7]:从液态空气中分馏出来的氮,其密度为12572 kg/m3,而用化学方法直接从亚硝酸铵中得到的氮,其密度则为12508 kg/m3(现在的最权威数据125046 kg/m3是基于0 ℃和01 MPa时),前者比后者大05117%,因实验中已排除了粗大误差的可能,这一差异已远远超出随机误差的正常范围(现在通过t检验准则可以判定当时瑞利测得的空气中氮的密度数据是存在系统误差的)。英国物理化学家和放射化学家拉姆赛(Sir William Ramsay,1852—1916,1904年诺贝尔化学奖获得者)注意到这个问题并要求与瑞利合作对此问题展开共同研究,最终他们利用光谱分析法于1894年8月13日发现了第一种稀有气体─氩(Ar)。氩元素的发现是科学家们注意测量结果中的微小误差(实际上是系统误差)而取得重大科学发现的经典范例,是名副其实的“第三位小数”的胜利[8]。随后,其他稀有气体氦(He,1895年3月)、氪(Kr,1898年5月)、氖(Ne,1898年6月)、氙(Xe,1898年7月)、氡(Rn,1899年,继钋Po、镭Ra和锕Ac之后第4个被发现的天然放射性元素)陆续被拉姆赛等人所发现,稀有气体的发现完善和发展了俄国化学家门捷列夫(1834—1907)的元素周期表(1869年)。

3 统计量的概率分布类型

离散型统计量服从的概率分布类型主要有:①退化分布(又称单点分布);②伯努利(瑞士数学家,Jocob Bernoulli,1654—1705)分布(又称两点分布);③二项分布:包括超几何分布(又衍生出负超几何分布)、β-二项分布和离散均匀分布;④泊松分布:包括帕斯卡(法国数学家和物理学家,Blaise Pascal,1623—1662)分布(又称负二项分布)和几何分布;⑤对数分布等。

随机误差大多服从正态分布或标准正态分布,服从正态分布的随机误差具有单峰性、对称性、有界性和抵偿性。正态分布是随机误差遵循的最普遍的一种分布规律,但不是唯一的分布规律。随机误差服从的常见非正态分布(又称偏态分布)主要有:①均匀分布(又称矩形分布、等概率分布);②伽马分布(Γ-分布):包括指数分布(两个相互独立且都服从指数分布的随机变量之和服从广义指数分布)、厄兰(丹麦数学家和统计学家,Agner Krarup Erlang,1878—1929)分布和τ-分布(χ2-分布是其特例)等特例;③χ-分布:包括反射正态分布、瑞利分布和麦克斯韦(英国物理学家和数学家,James Clerk Maxwell,1831—1879)分布等特例,广义瑞利分布又称莱斯(美国通信理论专家,Stephen " Steve" Oswald Rice,1907—1986)分布(Rice distribution or Rician distribution),当v=0时莱斯分布退化为瑞利分布;④贝塔分布(B-分布);⑤F-分布:1934年美国数学家和统计学家斯内德克(George Waddel Snedecor,1881—1974)首创,为彰显英国统计学家和遗传学家费歇尔(Sir Ronald Aylmer Fisher,1890—1962,方差分析的发明者)的贡献,后来以其名字命名;⑥t-分布(又称学生氏分布):1908年由英格兰统计学家戈塞特(William Sealy Gosset,1876—1937)首创,因他以Student为笔名而得名;⑦对数正态分布;⑧极值分布:包括重指数分布和威布尔(瑞典数学家,Ernst Hjalmar Waloddi Weibull,1887—1979)─格涅坚科分布(参见本文第73节“极差法”)等;⑨柯西(法国数学家,Augustin Louis Cauchy,1789—1857)分布;⑩辛普森(英国数学家,Tomas Simpson,1710—1761)分布(又称三角形分布)等。此外还有反正弦分布、截尾正态分布、双峰正态分布、梯形分布、直角分布、椭圆分布和双三角分布等。多维概率分布则主要有:①多项分布;②均匀分布;③n(n≥2)维正态分布等。

因彼得斯公式法、极差法、最大误差法、最大残差法和最大方差法均只给出了正态分布下的标准差估计的系数因子,故它们一般不适用于非正态分布时的情形。

4 统计推断

统计推断是指根据随机性的观测数据(样本)以及问题的条件和假设(模型),对未知事物作出的、以概率形式表述的推断。统计推断是由样本的信息来推测总体(又称母体)性能的一种方法,它是数理统计学的主要任务,其理论和方法构成数理统计学的主要内容。统计推断分为参数估计和假设检验两大类问题。参数估计是假设检验的前提,没有参数估计,也就无法完成假设检验。

41 参数估计

运用从总体独立抽取的随机样本对总体分布中的未知参数做出估计,称为数理统计学上的参数估计,它是统计推断的一种基本方法。参数估计方法主要分为点估计法(根据样本构造一个统计量,用以对总体参数进行估计)和区间估计法(又称范围估计法,主要是根据置信度求置信区间)两大类。点估计构造统计量(估计量)的常用方法有:①顺序统计量法(又称次序统计量法):主要包括最大顺序统计量法和最小顺序统计量法两种。②贝叶斯法(又称贝叶斯公式、逆概率公式、事后概率公式或原因概率公式):1763年英国统计学家贝叶斯(Thomas Bayes,1702—1761)在其遗作《论有关机遇问题的求解》一文中首先提出。③最小二乘估计法(又称最小平方估计法):它可使残差的平方和为最小,1795年德国数学家、天文学家和物理学家高斯(Johann Carl Friedrich Gauss,1777—1855)首先提出其方法,1806年法国数学家勒让德(Adrien-Marie Legendre,1752—1833)首先用公式表示出最小二乘原理,1900年由俄国数学家马尔科夫(Andrey Andreyevich Markov,1856—1922)加以发展。④矩估计法(又称矩法估计、数字特征法):以样本矩的某一函数代替总体矩的同一函数来构造估计量的方法称为矩估计法,1894年英国数学家和统计学家卡尔·皮尔逊(Karl Pearson,1857—1936,被誉为“现代统计学之父”)首先提出。一个样本可确定一个经验分布函数,由这个经验分布函数可确定样本的各阶矩。称统计量S=1nni=1Xi为子样一阶原点矩(简称一阶矩,即子样均值);称统计量Sk=1nni=1Xki为子样k阶矩;称统计量S=1nni=1(Xi-)2为子样二阶中心矩(即子样方差);称统计量Sk=1nni=1(Xi-)k为子样k阶中心矩。⑤最小χ2法:χ2检验由卡尔·皮尔逊于1900年首先提出,故χ2统计量又称皮尔逊公式。⑥最大似然估计法(maximum likelihood estimation method,又称极大似然估计法):一种重要而普遍的统计量估计方法,其基本思想始于1821年高斯提出的误差理论,1912—1922年英国统计学家和遗传学家费歇尔首先将其应用于参数估计并证明了它的一些性质[9-10],其后他在工作中加以发展并使其臻于完善[11]。该估计方法在统计推断中无须有关事前概率的信息,克服了贝叶斯法(Bayes estimation method)的致命弱点,是统计学史上的一大突破。标准差σ的最大似然估计值是=1nni=1(xi-)2=1nni=1v2i, 其中=1nni=1xi。与最大似然估计法相类似的统计估计方法还有极小极大后验估计法、最小风险法和极小化极大熵法等。

常用于衡量点估计法是否优良的五大准则是:无偏性[12]、有效性、一致性(又称相合性)[13]、渐近性和充分性。无偏估计和一致估计(又称相合估计、相容估计)都属于优良点估计法。衡量区间估计法的优良准则有一致最精确准则、一致最精确无偏性准则和平均长度最短准则等。如果把参数估计用于统计决策,还可采用统计决策理论中的优良准则(如容许性准则、最小化最大准则、贝叶斯准则和最优同变性准则等)。

标准差的现代统计估计方法通常可将其归纳为一般估计方法和稳健估计(robust estimation,又称抗差估计)方法两大类[14]。一般估计方法(均属标准不确定度分量的A类评定方法)主要包括贝塞尔公式法、彼得斯公式法、极差法、最大误差法、最大残差法、较差法和最大方差法等,其中贝塞尔公式法最为常用,极差法、彼得斯公式法和最大残差法次之,最大误差法特别适用于比较特殊的场合(如一次性破坏实验等),较差法和最大方差法的应用场合则相对较少。稳健估计方法基本上可分为三类:M估计(经典最大似然估计法的推广,称为广义最大似然估计法)、L估计(即顺序统计量线性组合估计)和R估计(即秩估计,来源于秩统计检验)。

估计量的数学期望等于被估计参数,则称其为无偏估计,否则就是有偏估计。无偏估计的系统误差为零,其误差用随机误差来衡量;有偏估计的误差则用系统误差和随机误差的合成(即综合误差)来衡量。如今,随着计算机的日益普及和各类数学统计软件(包括专用数学统计软件,如SPSS、SAS和BMDP等)的广泛应用,数据计算繁琐一些已无技术障碍可言。实验测量数据的获得都要付出一定的人力、物力和财力,追求其准确可靠才是其最高目标,因此有偏估计的系统误差应尽可能地予以剔除。对于无偏估计来说,其统计量的方差越小则越好(表示其精密度和有效性越高)。

42 假设检验

假设检验(又称显著性经验、统计检验)一般分为参数检验(适用于总体分布形式已知的情形)和总体分布类型检验(又称分布拟合检验)两大类。参数检验方法主要有u检验法(又称z检验法,即正态分布检验法)、t检验法、χ2检验法(又称皮尔逊检验法)和F检验法(又称费歇尔检验法)等;总体分布类型检验方法主要有概率纸法(包括正态概率纸、对数正态概率纸、威布尔概率纸和二项概率纸等)和χ2检验法(适用于任意分布)等。在正态性检验法中,以夏皮罗(美国统计学家,Samuel Sanford Shapiro,1930—)─威尔克(加拿大统计学家,Martin Bradbury Wilk,19221218—)检验法(1965年,又称W检验,适用于样本数n≤50时的情形)[15]、达戈斯提诺(美国生物统计学家,Ralph BDAgostino, Jr,19290331—20010818)检验法(1971年,又称D检验,一种比较精确的正态检验法)[16]和夏皮罗─弗朗西亚(Shapiro-Francia)检验法(1972年,又称W′检验,适用于样本数50 两个样本是否来自于同分布总体的假设检验方法主要有符号检验法和秩和检验法等。

当未知总体标准差σ时,判别粗大误差的准则(即异常数据取舍的检验方法)主要有:①格拉布斯准则:1950年由美国统计学家格拉布斯(Frank Ephraim Grubbs,1913—2000)首创[18],并于1969年加以发展[19];②狄克逊准则(又称Q检验准则):1950年由美国统计学家狄克逊(Wilfred Joseph Dixon,1915—2008)首创[20],并于1951年和1953年加以改进[21-23];③偏度─峰度检验准则:偏度检验法适用于单侧情形,峰度检验法则适用于双侧情形[24];④罗曼诺夫斯基准则(又称t检验准则、3S检验准则):前苏联数理统计学家、塔什干数学学派创始人罗曼诺夫斯基(Vsevelod Ivanovich Romanovsky,1879—1954)首创,其检验效果最好[25];⑤3σ准则:仅早期采用,只适用于大样本数时的情形,因其理论上欠严谨且样本数n

估计标准差s=1n-2ni=1(y-)2主要应用于回归分析和假设检验中[34]。

5 测量不确定度

测量不确定度(measurement uncertainty,简称不确定度)是测量结果带有的一个非负参数,用以表征合理地赋予被测量值的分散性。它是说明测量水平的主要指标,是表示测量质量的重要依据。不确定度越小,测量结果的质量就越高,使用价值就越大。“不确定度”一词起源于1927年德国理论物理学家和哲学家海森堡(Werner Karl Heisenberg,1901—1976,1932年度诺贝尔物理学奖获得者)在量子力学中提出的不确定度关系,即著名的测不准原理(uncertainty principle)。自国际计量委员会CIPM(法文Comité International des Poids et Mesures)授权国际计量局BIPM(法文Bureau International des Poids et Mesures)于1980年10月提出《实验不确定度表示建议书INC-1》(1992年被纳入国际标准ISO 10012,1997年和2003年分别予以修订,中国国家标准GB/T 19022—2003等同采用ISO 10012 ∶ 2003[35])以后,经过30多年的研究和发展,现代不确定度理论现已形成较为完整的理论体系。

根据2008年版《测量不确定度表示指南》(GUM=Guide to the Expression of Uncertainty in Measurement)中的规定:不确定度可以用测量结果的标准差(即标准不确定度,它具有可传播性。当一个测量结果用于下一个测量时,其不确定度可作为下一个测量结果不确定度的分量,这就是不确定度的可传播性)表示,也可以用标准差的倍数或说明其置信水平区间的半宽度(即扩展不确定度expanded uncertainty,曾译为延伸不确定度、伸展不确定度)表示。无论采用哪种方法,都需要获得标准差的数值。

不确定度一般由若干分量组成,其中一些分量可根据一系列测量值的统计分布,按不确定度的A类评定方法进行评定(标准不确定度基于统计方法所进行的评定称为A类评定,又称统计不确定度),并用实验标准差(即有限次测量时总体标准差的估计值,又称样本标准差、子样标准差,主要应用于抽样推断和假设检验中)和自由度表征(必要时应给出其协方差)。而另一些分量则可根据经验或其他信息假设的概率分布,按不确定度的B类评定方法进行评定[标准不确定度基于非统计方法(技术规范、实践经验和科学知识等)所进行的评定称为B类评定,又称非统计不确定度],也用实验标准差表征(必要时应给出其协方差),一般情况下可以不给出其自由度。

贝塞尔公式法和极差法是两种主要的标准不确定度分量的A类评定方法[36-43],其中文献[39]给出的结论是:①当A类评定不确定度分量不是合成标准不确定度中唯一占优势的分量时,则无论测量次数多少(笔者注:因合成时采用方差相加的方法),(修正前)贝塞尔公式法优于极差法。②当A类评定不确定度分量是合成标准不确定度中唯一占优势的分量时,则两种方法的优劣与测量次数有关:当测量次数n10”则更为准确),(修正前)贝塞尔公式法优于极差法。

标准不确定度分量的B类评定方法主要有倍数法、正态分布法、均匀分布法(修约误差、修约前的被修约值、数字仪表的量化误差等均服从此类分布)、反正弦分布法、二点分布法、梯形分布法、三角分布法和投影分布法等[44-46],它更多的是依赖于经验的积累和判断。B类评定方法常应用于计量基准标准、仪器研制和在无法对比测量的情况下。

不确定度报告应该包括测量模型、估计值、测量模型中与各个量相关联的测量不确定度、协方差、所用的概率密度函数的类型、自由度、测量不确定度的评定类型和包含因子等。

在实际应用工作中,有效数字的正确取位十分重要,但这个问题却往往被忽视。测量结果总是以数字形式出现的,而能准确反映测量结果的是其有效数字。有效数字的末位数总是由下一位数进位或舍去而得来的,这就是数字修约。有效数字的定义是:一个数的修约误差不大于其末位数的半个单位,则该数的左边第一个非零数字起至右边最末一位数字都是其有效数字。不确定度的有效数字只能取1位或2位[47-49]。

6 自由度

自由度(degrees of freedom)的定义是:在方差的计算中,和的项数减去对和的限制数[36,50]。自由度反映了实验标准差的可信赖程度,自由度越大,实验标准差的可信赖程度就越高。由于不确定度是用标准差来表征的,故自由度可用于衡量不确定度评定的质量,它也是计算扩展不确定度的依据。当对标准差σ取A类评定的标准不确定度s的值时,不确定度的自由度计算公式为[46]:

式(6-1)是自由度估计值的计算公式(此估计值与理论值相比偏小,随着样本数n的增大,其估计值越来越接近于理论实际值),其中D(X)/E(X)为统计量X的相对标准差,u(x)为被测量x的标准不确定度,u[u(x)]为标准不确定度u(x)的标准不确定度。显然,自由度与标准不确定度的相对标准不确定度有关,即自由度与不确定度的不确定度有关,或者说自由度是一种二阶不确定度。

不确定度是测量结果的一个参数,而自由度则是不确定度的一个参数,它表征了所给不确定度的可信赖程度。算术平均值标准差的自由度和单次测量标准差的自由度是相同的。

自由度具有尺度变换下的不变性(即随机变量乘以非零常数,其自由度不变)。对于合并样本标准差,其自由度为各组自由度之和,即v=m(n-1)。当用测量所得的n组数据按最小二乘法拟合的校准曲线确定t个被测量值时,其自由度v=n-t;若t个被测量值之间另有r个约束条件,则其自由度v=n-t-r。

各种估计总体标准差方法的自由度如下表所示。

每个不确定度都对应着一个自由度,按A类评定的标准不确定度分量的自由度就是实验标准差的自由度。合成标准不确定度uc(y)的自由度称为有效自由度veff,它说明了评定uc(y)的可信赖程度,veff越大,表示评定的uc(y)越可信赖。一般情况下,按B类评定的标准不确定度分量可以不给出其自由度。但在以下情况时需要计算有效自由度veff:①当需要评定扩展不确定度Up为求得包含因子kp时;②当用户为了解所评定的不确定度的可信赖程度而提出此要求时。

7 标准不确定度的A类评定方法

标准差是评定测量结果精密度的一个极其重要的参数,关于各种估计总体标准差统计方法的精密度分析,前人已多有研究[52-56],但都缺乏深度和广度,其系统性和准确性也不够(有时甚至出现一些差错和遗漏,详见下文中的相关描述)。下面笔者将详细阐述各种估计总体标准差统计方法的由来和原理,严谨推导出其标准差系数的计算公式,力图以科学、严谨和求实的态度,分别对其系统地做出全面而准确的评介、对比和分析。

71 贝塞尔公式法

贝塞尔公式法(Bessel formula method)[57-63]是一种最为常见的估计总体标准差的统计方法。根据nj, k=1j≠kδjδk=0来推导贝塞尔公式长期以来被一些学者所认同,现已证明其为伪证[64-65]。笔者现根据误差理论、概率论和数理统计学中的基础知识,从误差和标准差的本质和作用入手,利用数学期望和方差公式,采用算术平均值的标准差来推导出贝塞尔公式。

n次测量值的算术平均值为:=1nni=1xi

算术平均值是μ的一致最小方差无偏估计,且不存在比它一致性更好的其他估计量。

德国天文学家和数学家贝塞尔(Friedrich Wilhelm Bessel,17840722—18460317)是天体测量学的奠基人之一,以其专著《天文学基础》(1818年)为标志发展了实验天文学,他重新订正布拉德雷(英国天文学家,James Bradley,1693—1762)星表并编制基本星表(后人加以扩充后成为《波恩巡天星表》),测定恒星视差(1838年)并预言暗伴星的存在,导出修正子午环安装误差的贝塞尔公式[即式(71-4)],导出用于天文计算的内插法贝塞尔公式(此式中的系数被称为贝塞尔系数),编制大气折射表并导出大气折射公式。首创贝塞尔岁首(又称贝塞尔年首)、贝塞尔假年(又称贝塞尔年)、贝塞尔日数(又称贝塞尔星数)和贝塞尔要素等概念,沿用至今。其研究成果还有贝塞尔方程(1817—1824,一类二阶常微分方程)、贝塞尔不等式(1828年)和贝塞尔地球椭球体(1841年)等。1938年2月24日发现的国际编号为1552(1938DE)号的小行星后被命名为“贝塞尔星(Bessel)”,这是对他最好的纪念和褒奖。

贝塞尔方程两个独立的解分别称为第一类贝塞尔函数Jn(x)和第二类贝塞尔函数Yn(x),Hn(x)=Jn(x)±iYn(x)则称为第三类贝塞尔函数,其中第二类贝塞尔函数又称为诺伊曼(Carl Gottfried Neumann,1832—1925)函数或韦伯(Heinrich Martin Weber,1842—1913)函数,第三类贝塞尔函数又称为汉克尔(Hermann Hankel,1839—1873)函数。诺伊曼、韦伯和汉克尔均为德国数学家。

在规范化的常规测量中,若在重复性条件下对被测量X作n次测量,并且有m组这样的测量结果,由于各组之间的测量条件可能会稍有不同,因此不能直接用贝塞尔公式对总共m×n个测量值计算其实验标准差,而必须计算其合并样本标准差(又称组合实验标准差)[77],即:

上式中,xjk是第j组第k次测量值,j是第j组n个测量值的算术平均值。

当各组所包含的测量次数不完全相同时,则应采用方差的加权平均值,权重(即自由度)为(nj-1),此时的合并样本标准差为:

上式中,nj是第j组的测量次数,s2j是第j组nj个测量值的样本方差。

在一些常规的日常校准或检定工作中,采用合并样本标准差往往会取得良好的效果[79-81]。

以下选用最为常用的修正前后贝塞尔公式法作为其他各种估计总体标准差统计方法的比较基准。

参考文献:

[1]费业泰误差理论与数据处理[M].北京:机械工业出版社, 2000(第4版).

[2]冯师颜误差理论与实验数据处理[M].北京:科学出版社, 1964

[3]周秀银误差理论与实验数据处理[M].北京:北京航空学院出版社, 1986

[4]贾克军,石军广,贾文轩,等等精度传递理论在流量计量中的应用[J].工业计量, 2012,22(4):9-11

[5]魏诺,史彭,张伯乾,等非等精度测量不确定度表示两种方法的比较[J].高校实验室工作研究, 1999(2):35-36

[6]彭靖不等精度直接测量不确定度的评定[J].中国计量, 2003,8(3):58-59

[7]郭奕玲,沈慧君诺贝尔物理学奖(1901—2010)[M].北京:清华大学出版社, 2012

[8]杨正一氩元素发现的启迪[J].西安石油学院学报, 1989,4(4):89-93

[9]RAFisherOn an absolute criterion for fitting frequency curves[J].Messenger of Mathematics, 1912,41∶155-160

[10]RAFisherOn the mathematical foundations of theoretical statistics[J].Philosophical Transactions of the Royal Society of London, Series A, 1922,222∶309-368

[11]RAFisherTheory of statistical estimation[J].Mathematical Proceedings of the Cambridge Philosophical Society, 1925,22(5):700-725

[12]孙翠先,步金芳正态总体方差和标准差的无偏估计[J].唐山学院学报, 2012,25(3):5-6,9

[13]盛骤,谢式千,潘承毅概率论与数理统计[M].北京:高等教育出版社, 2001(第3版).

[14]林洪桦测量误差与不确定度评估[M].北京:机械工业出版社, 2010

[15]SSShapiro, MBWilkAn analysis of variance test for normality(complete samples)[J].Biometrika, 1965,52(3/4):591-611

[16]RBDAgostinoAn omnibus test of normality for moderate and large size samples[J].Biometrika, 1971,58(2):341-348

[17]SSShapiro, RSFranciaAn approximate analysis of variance test for normality[J].Journal of American Statistical Association, 1972,67(337):215-216

[18]Frank EGrubbsSample criteria for testing outlying observations[J].Annals of Mathematical Statistics, 1950,21(1):27-58

[19]Frank EGrubbsProcedures for detecting outlying observations in samples[J].Technometrics, 1969,11(1):1-21

[20]WJDixonAnalysis of extreme values[J].The Annals of Mathematical Statistics, 1950,21(4):488-506

[21]WJDixonRatios involving extreme values[J].The Annals of Mathematical Statistics, 1951,22(1):68-78

[22]Robert BDean, WJDixonSimplified statistics for small numbers of observations[J].Analytical Chemistry, 1951,23(4):636-638

[23]WJDixonProcessing data for outliers[J].Biometrics, 1953,9(1):74-89

[24]田禹基于偏度和峰度的正态性检验[D].上海:上海交通大学硕士学位论文, 2012

[25]王文周未知σ,t检验法剔除异常值最好[J].四川工业学院学报, 2000,19(3):84-86

[26]张敏,袁辉拉依达(РайTа)准则与异常值剔除[J].郑州工业大学学报, 1997,18(1):84-88

[27]王承双3σ准则与测量次数n的关系[J].长沙电力学院学报(自然科学版), 1996,11(1):73-74

[28]William ChauvenetA manual of spherical and practical astronomy VolII(Theory and use of astronomical instruments)[M].Philadelphia:JBLippincott & Co, London:Trübner & Co, 1863

[29]王玺,罗旭微机在化学分析逸出值检验中的应用[J].沈阳药学院学报, 1991,8(1):52-57

[30]吴拥政重标极差法及其应用[J].统计与决策, 2004(8):23-24

[31]KRNairThe distribution of the extreme deviate from the sample mean and its studentized form[J].Biometrika, 1948,35(1/2):118-144

[32]吕恕正态样本异常Nair检验统计量的近似分布[J].东北师大学报(自然科学版), 1990,22(3):41-45

[33]GB/T 4883—2008, 数据的统计处理和解释——正态样本离群值的判断和处理[S].

[34]邹传忠关于标准差三种表现形式的应用[J].江西煤炭科技, 2004(2):66

[35]GB/T 19022—2003, 测量管理体系——测量过程和测量设备的要求[S].

[36]全国法制计量管理计量技术委员会JJF105911—2011,测量不确定度评定与表示[S].

[37]柳历波测量不确定度的A类评定的几个问题[J].上海计量测试, 2009,36(4):27-28

[38]林洪桦测量不确定度评定应基于误差理论[J].自动化与信息工程, 2011,33(4):1-4,12

[39]倪育才测量不确定度理解与应用(二):极差法和贝塞尔法之间的比较[J].中国计量, 2004,9(8):78-79

[40]巫业山测量不确定度A类评定的两种方法:贝塞尔法和极差法[J].衡器, 2011,40(4):23-24

[41]李慎安测量不确定度表达百问[M].北京:中国计量出版社, 2001

[42]耿维明测量误差与不确定度评定[M].北京:中国质检出版社, 2011

[43]罗刚不确定度A类评定及不确定度B类评定的探讨[J].计量与测试技术, 2007,34(12):42-43

[44]刘智敏,刘风不确定度的B类评定方法[J].中国计量学院学报, 1995,6(2):51-57

[45]刘智敏不确定度原理[M].北京:中国计量出版社, 1993

[46]王中宇,刘智敏,夏新涛,等测量误差与不确定度评定[M].北京:科学出版社, 2008

[47]张少伟有效数字的正确取位[J].电力标准化与计量, 1997(3):38,45

[48]李谦关于测量不确定度的有效位数和修约间隔[J].电力标准化与计量, 1998(1):4,19

[49]李谦数字修约间隔和修约规则[J].电力标准化与计量, 1998(2):5-7

[50]李维明测量不确定度自由度的评定方法及一般取值范围的探讨[J].工业计量, 2007,17(5):52-53

[51]山内二郎統計数値表(Statistical Tables and Formulas with Computer Applications, JSA-1972)[M].東京:日本規格協会JSA(Japanese Standards Association), 1972

[52]王正向标准偏差估值之极限分布及其应用[J].数学的实践与认识, 1983,13(1):20-33

[53]徐扬光关于总体标准偏差σ的估计精度分析[J].中国质量管理, 1983(2):19-21,31,18

[54]黄景祥几种标准差估计方法的精密度比较和评价[J].中国计量学院学报, 1995,6(S1):93-97

[55]周富臣,孙玉莲总体标准差σ的五种估计及估计精密度[J].计量技术, 2006(12):60-64

[56]周富臣标准偏差的六种估计及其精密度[J].上海计量测试, 2007,34(1):10-13

[57]陈树祥,朱洪海,杭雪珍正确认识贝塞尔公式[J].计量与测试技术, 2003,30(1)32,37

[58]庄正辉,吴先球,陈浩贝塞尔公式的推导及其物理意义探讨[J].大学物理实验, 2010,23(4):80-82

[59]林景星贝塞尔公式计算实验标准差的探讨[J].上海计量测试, 2011,38(2):44-45

[60]朱洪海关于随机误差标准差的几点思考[J].盐城工学院学报, 2001,14(4):20-21,28

[61]谷秀娥关于标准误差和标准偏差的讨论[J].大学物理实验, 2006,19(3):66-67,101

[62]邓永和中误差贝塞尔公式的推导[J].大地测量与地球动力学, 2009,29(3):128-130

[63]邓永和中误差贝塞尔公式推导的进一步研究[J].铁道勘察, 2009(5):8-9

[64]朱洪海对贝塞尔公式证法的探讨[J].计量与测试技术, 2001,28(6):8-9

[65]马美娟贝塞尔公式推导的再研究[J].佳木斯大学学报(自然科学版), 2011,29(2):290-291,295

[66]张本良贝塞尔公式用于估算函数误差的论证及其使用范围[J].武汉工学院学报, 1992,14(4):56-61

[67]朱安远用彼得斯公式估计总体标准差的误差分析[J].中国市场(物流版), 2012,19(19):28-31

[68][波兰]M费史概率论及数理统计[M].王福保,译.上海:上海科学技术出版社,1962

[69]周概容概率论与数理统计[M].北京:高等教育出版社, 1984

[70]张世英,刘智敏测量实践的数据处理[M].北京:科学出版社, 1977

[71]何永政质量检验不确定度与应用数理统计[M].北京:中国计量出版社, 2009

[72]樊顺厚正态分布的子样标准差过低估计了总体标准差[J].纺织基础科学学报, 1994,7(3):242-244

[73]樊顺厚,刘树琪子样标准差过低估计总体标准差[J].纺织高校基础科学学报, 1996,9(1):27-42

[74]黄景祥标准偏差的无偏估计及贝塞尔公式修正系数的简便计算[J].计量技术, 1990(6):36-38

[75]何克明贝塞尔公式修正系数的准确简便计算[J].计量技术, 2000(12):49

[76]王文周标准偏差的标准偏差有多大相对误差[J].四川工业学院学报, 2002,21(1):86-88

[77]倪育才实用测量不确定度评定[M].北京:中国计量出版社, 2009(第3版).

[78]陈成仁,刘智敏,王永泉实验标准(偏)差和平均值实验标准(偏)差意义解析[J].中国计量, 2010,15(1):96-98

[79]朱安远线性传感器静态性能指标的计算[J].冶金计量, 1990(4):32-35

统计学的标准差篇(2)

【关键词】 方差分析;效应量;标准均数差;假设检验

0引言

效应量(effect size)是一类用来描述处理效应的统计量. 在20世纪60年代,生物统计学家(cohen, 1965; hays,1963)就强调效应量的 应用 ,认为效应量是假设检验的补充[1]. 然而医学领域的绝大多数的研究者在报道结果时,往往仅提供假设检验的p值[2-3]. 1996年美国心 理学 会(apa)的统计推断机构tfsi建议报道研究结果时应同时提供处理效应的方向、大小及其的可信区间[4]. 1998年wilkinson和tfsi 建议对于主要结果必须报道效应量,即报道p值时同时应报道效应量[5]. 2001年美国心理学会(apa)科研手册上规定:论文的结果部分必须报道效应量[6]. 至今已有24种心理学、医学期刊要求研究者投稿时报道效应量[7]. 国内教科书对meta分析所涉及的效应量作了简单介绍,但对效应量的系统研究很少. 依资料类型和研究设计的不同,效应量又有很多种类,我们主要研究方差分析(anova)模型中常用的一类效应量-标准均数差(stan?dardized mean difference).

1材料和方法

1.1材料为研究不同的实验设计类型的标准均数差的计算方法,我们采用了bauman等[1]人的实验数据(表1). 该实验采用前后测量设计研究了66名四年级学生不同阅读习惯对理解能力的 影响 . 阅读习惯(研究干预)分为:单纯朗读(ta),阅读并积极思考(drta),阅读(dra),其中dra为对照组. 理解能力用错误检测任务(edt)的得分表示,干预前后两次测量结果用edt1, edt2表示. 该研究考虑了一个控制因素(即研究前的理解能力):各组前两列的学生研究前理解能力较低,后两列理解能力较高.

1.2方法在统计分析中,需要解决均数的对比(contrast) 问题 ,即一个研究有j个处理组,则均数的对比可以表示为:

ψ=c1μ1+c2μ2+…+cjμj(1)

其中, c1+c2+…+cj=0. ψ=μi-μj是最常见的对比. 对比含有量纲,与反应变量的量纲相同,不能直接用于不同研究间比较;而标准均数差无量纲,可用于不同研究间比较的效应量. 按反应变量的不同,可将标准均数差分为单变量和多变量标准均数差. 不同设计标准均数差计算方法如下:表166名四年级学生接受不同干预后edt得分情况

1.2.1单变量标准均数差

1.2.1.1单因素完全随机设计该设计的处理因素有j个水平,实验拟研究的问题可表示为对比(1),其标准均数差为:

δ=ψ〖〗σ(2)

总体参数δ的估计方法:用样本均数x估计总体均数μ, σ可以用准则一中的一种方法进行估计. 准则一:a设计中的某个处理组的标准差,常用对照组的标准差;b对比中所有处理组的合并标准差;c设计中所有处理组的合并标准差.

当对比中包含所有的处理组时,b, c得到的σ估计值相同,并与anova分析中误差均方(mse)正的平方根相等. 当所有处理组满足方差齐性条件时,c法是估计σ的最佳方法;当不满足时,用a法估计. hedges指出按照准则一估计的标准均数差是δ的有偏估计,需要乘以系数1-3/(4df-1)进行校正,其中df为用于估计σ的标准差或合并标准差的自由度[8].

1.2.1.2多因素设计该设计的因素可为干预因素(处理因素)和控制因素(非研究因素、混杂因素). 当所有因素均为干预因素时,标准均数差的计算与单因素完全随机设计相同. 多因素实验中若含有控制因素,如将控制因素与干预因素不加区别,按照准则一计算标准均数差时,会出现相同干预的效应量在不同实验设计间不可比的问题[1]. 根据所研究对比的特征,标准均数差的计算方法不同,如以2×2析因设计为例,见表2. 设实验含有:处理因素a(a1,a2),控制因素b(b1,b2).

表2含有控制因素的多因素设计标准均数差的计算方法

分析目的〖〗对比〖〗标准均数差的计算方法干预因素a的主效应〖〗ψ=1〖〗2(μa1,b1+μa1,b2)-1〖〗2(μa2,b1+μa2,b2)〖〗准则二:a. 按照干预因素分组,计算各组的标准差;b. 用准则一中的一种方法估计σ.干预因素a在b1水平

的单独效应〖〗ψ=μa1,b1-μa2,b1〖〗同准则二.因素a与b的交互作用〖〗ψ=(μa1,b1-μa2,b1)-(μa1,b2-μa2,b2)〖〗同准则二.控制因素b的主效应〖〗ψ=1〖〗2(μa1,b1+μa2,b1)-1〖〗2(μa1,b2+μa2,b2)〖〗准则三:a. 按照干预因素及对比中含有的控制因素分组,计算各组的标准差;b. 用准则一中的一种方法估计σ. 控制因素b在a1水平的

单独效应〖〗ψ=μa1,b1-μa1,b2〖〗同准则三.

多因素实验研究的对比可能仅含有控制因素,不含有处理因素,如在2×2×2析因设计中,对比为:

ψ=1〖〗2(μb1,c1+μb1,c2)-1〖〗2(μb2,c1+μb2,c2)(3)

其中,a为处理因素,b, c为控制因素. 仅含有控制因素对比的标准均数差计算方法:a按照实验研究的控制因素分组,计算各组的标准差,在对比(3)中,按照因素b分组;b用准则一估计σ.

1.2.1.3含有协变量的多因素设计协方差分析(anocva)通过建立协变量与反应变量的线性回归关系,对各组的反应变量的均数进行校正后,再进行假设检验. anocva标准均数差的计算方法为:用样本校正均数xc估计总体均数μ,将协变量作为控制因素,按照准则二来估计σ.

1.2.1.4含有重复测量因素的多因素设计含有重复测量因素的设计可分为:①仅含有1个或多个重复测量因素的设计;②含有重复测量因素和观测间因素的设计. 因为重复测量因素为处理因素,所以①中不存在控制因素引起的相同处理的效应量在不同实验设计间不可比的问题,标准均数差的计算方法,与因素为处理因素的设计相同. 含有重复测量因素和观测间因素的设计计算标准均数差时,将重复测量因素作为处理因素,如观测间因素含有控制因素按照表2中准则二或三计算.

1.2.2多变量标准均数差马氏距离在多元方差分析中即是一种多变量标准均数差. 马氏距离公式为:

d=d′r-1d

其中,d为单变量标准均数差向量,r为合并的组内相关矩阵. 实际计算中,马氏距离可以由多元检验统计量wilks?s λ计算得到:

d=df(1-λ)σk〖〗i=1c2i/ni〖〗λ(4)

其中:k为处理组数, ci, ni分别为i组对比系数和样本量. df的计算公式为:df=σni-k.

1.2.3标准均数差的解释标准均数差的解释准则不多,因为医学 研究 领域所涉及的 内容 很广泛,想给出普遍适用的准则,需要冒很大风险. cohen建议标准均数差为0.2时,效应为小,0.5为中等,0.8为大. 如果样本满足正态分布,总体间重叠的比例(percent of overlap, ol%),有助于标准均数差的解释. 若处理组与对照组的标准均数差为0.70,那么可认为处理组50%的研究对象反应变量值大于对照组76%的研究对象的值(图1).

图1标准均数差与ol%示意图

2结果

bauman等人的研究关心阅读 方法 ta和drta的平均效应与dra的差别(对比ψ1)以及阅读方法ta与drta的差别(对比ψ2).

ψ1=1〖〗2(μta+μdrta)-μdra, ψ2=μdrta-μta.

若仅考虑edt2和干预因素(阅读习惯),本例的研究设计为单因素完全随机设计. 表3为各组的均数和标准差,表4为对比ψ1, ψ2的标准均数差. 按照cohen准则,两对比均为中等效应. 校正后ψ2的效应量为0.697,可认为50%阅读并积极思考的学生的edt成绩高于76%的单纯朗读的学生成绩.表3各组edt1, edt2成绩表4单因素完全随机设计标准均数差

若将edt2作为研究的反应变量,考虑干预因素a和控制因素b(阅读能力),本例为析因设计. 为了便于公式的演算,假设干预因素为两水平(ta, drta),本例研究干预因素、控制因素的主效应、单独效应及两因素的交互作用. 这些效应的可以用表2中相应的对比表示,其标准均数差的 计算 见表5.表5多因素设计各组edt2成绩及标准均数差

若将edt2作为研究的反应变量,考虑干预因素,并将干预前的测量结果edt1作为协变量,本例为含有协变量的单因素设计(协方差设计). 通过协方差 分析 ,各组校正后的均数见表6. 按照校正均数计算对比ψ1, ψ2的标准均数差,见表6.

将edt作为研究的反应变量,考虑干预因素和重复测量因素,干预前后edt做了两次,重复测量因素有两水平,本例为含有1个重复测量因素的两因素设计. 不同阅读方式的效 应用 两次测量的差值表示,两对比ψ1, ψ2可以表示为:表6各组edt2成绩及标准均数差

ψ1=1〖〗2(μedt2,ta-μedt1,ta)+1〖〗2(μedt2,drta-μedt1,drta)-(μedt2,dra-μedt1,dra),

ψ2=(μedt2,drta-μedt1,drta)-(μedt2,ta-μedt1,ta).

根据表3,可计算对比ψ1, ψ2的标准均数差分别为1.018, 0.439.

将edt1, edt2作为研究的反应变量,考虑干预因素,本例为多元单因素完全随机设计. 对比ψ1,ψ2中的μ为均数向量,检验统计量wilks?s λ,可以用sas/glm contrast计算得到[9]. 由公式(4)可计算对比ψ1,ψ2的多元标准均数差d分别为1.228, 0.689.

3讨论

标准均数差是方差分析模型中常用的一类效应量,也是 目前 心 理学 、医学研究领域和meta分析中最常用到的效应量. 本文按照不同的实验设计,考虑相同干预不同设计间效应量的可比性,介绍了标准均数差的计算方法, 总结 给出了相应的计算准则,并给出了实例. meta分析常遇到研究干预相同、研究设计不同的情况下,效应量的计算 问题 . 本文介绍的标准均数差的计算方法可以很好的解决这一问题. 另外,本文介绍的标准均数差的计算可适用于两组和多分组的情况,有些资料和 文献 上针对两组资料的比较对标准均数差进行介绍. 专用于两组比较的标准均数差有:cohen?s d,glass?s δ,hedges?s g和cohen?s f2 [10].

尽管apa和24种期刊要求研究者进行假设检验时,必须报道一种或多种效应量作为其补充,但是对效应量能否帮助研究者或读者提供有关干预效应有无实际意义的信息,也有统计学家提出疑问[1]. cohen对标准均数差解释制定的准则,能否适用医学研究领域,也存在争议. cohen也建议统计学者制定其他的准则来解释标准均数差. 目前,国内的生物医学期刊还未要求报道效应量,国外对效应量的研究和报道较多,尤其是在心理测量领域的研究,并有关于效应量误用的分析报道,因此我国生物医学论文要求报道效应量是未来的 发展 趋势.

【 参考 文献】

[1] olejnik s, algina j. measures of effect size for comparative studies: applications, interpretations, and limitations[j]. contemp educ psychol, 2000,25(3):241-286.

[2] glaser dn. the controversy of significance testing: misconceptions and alternatives[j]. am j crit care, 1999,8(5):291-296.

[3] cohen j. the earth is round (p<0.05) [j]. am psychol, 1994,49(12):997-1003.

[4] /science/tfsi.html.

[5] wilkinson l. task force on statistical inference apa board of scientific affairs. statistical methods in psychology journals: guidelines and explanations[j]. am psychol, 1999,54(8):594-604.

统计学的标准差篇(3)

对于日常生活中的一组数据(包括出现的样本和总体)来说,我们不但要关心它的集中程度,而且还要关心它的离散程度. 通过本章对极差、方差、标准差的学习,可以帮助同学们更加全面地认识数据,从而能够对数据做进一步的处理并做出一定的推断、评论和预测. 在学习本章时,要能够理解一组数据极差、方差、标准差的含义,知道三个统计量之间的区别与联系;会计算极差、方差、标准差并能用它们来比较不同样本的波动情况;通过实践、探索活动,体会用三个统计量表示数据波动情况的合理性,并能用它们解决有关实际问题. 因此,本章学习重点:会计算一组数据的极差、方差、标准差;本章学习难点:应用极差、方差、标准差来解决有关实际问题.

一、 了解极差、方差与标准差的概念

一组数据中最大值与最小值的差,能反映这组数据的变化范围,这样的差叫做极差.

二、 理解极差、方差与标准差联系与区别

极差、方差和标准差都是刻画一组数据的离散程度统计量,它们具有各自的特点:极差是一组数据中最大值与最小值的差,因此,极差只能反映一组数据中两个极端值之间的大小情况. 方差或标准差反映了一组数据的波动大小,方差或标准差越大,数据的波动越大;方差或标准差越小,数据的波动越小. 必须注意的是:当两组数据的平均数相等或比较接近时,才能利用方差或标准差比较两组数据的离散程度.

由此可以看出:平均数相同的两组数据,极差大的一组数据方差不一定大.

三、 灵活应用极差、方差或标准差解决实际问题

例 为了声援扬州“世纪申遗”,某校举办了一次运河知识竞赛,满分10分,学生得分均为整数,成绩达到6分以上(包括6分)为合格,达到9分以上(包括9分)为优秀,这次竞赛中,甲、乙两组学生成绩分布的条形统计图如图所示.

统计学的标准差篇(4)

在各种医学期刊论文中,对统计学处理与统计指标的合理运用问题,已比过去有所重视,但尚存在不少问题。

(一)均数与标准差、标准误的合理运用问题

在医学论文中运用均数(表示各变量值平均水平与集中趋势)、标准差(表示变量值个体问离散情况与程度)和标准误(表示样本群体间差异程度,衡量抽样误差大小)的地方是很常见的,而达到合理运用尚存在一些问题。例如,在比较两样本统计量时只考虑平均水平(均值),而忽视了离散情况(标准差)和抽样误差(标准误);在正常值研究时,如资料近似正态分布,应当用均值加减K倍标准差(X±KS)来确定95%的正常值范围(K根据样本大小查K值表而定),应当标明标准误,而错用了标准差等。如《正常小儿三种不同剂量及正常成人50微克PHA皮试反应强度研究》一文中写道:“正常值范围为均值±2×标准误”。井写道:“小儿50微克组:均值±2×标准误=2.01~18.1毫米”。显然是错误地把标准误当成标准差用作估计正常值了。

(二)正常值研究中的几个问题

临床正常值确定方法依资料频数分布类型而定,主要有两种:一是均值加减标准差法适用于近似正态分布资料,二是百分位数法,适用任意分布资料。此外,角度资料(如脑血流图、心电图等的角度数据)运用圆形分布法,Poisson分布资料用Poisson分布法,正偏态分布资料用对数正态分布法等来处理。现今全国发表的一些医学论文中,正常值方面的问题也较多。引一些实例加以研究。

如在《迁延性、慢性肝炎患者植物血凝素皮试应用价值的探讨》一文中写道:“正常人甲组156人…平均值±标准误为15.4±0.4mm(平均值上标准差为15.4±5.6mm)。”那么,正常值是角标准误与标准差咖个统钎量来计算的呢?是加减1倍还是2倍标准差(或标准误)呢?作者均来说明。

又如《正常儿童尿游离α氨基酸氮的测定》一文,对1~13岁(分四个年龄组)125名正常儿进行研究,在正常值研究设计及分析时存在三个问题:(1)样本含量不足:如不同性别、不同年龄组的测定值仅据15人的结果而定正常值,显然是不妥的。作者针对各组结果矛盾现象,在讨论中两八提到“可能因例数太少,不能切实反映客观规律的缘故。”若按不同性别、年龄组确定正常值,一般要求每组100~12O人方能悦明问题。(2)错把标准误当作标准差用作估计正常值范围:文中说:“1~13岁正常儿童的游离α氮基酸氮/总氮%的均值可信限为:1.30±3×0.036,即1.19~1.41”。这里将标准误0.036当作标准差用作估计正常值了。正确的应是:“游离α氨基酸氮×l00/总氮%的95%正常值范围为1.30±2×0.4=0.~2.3。这里0.4是标准差。正常值范围在正态分布资料时,如考虑到样本大小及把握度,最好表达为单侧:+KS或-KS;双侧±KS。式中K值表(见周达生:医学问答,中华儿科杂志(4):245,1980)。(3)按性别、年龄组制订正常值问题:当研究对象有多个年龄组时,两组均数间比较用t检验,多组均数间比较可用F-Q检验,若差异显著,则需按不同性别、年龄组分别制订正常值。

(三)联系与因果

在临床实验研究中,经某种处理(如治疗)后受试对象出现某种反应(如治愈),并不能肯定是因果关系。有时比较两变量之间关系时,虽明显相关,但也不能断言其间有因果关系,只能说有一定统计联系(苏德隆:联系与因果。中华预防医学杂志13:106,1979)。在医学论文中甚至有不作相关回归分析就胃然下类似结论的。要了解有无因果关系,有时可进一步作回归分析(当然因果可表现为回归关系,但呈回归关系不一定是因果关系)。

(四)多组多级小值频数处理问题

在临床及动物实验研究中常遇到多组多级(R×C表)小值频数的比较,论文中大多忽视此类数据的合理统计处理,主要问题有:(1)未加适当统计处理,不考虑抽样误差而凭表面数字差别就轻易下结论。(2)处理方法不恰当。对此类数据可采用超几何概率计算法(见周达生:医学科研中乡组小值频数统计处理方法探讨。中华预防医学杂志(4):211,1980)、薛仲三氏X3检验公式(见薛仲三,医学统计方法和原理。366页,人民卫生出版社,北京1978)和秩和检验与等级指数法(黄镇南:等级型资料的三种统计分析方法,湖南医学院,长沙,1980)等。

(五)零反应的统计处理

两组计数比较,若一组有零反应,即出现0%或100%情况时,可用零反应公式处理。

统计学的标准差篇(5)

传统的仅凭卷面分数和平均分数评估学生学习成绩和教师教学效果的方法,带有片面性。因此,诸如由学生各科卷面总分排名来评定奖学金,确定毕业分配时的优先分配政策,由主观制定的卷面分数段的比例大小和仅由平均分数的高低评估教师效果的好坏,是不合理的,本文给出一种新的评估体系供大家参考。

一、平均分数体现整体水平

1、某班某学科的平均分数

x1=

2、求N个班某学科的平均分数应“加权”

x=

其中x表示加权平均数,ki表示第i班总人数,xi表第i班平均分数。

二、标准差反映平衡程度

除了解体现整体水平的平均分数外,还应了解每个人的分数离班平均分数的偏差大小。因此可以利用数理统计中的标准差计算公式

δ=

(其中x为卷面分数,x为平均分数,N为全班总人数)。例如,甲乙两班同一科的平均分数都是81.5分,标准差依次为9.2和10.3,从而知甲班比乙班要稳定些,发展平衡些。

三、“标准分”取代卷面分来评估每个学生学习成绩的总体水平

在评先、评优和奖学金中,常要比较学生成绩的优劣。例如:某班数学卷面平均分数为:x1=69.4,标准差为δ1=8.5。语文卷面平均分数为:x2=87.6,标准差为δ2=10.5。学生张某数学60分,语文94分。王某数学83分,语文68分,按传统的方法认为:张总分154比王151分多,因此张优先于王。这种评估是不合理的,原因是各科之间的卷面分数的参照点(零点)与单位都不同,不能相加求和来互相比较。

在现代的体育统计和有关统计文献中,都采用“标准分”(符号意义同上),即学生的成绩 与班平均分之差比标准差。这样能统一尺度,具有合理的可比性。如张和王的成绩可以合理的评估如下(表1):

表1

(注:习惯用正分,故一般取T=10Z+50,T分大约在20至80之间。它是把Z分扩大10倍,又往后平移50,消除了负数。)结果张两科总标准分95次于王97.3,与卷面分数结论相反,标准分反映学生在全体考分中的相对位置,故又称相对分。至于不同班级、不同学科的总分,由于试卷有难易之分等因素,更应采用标准分。

四、考试分数合理分布的评估依据

怎样评价一班的考试分数的分布是否合理,依据是什么?以前有关文献都认为:卷面分X是正态随机变量X~N(x,δ2),标准分Z服从标准正态分布Z~N(0,1)。但都没有加以论证或进行实际的统计分析。因此有些提法不尽妥当:因为样本平均分数x与样本标准差δ均为统计量,是随机变量,而正态分布的两个参数都是常数;如果X是随机变量,X~N(μ,δ12),X1,X2,∧XN是来自总体X的样本,则x是μ的无偏估计。δ是δ1的极大似然估计,一般地其观察值x≠μ,δ≠δ1,所以X~N(x,δ2)的提法不妥。而且也推不出Z~N(0,1)(证略)。

但是,通过多年来对我校各个教学环节情况比较正常的教学班的考试分数的统计分析发现标准分Z是近似服从标准正态分布的(有文献曾认为或假设Z近似地服从标准正态分布的说法)。由数理统计学可知:随机过程可以用族中的典型样本函数来表征。因此我们可以把Z近似地看作服从标准正态分布的随机变量,从而以标准正态分布作为评估学生考试分数合理分布的依据,根据“3δ”原则换算出标准分的合理分布评估依据:分段比例和累计比例。

转贴于

(1)分段比例:

T≤20的比例为0.0013

40<T≤60的比例为0.6826

30<T≤70的比例为0.9544

20<T≤80的比例为0.9974

T>80的比例为0.0013

(2)累计比例:

T≤30的比例为0.0228

T≤40的比例为0.1587

T≤50的比例为0.5000

T≤60的比例为0.8413

T≤70的比例为0.9772

T≤80的比例为0.9987

记:│(取T≤20的人数/总人数)-0.0013│=A1

│(取T>80的人数/总人数)-0.0013│=A2

│(取40<T≤80的人数/总人数)-0.6826│=A3

│(取30<T≤70的人数/总人数)-0.9544│=A4

│(取20<T≤80的人数/总人数)-0.9774│=A5

则ΣAi=A1+A2+A3+A4+A5的值越小说明说明分布越合理。并在记分册中增加“平均分”,“标准差”,“标准分T”三栏,以方便教学管理部门进行评估。

五、统计分析实例

以我校2005级会计一班数学成绩为例见表得知(见表2,表3),是基本符合标准正态分布的。同时发现,越是成绩好的学生,各科卷面总分和标准总分排名基本相同,且各科成绩越平衡;越是各科成绩不平衡的,卷面总分与标准总分排名就相差较大(如第3,24,26学号),由此说明由标准分来评估学生学习成绩的总体水平是合理的科学的。

表2:分段比例对照

表3:累计比例对照

六、总结

通过以上讨论和计算,可以得出以下结论:

1、在没转换成标准分之前,各科的分数是不能比较的。

2、用原始分高出平均分多少来衡量各科,也是很不科学的。

3、一旦转换成标准分,不但上述比较变得科学易行,而且各次考试之间也是应该比较的。如Z后次–Z前次=进步幅度。

4、平均分反映整体水平;标准差反映班级整体发展平衡程度;标准分反映学生个体各科发展的平衡程度。

4、分段比例和累计比例是学生成绩合理分布的评估依据。

5、统计数据与理论数据之差A1,A2,A3,A4,A5之和ΣAi是刻划合理分布程度的依据。

6、任何一次大型考试,不但要公布“平均分”,而且要公布“标准差”。这两个参数都是十分重要的。这样,各校,各班,个人在这个大系统中的地位都可以很容易的算出。

七、结束语

教学效果的评估,是“终端评估”,是教学管理的重要环节,它的合理性和准确度不但体现在变定性评估为定量评估,而且还依赖于教学“过程评估”的合理性。如试卷的难易程度,评卷的准确性与公正性,还有学生平时成绩的评定,考场纪律等。这都需要长期摸索和认真细致的统计分析。多年来,我们本着以抓“过程”保“终端”,以抓“终端”促“过程”的原则,在抓教学效果的评估的同时,在试卷评分方面也进行了一些改革和尝试,如运用美国数学教授T·L·Saaty提出的“层次分析法”和湖南农大的“加权评分法”,收到了一定的效果。

参考文献:

统计学的标准差篇(6)

中图分类号:TH824 文献标识码:A 文章编号:1671—7597(2013)022-051-2

1 惯性导航系统加速度计误差

捷联惯性导航系统属于一种隐蔽性很强、自主实时待命的导航系统,能够提供全天候连续监控功能。但是,随着时间的推移,捷联惯性导航系统的精度会逐渐降低。而且,导航系统精度降低的另外一个原因就是加速度计存在误差,因此,需要对导航系统加速度计进行误差标定补偿。

目前,对于惯性导航系统加速度计误差补偿方法的研究较多,补偿方案也各不相同。例如:基于椭圆球对惯性导航系统加速度计误差测量的方法,将多个姿态测试的加速度计得出的结果全部拟合到椭圆曲面中,使椭圆球的具体参数进行转换之后得到加速度计的偏置度和敏感度;或者基于重力场静态翻滚的测试方法,对导航系统加速度计的输入输出量进行测量,加速度计误差系数的辨识是通过最小二乘发法加权的形式得到的。但是,上述两种加速度计标定方法都是处于开箱状态标定,这种方法不但耗费大量资金成本,而且实际工作量很大。

加速度计误差包括两种,分别是随机性误差和非随机性误差。惯性导航系统加速度计的随机性误差主要是通过一阶马尔科夫过程构成,在实施标定的过程中,将其等效为零均值白噪声。非随机性误差属于惯性导航系统器件的特有属性,能够在一段时间内保持误差不变,因此,可以采取加速度计标定方法得到其误差模型,加速度计的误差共由四部分组成,分别是安装误差、常值误差、测量噪声和刻度因数误差。

2 惯性导航系统加速度计误差机理分析

在捷联惯性导航系统中,包括三个加速度计和三个陀螺仪,均直接装配于导航飞行器表面,按照相关要求,三个输入轴与机体正交坐标系中的三个输入轴相同。但是,器件安装过程中是无法完全避免误差存在的,因此,使得惯性导航系统加速度计坐标系全部成为非正交坐标系。将二维非正交坐标系变换成为三维非正交坐标系之后,可以通过利用两个参数对每个轴向的加速度计误差进行详细描述。和是根据以下方法进行确定的:沿着oxa 向 oxpyp平面作一个直面,得到相交线 ox'。是 ox'和两线之间oxp的夹角,是ox'和 oxa之间的夹角,如图1所示。

由此,得到惯性导航系统加速度计坐标系在正交坐标系的投影:

由于加速度计的安装误差角全部属于小量,因此可以表示为:

由此,得到加速度计安装误差角的矩阵:

加速度计的刻度因数误差指的是当加速度计以脉冲信号的形式输出时,需要根据相应比例计算得到实际加速度值数,其具体比例系数是利用测试方法获取的,由于惯性导航系统器件的实际比例系数与经过测试得到的比例系数不一定完全相同,由此导致测量误差的出现。当惯性导航系统加速度计的输入量为 时,由以下公式得到实际加速度测量值:

上式中,则作为惯性导航系统加速度计的刻度系数矩阵。加速度计零偏误差指的是当对加速度计的输入比例为零时其具体输出数值。通常情况下以作为加速度计的常见误差,以作为加速度计的测量随机噪声

3 惯性导航系统加速度计标定补偿方案

将某个标准装置确定为理想标准装置,以理想装置作为基准,在同一环境和条件下,对待测装置和标准装置的激励要选择相同的激励信号,并得到待测装置和标准装置各自的加速度输出量,对这些加速度输出量进行比较之后获得比较偏差,对加速度计误差系数的辨识通过待测装置输出值和比较偏差完成,将加速度计误差系数代入到模型中,同时对模型和装置进行激励,最终利用误差模型得到的输出对待测装置输出进行误差标定补偿,具体过程如图2所示。

整个加速度计标定补偿分为两个步骤,一是标定加速度计误差模型中的误差系数;二是通过已经获得的加速度计误差模型输出对待测装置加速度计的输出进行补偿。

3.1 加速度计车载激励方式

加速度计待测装置和标准装置的安装过程如下。

1)待测装置处于车载筒装导弹状态。

2)标准装置的精确度较高。

3)标准装置采用 xyz坐标系,待测装置采用xbybzb 坐标系。其中, xyz和xbybzb的指向相同。

通过加速度计车载激励实验证明设置车载激励方式,对惯性导航系统加速度计的激励能够满足车载激励实验要求。

如图3(a)所示,在水平路面上,车载筒装导弹沿着一个方向做加速运动或者减速运动,对 x轴产生车载激励,重力场也对加速度计 y轴产生车载激励。但是,z 轴方向加速度计敏感量等于零。

如图3(b)所示,在倾斜路面上,将其坡度设为,车载筒装导弹按照其路线行驶。在此种情况下,重力场对 x轴和y轴产生车载激励,z轴方向加速度计敏感量等于零,如果车载筒装导弹基于激励方式2继续行驶,对 x轴和 y轴产生的激励不同。

如图3(b)所示,在倾斜路面上,将其坡度设为°,车载筒装导弹按照其路线行驶。重力场对x 轴和 y轴产生车载激励, x轴方向加速度计敏感量等于零。

3.2 加速度计标定实施与仿真

上述文章中提到,车载激励方式分为三种,采用这三种车载激励方式分别对惯性导航系统加速度计进行激励。采取户外实验的方式,通过选择不同的路面坡度,车载筒装导弹以不同的速度在不同坡度路面上行驶,再将这些车载激励方式进行组合,从而获得不同的车载激励方式。与此同时,采集待测装置和标准装置的加速度计输出数值,以此得到更多组合的加速度计输出数值,当具有相同时刻时,比较待测装置和标准装置加速度输出数值,从而能够得到正确的惯性导航系统待测装置加速度计的误差数值。

本文对车载筒装导弹沿着不同路面坡度激励进行了仿真实验,假设惯性导航系统已经完成初始对准,当重力加速度为时,对加速度计进行标定补偿之前,惯性导航系统待测装置加速度计输出误差值数较大,但是经过加速度计标定补偿之后,精度提升比较明显,因此证明了本文提出的加速度计标定方案切实可行。

4 结论

综上所述,在分析了不开箱车载筒装导弹加速度计标定方法背景下,提出了一种开箱惯性导航系统加速度计误差标定方案,设计了详细车载激励方式和的标定补偿方案,通过仿真实验能够发现,本文采用的惯性导航系统加速度计标定补偿方案是行之有效的,而且,这种补偿方案在工程安装是比较容易实现,真正提高了惯性导航系统的测量精度。

参考文献

统计学的标准差篇(7)

中图分类号:R318 文献标识码:A

颈椎病也被称为颈椎综合征,是临床常见的多发病之一。随着信息时代不断发展和完善,颈椎病的患病率逐年增加,发展势态更是呈现出年轻化的趋势。长时间伏案工作,不良的习惯姿态以及缺少运动锻炼,都会使颈椎长时间压迫,积劳成疾,常给人带来疼痛无力的感觉,严重者甚至会对日常生活和工作产生较大影响,导致其他后果。介于手术会造成一定的创伤,且利用手术进行治疗有着十分严格的适应症标准,不列为首选考虑,牵引可以适用于任何类型的颈椎病,通过治疗可以缓解血管紧张度,促使血管中血流的畅通,增加一定的血流量,所以临床上颈椎牵引一般会作为首选的治疗方案,但因各种类型颈椎病特点不同,单一使用牵引治疗不具有针对性疗效有所偏差。

本研究探讨不同类型的颈椎病患者在颈椎牵引治疗后自我感X和颈部功能活动的改变,比较其疗效差异,在临床治疗中,符合病情的基础上酌情选择,更有针对性地选择适合的治疗方案。

1对象与方法

1.1研究对象

选取武汉市人民医院门诊收治的颈椎病患者共一百例,根据主诉核磁共振等影像学检查,肌电图检查和压顶试验、臂丛牵拉试验、旋颈试验等物理检查进行明确诊断。纳入标准:首诊且未接受过其他任何治疗方案者;知情同意并签署知情同意书。排除标准:颈椎结核患者和肿瘤患者以及严重骨质疏松患者还有陈旧性颈椎外伤或有外科手术史的患者还有部分椎动脉硬化患者及患有先天颈椎畸形的患者根据诊断分型进行分组,颈型、神经根型以及椎动脉型各二十五,交感神经型十五,脊髓型十。

1.2研究方法

颈椎牵引按照标准流程进行操作。仪器采用日本医用颈椎牵引仪,患者规定为端坐位,采用坐式枕颌带牵引,角度为颈部自躯干前倾十五到二十度,同时注意避免过伸,牵引时间每次三十分钟,牵引方式为间歇式,牵引力值为体质量的百分之十五到二十,首次量小之后可根据患者的耐受量进行调节,每日一次,十次为一个疗程,两个疗程后统计疗效。

1.3观察指标

疼痛指数观察应用疼痛视觉模拟评分对主观疼痛感觉进行评定;颈椎功能观察应用颈椎功能障碍指数,对颈椎现有颈椎功能和对生活工作等造成的障碍进行综合评定。

1.4评定标准

1.4.1 VAS评定标准

用一条游动标尺,十个刻度,一端为零,表示无痛;另一端为十,表示剧痛;中间以渐进方式表示不同程度疼痛。可以让病人凭借主观感觉指示其所承受的痛感与之对应的刻度上,以数值表示所感觉的疼痛程度。

1.4.2 NDI评定标准

评分量表中含有十个选项,每一个选项得分零到五分,零分表示无残疾,五分表示完全残疾,总分五十。量表从疼痛、自理生活能力、日常活动、工作、学习、娱乐几个角度出发,患者可根据自己的实际情况进行作答,得分与颈部功能成反比,即分数越高则颈部功能活动越差。

2结果

(1)五种颈椎病治疗前后VAS评分比较。不同类型颈椎病患者在治疗前后,评分都有明显的改变,后一次的评分均低于治疗前的评分,显示具有显著统计学意义,其中颈型患者恢复明显,疼痛明显减轻,而脊髓型较其余四种类型疼痛等级略高,不同类型颈椎病患者治疗前后评分比较。NDI治疗前十五点左右,治疗后二点二零左右。VAS治疗前七点六八左右,治疗后二点七二左右。

(2)五种颈椎病治疗前后NDI评分比较。治疗后的NDI评分均低于治疗前所进行的评分,具有显著统计学意义。

(3)五种颈椎病治疗疗效比较。

(4)脊髓型较其余四种疗效比较。从VAS评定标准看,脊髓-较颈型、神经根型具有显著统计学差异,脊髓型-椎动脉型、交感神经型结果无统计学差异;从NDI评定标准来看,脊髓型-颈型、神经根型、交感神经型具有显著统计学差异,脊髓型-椎动脉型结果无统计学差异。

脊髓型较其他四种类型颈椎病患者治疗前后P值。对照组颈型,VAS治疗前零点一七二,治疗后为零,NDI治疗前零点零七八,治疗后为零。神经根型VAS治疗前零点六二二,治疗后为零,NDI治疗前零点六七二,治疗后为零。

2.1椎动脉型较其余三种疗效比较

从VAS评定标准看,椎动脉型-颈型、神经根型具有显著统计学差异,椎动脉型-交感神经型无统计学差异;从NDI评定标准来看,椎动脉型-颈型具有显著统计学差异,椎动脉型-神经根型具有统计学差异,椎动脉型-交感神经型无统计学差异。

椎动脉型较其他三种类型颈椎病患者治疗前后P值。对照组颈型,VAS治疗前零点七八七,治疗后为零,NDI治疗前零点四三四,治疗后为零。

2.2交感神经型较其余两种疗效比较

从VAS评定标准看,交感神经型-颈型具有显著统计学差异,交感神经型-神经根型具有统计学差异;从NDI评定标准来看,交感神经型-颈型具有显著统计学差异,交感神经型-神经根型不具有统计学差异。

统计学的标准差篇(8)

室内质量控制是指实验室的工作人员采用一系列统计学方法,判断检验报告是否可以发出,以及排除质量环节中导致不满意因素的过程,其主要目的是控制测定工作准确性,提高常规工作中天(批)内和天(批)间标本检测的一致性[1]。室内质量控制的方法很多,本文对比了两种方法设置标准差,具体情况如下。

1 材料和方法

1.1 仪器和试剂 日立7180全自动生化分析仪及相应配套的各项目检测试剂,正常值质控物和校正物由英国朗道公司提供,进行天冬氨酸氨基转移酶(AST)、丙氨酸氨基转移酶(ALT)、碱性磷酸酶(ALP)、尿酸(BUA)、钙(Ca)、胆固醇(CHOL)、肌酸激酶(CK)、肌酐(Creat)、直接胆红素(DBIL)、乳酸脱氢酶(LDH)、镁(Mg)、磷(P)、γ谷氨酰转肽酶(γ-GT)、总胆红素(TBIL)、三酰甘油(TG)、总蛋白(TP)、尿素(Urea)、α羟丁酸脱氢酶(α-HBD)、葡萄糖(GLU)的室内质控。

1.2 方法 每天用日立7180全自动生化分析仪及各项目相配套的检测试剂,对质控品进行上述各项目的测定,以2012年2~7月份的累计均值作为2012年8月份的靶值和标准差,另一种方法是均值不变,以CLIA’88允许误差的三分之一推导出的标准差为标准差。两种不同的标准差设置方法均建立1evey-Jennings质控图,每天结果做levey-Jennings质控散点图,以West-gard多规则(13s、22s、R4s、41s、7tr、10)作为失控规则进行质量控制,比较两种不同的标准差设置方法的质控结果。

1.4 统计学方法 采用SPSS13.0统计软件进行统计分析,采用卡方检验,P

2 结果

2.1 两种方法失控例数比较 见表1。

2.2 两种方法警告和失控次数比较 见表2。

3 讨论

正确可靠的临床检验结果报告是临床医生诊治病人的重要科学依据,如果病人样本检测结果不准确,或导致医生判断失误,造成严重的医疗事故[2]。室内质控是室间质评的基础,只有保证了室内质控结果的精准,才能更好的开展室间质评。本文通过研究,汇总各项数据如下:用实际标准差方法得出的质控结果相对而言失控项目、失控数据、失控次数更多,结果具有统计学意义(P

统计学的标准差篇(9)

1. 精度概念问题

在测量仪器学科,精度乃精确度的概念,精确度乃精密度加之准确度。所谓精密度即多个测量结果的离散程度,反映测量结果对被测物理量的分辨灵敏程度,是由测量误差的分布区间的大小来评价,其主要来源于随机误差;所谓准确度是指多个测量结果的整体性偏差程度,其主要来源于系统误差,其表述方式就是系统误差或示值有效位。

基于精度包含精密度和准确度双重概念的相对笼统属性,精度是一个定性的概念,难以定量。譬如精度好精度差等。而定量也只能分别按精密度和准确度人为设限定量到分等级的程度,譬如精度甲级、乙级、丙级,S1级、S2级、S3级,J07级、J1级、J2级、J6级等等。也有按结果值的有效位进行精度等级分级的,譬如数字电压表(DVM)的3位半、4位半,A/D转换器的8bit、12bit、14bit等等。

但在测绘学科中,精度其实就是单纯的精密度的概念,是测量结果对其数学期望的离散程度的描述,不涉及真值,不包含准确度的概念,其表述方式就是标准差。

就是说,测绘学科中的精度实际只是测量成果的随机误差甚至是部分随机误差特性的描述,更多的是对测量过程的部分精度损失量的估计,根本不是对测量成果的绝对误差范围的描述!

正因为测绘学科的精度仅仅是测量结果对其数学期望的离散程度的描述,不涉及真值,所以才有了甚至降低测量分辨位反而可能实现更高精度的逻辑。譬如:将水准测量的原始读数将毫米位四舍五入到厘米位反而精度更“高”,将经纬仪的角度读数的秒位四舍五入到分位反而精度可能更“高”。生产中有人用S3级水准仪做沉降变形观测犯的就是这个错误。

显然,如果精度的评价过程涉及真值就不会出现这样的逻辑悖论。这也是多少年来计量学和测绘学之间的矛盾焦点。正因为精度概念存在着不统一,测绘成果经常给非测绘专业人士造成巨大误解。

2. 综合精度问题

这里姑且撇开其他学科不谈,姑且精度概念就是精密度概念。那么现在又有一个问题名词叫综合精度,由于没有找到这一概念的明确定义,只是在诸多仪器精度表述中经常见到。

然而从这些综合精度指标的测试方法却看到的是:经纬仪的所谓综合精度实际是把经纬仪的轴系误差、度盘偏心误差等进行了抵偿剔除处理、对调焦误差等进行了回避处理后的残剩误差的离散程度的评价,其实质实主要是对度盘刻画不均匀误差的一个单项误差的评价。而测距仪的综合精度是对加乘常数误差、周期误差等进行了改正剔除处理后的残剩误差的离散程度的评价。这样把主要的误差进行剥离处理后的残剩部分或单项指标冠之以“综合”指标的做法再次为精度一词加重了混乱。

3. 精度计算方法问题

不仅精度的计算方法是要将许多主要误差进行剥离剔除处理、具有一定的自我安慰色彩,而且在精度的起算数据的使用上也存在不加区别的问题。譬如:水准测量的一公里往返标准差这一精度概念被用做水准测量精度的评价依据其实就存在偷换概念色彩。

请注意,一公里往返标准差的直接原始起算数据是环路高程闭合差,而不是每一测量点的真误差!所以一公里往返标准差反映的是水准测量环路闭合差的离散特性,而不是水准测量点位误差的离散特性!拿环路闭合差的离散特性和测量点位误差进行直接关联或间接关联的做法实质就是把测量点位误差和环路闭合差进行了概念偷换。

最能证明水准测量点位误差的离散度和水准测量闭合差的离散度没有数学上的直接或间接关联的证据就是:(1)水准标尺的尺长比例改正误差(系统误差)对水准测量点位误差的影响是直接的,而它对水准环路闭合差却不产生影响;(2)测量参考起点本身的误差对每一个测量点的精度的影响是直接的,但它却也不影响环路闭合差;(3)仪器的分辨误差对每一测量点的精度的影响是直接的,但分辨误差足够大时却能导致闭合差为零。 正因为有了这样的以闭合差来评价精度,才有了甚至测量结果的精度反而比测量参考起点的“精度”更高的反逻辑,才有了“精度”越测越高的反逻辑,才有了经过绵延数千公里测量路径而“精度”丝毫不受损失。

这都是用于平差的统计起算原始数据不涉及真误差、不涉及真值的后果,是把测量过程的部分精度损失量偷换成测量结果的精度的后果。

实际上,测量成果的精度=测量参考源的精度+测量过程的精度损失量=测量参考源的精度+测量过程的系统误差损失量+测量过程的随机误差损失量。

所以一般的原理是:测量过程实际都是精度的损失过程,被测量的结果的精度不可能超过测量参考源的精度。

测量平差可以对测量结果的误差进行估计评价当然是无庸置疑的,但平差结果却因统计起算的原始数据不同而有着决然不同的含义:如果以真误差直接统计,则当然可以获得结果的总体误差评价;如果虽然以真误差为统计起算数据但却将系统误差模型纳入进行最小二乘平差,则获得的平差值将是测量结果的随机误差部分的评价;如果不以测量结果的真误差为统计起算数据,而以测量结果的组合值的真误差(譬如闭合差)为统计起算数据,则平差结果将可能只是测量过程的随机误差损失量的一部分的评价,因为测量结果的组合过程可能将结果中包含的许多误差进行了抵偿,这些被抵偿掉的误差当然不可能再在平差结果中反映出来。

许多测量仪器的工作过程,实际上也是进行了大量的多余观测,利用平差技术给出最佳估值的过程。

再回头看水准测量。

水准测量的一公里往返标准差是以环路闭合差为统计起算的原始数据,闭合差是观测值经过加减运算后的组合值,至少不涉及水准尺的尺长比例改正误差,至少不包含起算参考点的本身的误差,所以其实质只是测量过程的随机误差的损失量的一种描述,仅仅是测量成果的精度的一个组成部分而已。这种精度损失量用来肯定测量成果是必要而不充分的,但用来否定测量成果则是充分的。

而水准测量的从海平面验潮站的水准原点向内陆延伸的测量过程实质是一个精度不断损失的过程,是误差的不断积累的过程,是精度的不断降低过程。这种存在误差递延累积的测量方法恰恰是触犯了测量的大忌(当然在GPS测量原理未诞生之前的确找不到更好的大跨度范围的高程测量方法,而且GPS高程和水准高程属于不同体系),其绵延几千公里以后的误差积累值将是巨大的,许多水准点资料中提交的其实是计算保留位而不是精度的有效位,这是应该向非测绘学科明示的。

4 综述

统计学的标准差篇(10)

任职教育是当前军队院校转型期间的一种集中趋势,有利于加强教育的针对性,提升部队战斗力。在各种关于任职教育的文章中,鲜见有与数学相结合的论述。本文就一些部队管理的实际例子,抛砖引玉,说明结合应用数学能够跟深刻地看到一些数据背后隐藏的信息,让应用数学在任职教育研究的浪潮中得到更广泛的应用。

1.问题提出

问1 某中队政治理论考核,一排排长毕业于某部队本科院校,他所带的一班参加考核成绩分别为:62,66,74,85,55,60,52,72,89,83,班平均分为69.8,整个中队平均分为65分。问一班的考核成绩是否好一点?

问2 在某指挥学院的一次评教活动中,教务人员对某学员队一区队50名学员调查张、王两位教员的课堂教学哪位更受欢迎,调查结果如下:

张教员受欢迎率为P1=46%,王教员的受欢迎率为P2=54%,能不能说王教员比张教员更受学员欢迎呢?

要回答类似这样的问题,单纯的数字或百分比的大小已缺乏说理的力度,这就需要更进一步的理论,更深层次的挖掘数据内部有用的信息,做出进一步的评价,得出更可靠的结论,使得管理工作更科学,更具效率。

在实际的管理行动中,某些信息经过量化并形成一系列数据,这些数据本身不能说明什么问题,只有经过评价才会有实际意义,否则便是一堆抽象枯燥的数字。早在20世纪,广大管理工作者就已将应用数学的统计检验原理应用于各项管理工作,尤其是评价活动,至今已形成一个相当完善的评价体系。而军队院校由于有其特殊的原因,在这方面的研究及应用还处于初级阶段。本文是作者在具体的教学实践中,结合部队实际,收集相应数据,归纳整理了一些典型例子,初步探讨了数学在部队实际管理工作中的一些应用,让数学更好地在部队管理工作这个沃土中得到应用并服务于部队。

2.基本概念

2.1总体、样本和抽样

在数学统计中,我们把要研究对象的全体称为总体,如某中队全体战士、某次比武的全部成绩等等。把从总体中抽取出来的一部分个体叫样本,如从某个中队抽取某个班的战士进行测验,那么,这个班的战士就是样本。当然,为了准确研究内在的规律,我们最好对研究对象的全体(总体)加以研究。但这是一种理想化的设计,实际上是很难做到的。一般地,我们从总体中“公正合理”的抽取一部分进行分析研究,在此研究的基础上对全体对象的情况进行推论。通常的办法是采取随机抽样,这种方法最大的特点在于总体里的个体有相等的概率被抽到。

2.2平均数

平均数是使用比较广泛,也较为简单易懂的一种统计量,它能反映一组数据资料的某种集中水平。它包括算术平均数、加权平均数、几何平均数和调和平均数,我们这里主要介绍算术平均数。算术平均数是统计学中最易理解最常应用的一种集中量指标,定义为所有观察值的总和与总频数的商,简称为平均数,用x表示。设对某个变量的n次观察值分别为x1,x2,…,xn,则

x==x

例1 某班10名战士理论考核成绩分别为78,79,62,84,90,71,76,83,98,77,试求这个班理论考核的平均成绩。

解x=x=(78+79+62+84+90

+71+76+83+98+77)=79.8

2.3标准差

为了描述一组数据相对于平均状态的离散程度,即差异程度,我们引进标准差的概念。首先定义方差2的概念,方差是各数据与平均值的差的平方和的算术平均值,而标准差则是方差的平方根,用公式表示为:

2=∑(xi-x)2,=

标准差的值越大,表明这组数的差异程度越大;反之,则表明数据越整齐,分布范围越小。当然,反映差异程度还有其他量,但标准差是最科学、最完善的一个统计量,其最突出的一个特点是受抽样变动的影响较小。如例1的标准差为

==

=9.4

2.4标准分数

标准数据是将原始数据与其平均数之差除以标准差所得的商数。标准数据是度量原始数据离开平均数的量数,它可以表示一个原始数据在整体中的位置,即告诉我们它在平均数上多少个标准差,或在平均数下多少个标准差。标准数据又称Z数据,常用Zi表示,公式为:Zi=。

如例1中,原始数据90所对应的标准数为1.085。因为标准数是以标准差为单位的,所以它具有可加性与可比较性。

2.5正态分布

正态分布又称常态分布,它是一种应用广泛、又相当重要的概率分布。在实际生活中,凡由于偶然因素的作用而产生变异的数据分布都几乎是正态分布,如战士的考核成绩、智力水平等都服从正态分布或近似服从正态分布。正态分布是一种“两头小,中间大”的分布形态,其曲线方程为p(x)=e,其中为总体平均数,为总体标准差,如图。它的主要特点有:

1)正态曲线呈钟型,并且关于x=对称;

2)对于确定的,当大时,曲线平缓,说明变量取值比较分散,当小时,曲线陡峭,说明变量取值大都集中在的附近;

3)Z落在(-,+)内的概率是68.26%,落在(-2,+2)内的概率是95.46%,落在(-3,+3)内的概率是99.73%。

2.6显著性水平

在实际研究中,应用所收集的数据计算结果时,往往会存在差异。但这种差异是来自于真正的总体差异,还是来自于抽样误差造成的差异呢?因此,我们必须进行检验。统计检验的一个重要内容就是差异的显著性检验,即在某种标准下去衡量差异是否显著。如果检验的结果属于差异显著,那就意味着两个统计量来自于两个有差异的总体;如果检验的结果属于差异不显著,那就意味着两个统计量来自于一个总体或两个没有差异的总体。

统计检验的核心思想是反证法。在检验时,我们先假设两个统计量没有差异(如1=2),这种假设称为零假设,记为H0,然后通过特定的方法检验其是否成立。如果差异大,就否定H0;如果差异小,就接受H0。一般地,数学上习惯以概率p

3.应用举例

3.1录取分数的确定:

由录取率p0可以确定录取分数x,其具体步骤为:p0p=0.5-p0Zx

例2 某总队进行招生考试预考,干部处某干事对所得数学成绩进行了统计,平均分为65,标准差为12,拟确定录取率为12%,且该次考试的最小记分单位为0.5,则录取分数线应划为多少分?

解p0=0.12,则p=0.5-0.12=0.38,查Z值表,可得对应的Z=1.18,又Z=,则x=Z·+=1.18×12+65=79.16。

考虑到数学分数的最小记分单位为0.5,所以录取分数线划为79.5,而不是79分。

评:利用该方法确定录取分数,避免了传统方法中“数个数”、“凭感觉”的盲目性,在遇到大样本时更具优越性。

3.2 Z检验——Z检验是在大样本(n≥30)的条件下,利用服从正态分布的统计量Z进行检验。

模型(1)样本平均数与总体平均数的差异性检验,其目的是为了检验一个样本是否来自原总体。检验步骤如下:

i、提出假设H0:=0,H1:≠0

ii、计算统计量Z=或Z=(其中S为样本标准差)

iii、确定显著性水平及检验形式,采用双尾检验,

若|Z|

若|Z|≥1.96,则在=0.05水平上拒绝H0,接受H1;

若|Z|

若|Z|≥2.58,则在=0.01水平上拒绝H0,接受H1;

例3 某指挥学院聘请地方老师担任指挥管理大专一区队45人的高等数学授课任务,期末考试一区队平均分为82分,而全校此专业的平均分为76分,标准差为12,问这个区队的数学成绩是否好一点?

解:假设H0:=76,H1:≠76,计算Z===1.12,

|Z|

即这个区队的数学成绩与整个专业的成绩一致,即外聘教员并没有从本质上提高这个区队学员的成绩。

评:聘请地方老师上课,是某指挥学院实施教改的一项重要举措,但由于地方老师不了解部队学员实际,责任心不强,无考核压力及无监督措施等问题,可能得不到预期效果,故一定要完善各个环节的措施,使之得到预期效果。

模型(2)两样本平均数差异性检验。

例4 张教员担任学员一队两个区队各40人的高等数学课授课任务,其中一区队采用多媒体教学,期末考试成绩统计如下:一区队平均分为74,标准差为15,二区队平均分为71,标准差为10,问这两个区队的数学成绩有无显著差异?

解:假设H0:1=2,H1:1≠2,计算Z===1.05

|Z|

即两个区队的数学成绩并无显著差异,即张教员采用多媒体教学并没有取得显著效果。

评:教学多媒体化,是某指挥学校教改目标之一,但由于各课程的内在特点不一样,使用多媒体教学取得的效果也就不一致。例如强调抽象思维的高等数学课,采用直观的多媒体教学,取得的效果相对就差一点。

3.3T检验——T检验是在小样本(n

i、提出假设H0:=0,H1:≠0

ii、计算统计量t= ,其中S=

iii、确定显著性水平及检验形式,根据自由度df=n-1,通过查t值表确定双尾临界值t1,

若|t|

下面,我们以问1为例进行说明。

例5 某中队政治理论考核,一排排长毕业于某部队本科院校,他所带的一班参加考核成绩分别为:62,66,74,85,55,

60,52,72,89,83,班平均分为69.8,整个中队平均分为65分。问一班的考核成绩是否好一点?

解:假设H0:=65,H1:≠65,n=10

1.17

综上所述,T检验适用于小样本容量,而Z检验适用于大样本。小样本灵活简便,但不可避免的伴随着抽样误差的产生。随着计算机技术的飞速发展,由于样本容量的大小而造成的计算上的限制几乎可以忽略不计,故我们一般以Z检验为主。

3.4相关性分析

相关是指两个变量之间的相互关系,可分为三种类型:正相关,负相关与零相关。相关性可用相关系数r表示,|r|越靠近1,说明这两个变量的相关性越密切,计算公式为:

例6 某支队干部股参谋从参加2007年参加招生考试的战士中随机抽取15名,分析他们的数学预考成绩X与正式统考成绩Y之间的相关性,数据如下:

解:

由此可见,预考成绩与统考成绩之间有密切的关系。

评:从最后结果来看,预考成绩与正式统考成绩之间存在密切的相关性,所以招生预考应该引起足够的重视;也从某个侧面揭示了军队院校数学考试的一大特点——以基本知识点的识记与简单应用为主,广大考生只要在复习中抓住常考的基本知识点,以不变应万变,即可较满意的成绩。上述计算过程,形式看上去很复杂,实际上各项数据的求和计算只须简单应用Excel表格即可得到,故相关系数的计算量其实是很小的,也较易被非专业人员掌握。

3.5总体比率的显著性检验

百分比率的抽样分布实际上是二项分布,但当(1)p=0.5,无论n的大小,或(2)np,nq中一个最小频数等于或大于5,这时的比率抽样分布近似于正态分布,标准差为p=(其中p为总体的比率,q=1-p),这样就可以转化成我们已讨论过的Z检验问题,此时的检验量为Z==。

下面我们以本文开头提出的问2为例。

例7 在某指挥学院的一次评教活动中,教务人员对某学员队一区队50名学员调查张、王两位教员的课堂教学哪位更受欢迎,调查结果如下:

张教员受欢迎率为P1=46%,王教员受欢迎率为P2=54%,能不能说王教员比张教员更受学员欢迎呢?

解:假设张、王两位教员的受欢迎率相等,即P=50%,q=1-p=50%,

计算Z====-0.8,

|Z|=0.8

评:评教活动中的受欢迎率的显著性检验,比原始数据中的百分比更具说服力,参谋人员不可简单的以百分比的大小直接得出结论,这种结论只是面上的,无法更深层次地揭示数据内部的隐含的信息。

3.6回归分析

如果两个变量之间存在较高的相关性,那么我们总是希望能从一个变量的变化去预测或推断另一个变量的相应变化。通常,我们把一个变量记为自变量x,另一个记为因变量y,建立二者之间的数学表达式y=f(x),从而我们可从自变量x的一个取值去估计因变量y取值。这一完整的分析和计算过程称为回归分析。

若两个变量之间存在线性关系,我们可以通过最小二乘法确定一条直线y=+bx,使得这条曲线代表相关散点图上的散点分布的集中趋势,使得各散点到该直线的纵向距离的平方和为最小。下面,我们结合例6的数据来说明其具体应用。

例8 某支队干部股参谋从参加07年招生考试的战士中随机抽取15名,已分析预考成绩与统考成绩之间存在较高的相关性,试确定回归方程。

解:

故回归方程为y=+bx=9.957+0.881x,若已知某战士预考成绩为75,则可预测其统考成绩为76。

评:预测成绩是相关领导、教员、考生非常关心的问题,可以大致推断某个人的潜能或发展水平,为进一步选拔人才初步确立一个标准。

4.结束语

将统计检验原理应用于部队管理实际,是一个新的尝试,其应用前景非常看好。虽然缺乏数理统计知识会觉得这些理论很抽象,甚至不可思议,但随着计算机技术的飞速发展,将之编成一个个简单的应用程序,非专业人员只须输入数据,即可得出答案,并作出相应评价。因此,在任职教育的大环境中,要加强对一些常见问题作数学上的提炼、归纳、整理并建模,注重日常积累,让应用数学的核心思想体现在部队实际,服务于机关与广大基层,使之发挥更广泛的作用。

参考文献:

[1]现代教育统计与测评技术,全,宋乃庆主编,西南师范大学出版社

[2]概率论与数理统计教程,魏宗舒编,高等教育出版社

[3]教育信息处理原理,薛理银编,北京师范大学出版社

[4]现代教育科研方法与应用,邵水良、庄允吉、童国飞主编,宁波出版社

上一篇: 高校食堂安全管理 下一篇: 中医基础研究
相关精选
相关期刊