当前位置:主页 > 生物医药 > 文章内容

检测数据处理基础知识-1

作者:中华医学网发布时间:2017-10-14 09:37浏览:

误差及相关概念 → 真实值与标准值

  误差是测量值与真实结果之间的差异,要想知道误差的大小,必须知道真实的结果,这个真实的值,我们称之“真值”。  


1. 真实值
  从理论上说,样品中某一组分的含量必然有一个客观存在的真实数值,称之为“真实值”或“真值”。用“μ”表示。但实际上,对于客观存在的真值,人们不可能精确的知道,只能随着测量技术的不断进步而逐渐接近真值。实际工作中,往往用“标准值”代替“真值”。
  2. 标准值
  采用多种可靠的分析方法、由具有丰富经验的分析人员经过反复多次测定得出的结果平均值,是一个比较准确的结果。
  实际工作中一般用标准值代替真值。例如原子量、物理化学常数:阿佛伽得罗常数为6.02×10 等。
  与我们实验相关的是将纯物质中元素的理论含量作为真实值。
1. 准确度
  准确度是测定值与真实值接近的程度。
  为了获得可靠的结果,在实际工作中人们总是在相同条件下,多测定几次,然后求平均值,作为测定值。一般把这几次在相同条件下的测定叫平行测定。如果这几个数据相互比较接近,就说明分析的精密度高。
  2. 精密度
  精密度是几次平行测定结果相互接近的程度。
  3. 精密度和准确度的关系
  (1)精密度是保证准确度的先决条件。
  (2)高精密度不一定保证高准确度。
 
 1. 误差
  (1) 定义:个别测定结果X 、X …X 与真实值μ之差称为个别测定的误差,简称误差。
  (2) 表示:各次测定结果误差分别表示为X -μ、X -μ……X -μ。
  (3)计算方法:
        绝对误差
        相对误差
  对于绝对误差——测定值大于真值,误差为正值;测定值小于真值,误差为负值。
  对于相对误差——反映误差在测定结果中所占百分率,更具实际意义。
  2. 偏差
  偏差是衡量精密度的大小。
误差的分类 → 系统误差
1. 定义
  由某种固定的原因造成的误差,若能找出原因,设法加以测定,就可以消除,所以也叫可测误差。
  2. 特点
  具有单向性、可测性、重复性。即:正负、大小都有一定的规律性,重复测定时会重复出现。
  3. 产生原因
  (1)方法误差:分析方法本身所造成的误差。方法误差是由于某一分析方法本身不够完善造成的。如分析过程中,干扰离子的影响没有消除。
  (2)操作误差:由于操作人员的主观原因造成的。如滴定分析时,每个人对滴定终点颜色变化的敏感程度不同,不同的人对终点的判断不同。
  (3)仪器和试剂误差:仪器误差来源于仪器本身不够精确。例如天平两臂不等长,砝码长期使用后质量改变。试剂误差来源于试剂不纯。
  注意:系统误差是重复地以固定形式出现的,增加平行测定次数不能消除。
 
误差的分类 → 随机误差
随机误差由某些难以控制、无法避免的偶然因素造成。也称偶然误差。
  1. 特点
  大小、正负都不固定,不能通过校正来减小或消除,可以通过增加测定次数予以减小。
  2. 产生原因
  操作中温度变化、湿度变化、甚至灰尘等都会引起测定结果波动。
  系统误差和随机误差划分不是绝对的,对滴定终点判断的不同有个人的主观原因,也有偶然性。随机误差比系统误差更具偶然性。分析工作中的“过失”不同于这两种误差。它是由于分析人员操作时粗心大意或违反操作规程所产生的错误。
 
随机误差的正态分布

  1. 分布曲线
  y:概率密度,表示测量值在此处出现的概率。y越大,出现的可能性越大。x:测量值。
  μ总体平均值:无限次数据的平均值,相应于曲线最高点的横坐标值,表示无限个数据集中趋势。在没有系统误差时,它就是真值。
  σ总体标准偏差:总体平均值到曲线两转折点之一的距离,表征数据分散程度。σ小,数据集中,曲线又高又瘦,σ大,数据分散,曲线比较矮比较胖。
  x-σ:随机误差。若以x-σ为横坐标,则曲线最高点对应横坐标为0。
  对于一条曲线来说, μ和σ是这条曲线的两个参数,所以用N(μ,σ)表示这条曲线。这条曲线可以用一个函数式表示。
  2. 概率密度函数
  
  3. 随机误差规律性
  (1)小误差出现的概率比大误差多,特别大的误差出现的概率极少。
  (2)正误差和负误差出现的概率是相等的。
  4. 标准正态分布:
  横坐标用u表示,其定义式为:
  即:以σ为单位来表示随机误差。
  函数表达式为:
  
  因此曲线的形状与σ大小无关, 不同的曲线都合并为一条。
  记作N(0,1)

随机误差的区间概率

  1. 定义
  随机误差在某一区间出现的概率以某段正态分布曲线下所包含的面积表示。
  一条完整的正态分布曲线所包含的面积,表示所有测量值出现的概率的总和,即是100%,等于1。用算式表示为:
  
  一般以 为单位,计算不同 值曲线所包含的面积,制成概率积分表供直接查阅。
  2. 计算公式
   概率=面积=
  
 
 

有限数据的统计处理

  随机误差分布的规律给数据处理提供了理论基础,但它是对无限多次测量而言。实际工作中我们只做有限次测量,并把它看作是从无限总体中随机抽出的一部分,称之为样本。样本中包含的个数叫样本容量,用n表示。
 


数据的趋势 → 数据集中趋势的表示
 1. 算术平均值
  n次测定数据的平均值。
  
   是总体平均值的最佳估计。对于有限次测定,测量值总朝算术平均值 集中,即数值出现在算术平均值周围;对于无限次测定,即n → ∞时, →μ。
  2. 中位数M
  将数据按大小顺序排列,位于正中间的数据称为中位数M。
  n为奇数时,居中者即是;n为偶数时,正中间两个数据的平均值即是。
 
数据的趋势 → 数据分散程度的表示
 1. 极差R(或称全距):指一组平行测定数据中最大者(Xmax)和最小者(Xmin)之差。
  R = Xmax - Xmin
  2. 平均偏差:各次测量值与平均值的偏差的绝对值的平均。
  绝对偏差 di = Xi - (i =1,2,…,n )
  平均偏差
  相对平均偏差
  3. 标准偏差S:计算方法
  标准偏差S =
  相对标准偏差,也叫变异系数,用CV表示,一般计算百分率。
  相对标准偏差RSD = ×100 %
  自由度f:f = n-1
平均值的置信度区间 → 定 义
 1. 置信度
  置信度表示对所做判断有把握的程度。 表示符号:P 。
  有时我们对某一件事会说“我对这个事有八成的把握”。这里的“八成把握”就是置信度,实际是指某事件出现的概率。
  常用置信度:P=0.90,P=0.95;或P=90%,P=95%。
  2. 置信度区间
  按照t分布计算,在某一置信度下以个别测量值为中心的包含有真值的范围,叫个别测量值的置信度区间。
 
 1. t的定义
   ,与 对比。
  2. t分布曲线
  (1) t分布曲线:t分布曲线的纵坐标是概率密度,横坐标是t,这时随机误差不按正态分布,而是按t分布。
  (2) 与正态分布关系:t分布曲线随自由度f变化,当n→∞时,t分布曲线即是正态分布。   

t分布曲线
  【t分布值表】
  由表可知,当f→∞ 时,S→σ,t即是u。
  实际上,当f=20时,t与u已十分接近。
  3. 平均值的置信度区间:
  (1) 表示方法:
  (2) 含义:在一定置信度下,以平均值为中心,包括总体平均值的置信度区间。
  (3) 计算方法:
    ① 求出测量值的 ,S,n。
    ② 根据要求的置信度与f值,从t分布值表中查出t值。
    ③ 代入公式计算。
 

显著性检验 → 平均值与标准值比较

  常用的方法有两种:t检验法和F检验法。
  分析工作中常遇到两种情况:样品测定平均值和样品标准值不一致;两组测定数据的平均值不一致。需要分别进行平均值与标准值比较和两组平均值的比较。