Posts 第四章 数据的概括性度量
Post
Cancel

第四章 数据的概括性度量

1.简述众数、中位数和平均数的特点及联系。important

答:(1)众数、中位数和平均数的特点:

① 众数
众数是一组数据中出现次数最多的变量值。众数是一组数据分布的峰值,不受极端值的影响。众数具有不唯一性,一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。众数主要用于测度分类数据的集中趋势,也适用于作为顺序数据以及数值型数据集中趋势的测度值。一般情况下,只有在数据量较大的情况下,众数才有意义。
② 中位数
中位数是一组数据排序后处于中间位置上的变量值。它将全部数据等分成两部分,每部分包含50%的数据,一部分数据比中位数大,另一部分则比中位数小。中位数是一个位置代表值,特点是不受极端值的影响。主要用于测度顺序数据的集中趋势,也适用于测度数值型数据的集中趋势,但不适用于分类数据。
③ 平均数
平均数也称为均值,它是由一组数据相加后除以数据个数所得的结果。平均数的主要特点是易受数据极端值的影响,对于偏态分布的数据,平均数的代表性较差。平均数在统计学中具有重要的地位,它利用了全部数据信息,是集中趋势的最主要测度值,它主要适用于数值型数据,而不适用于分类数据和顺序数据。

(2)众数、中位数和平均数的联系:
众数、中位数和平均数都是用来度量数据的集中趋势的数值。从分布的角度看,众数始终是一组数据分布的最高峰值,中位数是处于一组数据中间位置上的值,而平均数则是全部数据的算术平均。对于具有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下关系:

① 如果数据的分布是对称的,众数($M_o$)、中位数($M_e$)和平均数($\bar x$)必定相等,即$M_o=M_e=\bar x$;
② 如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠,而众数和中位数由于是位置代表值,不受极值的影响,此时$\bar{x}<M_e<M_o$;
③ 如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠,此时$\bar{x}>M_e>M_o$。

2.简述衡量数据离散程度的统计量有哪些,并说明各自的适用范围。important

答:离散程度是在统计学上描述观测值偏离中心位置的程度,反映了所有观测值偏离中心的分布情况。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差;离散程度越小,其代表性就越好。离散程度的指标主要有:

(1)异众比率($V_r$)
异众比率是指总体中非众数频数与总体全部频数之比,即非众数组的频数占总频数的比例,用Vr表示。异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。异众比率主要适合测度分类数据的离散程度。
(2)四分位差($Q_d$)
四分位差,也称为内距或四分间距,它是上四分位数与下四分位数之差,用Qd表示。四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位差不受极值的影响。四分位差主要用于测度顺序数据的离散程度。
(3)极差($R$)
极差又称全距,是指一组数据的观察值中最大值与最小值之差,用R表示。用公式表示为:极差=最大观察值-最小观察值。极差是描述数据离散程度的最简单的测度值,计算简单,易于理解,但它容易受极端值的影响。由于极差只是利用了一组数据两端的信息,不能反映出中间数据的分散状况,因而不能准确描述出数据的分散程度。
(4)平均差($M_d$)
平均差是指一组数据中的各数据对平均数的离差绝对值的平均数,用Md表示。平均差以平均数为中心,反映了每个数据与平均数的平均差异程度,它能全面准确地反映一组数据的离散状况。为了避免离差之和等于零而无法计算平均差这一问题,平均差在计算时对离差取了绝对值,以离差的绝对值来表示总离差,这就给计算带来了不便,因而在实际中应用较少。
(5)方差($S^2$)与标准差($S$)
统计中的方差(样本方差)是各个数据分别与其平均数之差的平方和的平均数,它在数学处理上是通过平方的办法消去离差的正负号,然后再进行平均。标准差为方差的平方根。方差(或标准差)能较好地反映出数据的离散程度,是实际中应用最广的离散程度测度值。
(6)离散系数
离散系数又称变异系数,它是一组数据的标准差与其相应的平均数之比。当进行两个或多个资料变异程度的比较时,如果各样本的度量单位、平均数相同,可以直接利用标准差来比较。当各样本的单位或平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。

3.简述标准化值的意义及计算公式。

答:变量值与其平均数的离差除以标准差后的值称为标准分数,也称标准化值或z分数。其计算公式为:$z_i=(x_i-\bar{x})/s$式中$z_i$为变量$x_i$的标准化值,$\bar x$是该组数据均值,s为该组数据的标准差。
标准分数可以测量每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群数据。比如,如果某个数值的标准分数为-1.5,就知道该数值低于平均数1.5倍的标准差。在对多个具有不同量纲的变量进行处理时,常常需要对各变量进行标准化处理。实际上,z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而只是将该组数据平均数变为0,标准差变为1。

This post is licensed under CC BY 4.0 by the author.

第五章 概率与概率分布

第三章 数据的图表展示

Comments powered by Disqus.