GRE数据分析|描述数据的数值方法

2021年5月1日18:12:44 发表评论 116 次浏览

数据可以通过各种统计或统计方法进行数字描述。这些统计量度通常分为3类:

1. Measures of central tendency
2. Measures of position
3. Measures of dispersion

中心倾向测度:

在统计中, 集中趋势(或集中趋势的度量)是概率分布的集中值或典型值。也可以称为分布的中心或位置。

集中趋势的量度表示数据沿数字线的"中心", 通常以表示数据的值形式报告。共有三种集中趋势的常用度量:

  • 算术平均值, 通常称为平均值或简称为平均值
  • 中位数
  • 模式

1.

算术平均值

:

这是集中趋势的众所周知的度量。平均值是给定数据集的平均值。要计算n个数字的平均值, 请取n个数字的总和除以n。

未分组数据的均值可以定义为

分组数据的平均值:

其中

f是每个类别的频率,

x是每个班级的中点,

n是总分数

例子:

列表中有16个数字, 表示存在平均值(平均值)

2, 4, 4, 5, 7, 7, 7, 7, 7, 7, 8, 8, 9, 9, 9, 9

说明:

有6个不同的值, 因此可以认为是加权平均值, 因为在列表中重复了几个值。因此2次发生1次, 4次发生2次, 5次发生1次, 7次发生6次, 8次发生2次, 9次发生4次

Mean

2.

中位数

:

平均值仅会受到远高于或低于其余数据的几个值的影响, 因为这些值直接影响数据的总和, 进而也影响平均值。相比之下,

中位数

是一种集中趋势的度量, 相对于其余数据, 该趋势基本上不受异常高或低值的影响。

中位数是一组数据的中间值。要计算n个数字的中位数, 请从最小到最大对数字进行排序。

  • 如果n为奇数, 则中位数为中间数
  • 如果n是偶数, 则中位数是两个中间值的平均值

分组数据的中位数:

Median =

其中

L是包含中位数的组的下层边界,

n是数据总数,

B是中位数组之前的组的累积频率,

G是中位数组的频率,

w是组宽度

例子:

考虑6个数字找到均值和中位数用38替换8, 然后再次找到均值和中位数

4, 4, 5, 7, 8, 8

说明:

这里n是偶数

Median = avg (value at (n/2) + value at (n/2)+1)
Median = 

And, Mean =

现在将38替换为8, 中位数将保持不变, 即6, 但均值会受到影响。

Mean =

3.

模式

:

模式是一组观察中最频繁出现的值。列表1、3、6、4、3、5中6个数字的模式为3, 因为3的频率大于所有其他元素。

例子:

查找各部分的模式

(a) 1, 2, 4, 7
(b) 1, 1, 2, 2, 3, 4

排布:

(a) There is no mode (mode = none)
(b) There are 2 modes in this case 1, 2 (mode = 1, 2)

位置测量:

从最小到最大的顺序排列的数字数据列表中有三个最基本的位置或位置

  • 起点或最小值L
  • 终点或最大值G
  • 中值或中值M

除了这些最常见的头寸衡量方法是

  • 四分位数
  • 百分位数

(一种)。四分位数:

四分位数是一个统计术语, 用于描述将观察结果分为四个定义的时间间隔。在数据从最小值L到最大值G排序之后, 四分位数将数据分为四个相等的组。存在三个四分位数, 分别称为第一个四分位数, 第二个四分位数和第三个四分位数, 将数据分为四个大致相等的组。

GRE数据分析|描述数据的数值方法1

数字

Q_1,Q_2,

Q_3

如下将数据分为4个大致相等的组。数据按升序排列后, 第一组包括从L到

Q_1

, 第二组来自

Q_1

to

Q_2

, 第三组来自

Q_2

to

Q_3

, 第四组来自

Q_3

到G。

有多种规则可以确定

Q_1,Q_2

Q_3

。基本上

Q_2

is

中位数

。对于

Q_1

Q_3

将数据按升序排列:

Q_1

是有序列表中数据前半部分的中位数,

Q_3

是有序列表中数据后半部分的中位数,

例子:

找到四分位数以获取16个数字的列表,

2, 4, 4, 5, 7, 7, 7, 7, 7, 7, 8, 8, 9, 9, 9, 9

说明:

Median() = 
 = 7

对于

Q_1

Q_3

将数据分为两个较小的组。第一组现在包含2、4、4、5、7、7、7、7, 而第二组现在包含7、7、8、8、9、9、9、9,

= 6 (average of 6 and 7)
 = 8.5 (average of 8 and 9)

在此示例中, 我们可以说4在第一四分位数(或第一组)中, 8在第三四分位数(第三组)中, 而9在第四四分位数中。短语"在四分位数中"是指位于由

Q_1,Q_2

Q_3

.

(b)。百分位数:

百分位数通常用于按从最小到最大的顺序排列的非常大的数字数据列表, 而不是四组, 而是将数据分为100个相等的组。 99个百分点

P_1,P_2,P_3,P_4 ...... P_9_9

将数据分为100个相等的组。这里,

= 
 = 
 =

竞争性考试的百分数计算如下:

Percentile = (number of people behind you /total number of people) x 100

分散措施:

离散度表示数据的扩散程度。最常用的分散性统计数据是:

  • 范围
  • 四分位间距
  • 标准偏差

1.范围:

范围反映了数据的最大传播范围。一组数据中数字的范围是数据中最大数字G和数据中最小数字L之差;那是,

Range(R) = G-L

有时, 与其他数据相比, 数据值异常小或异常大。这样的数据称为离群值。离群值是与其他观察值有显着差异的数据点。离群值与其余数据相距甚远。范围受异常值影响

例子:

给出五个数字的查找范围,

11, 10, 5, 13, 21

说明:

Greatest number (G) = 21
Least number (L) = 5
Range (R) = 21-5 = 16

2.

四分位间距

:

四分位数间距定义为第三四分位数与第一四分位数之间的差。那是,

Q_3-Q_1

。它测量数据中间部分的传播, 并且不受异常值的影响。

3.标准偏差:

标准差是对价差的度量。它是数字分布程度的一种度量。符号是

\ sigma

。数据越远离均值散布, 标准偏差就越大;并且数据越围绕均值聚类, 则标准偏差越小。

一组数值数据的标准偏差可以计算为:

  1. 计算值的平均值,
  2. 找到平均值和每个值之间的差异,
  3. 平方每个差异,
  4. 找到平方差的平均值,
  5. 取平方差平均值的非负平方根,

参考均值, 方差和标准差


一盏木

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: