基础概念
方差是每个样本值与全体样本值的平均数之差的平方值的平均数,计算公式如下:
标准差是方差的平方根。因此,标准差定义为:
标准差与原始数据的单位相同,因此更容易理解。简单来说,标准差可以描述一组数据与其平均值的分散程度。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值
相关函数
在 DAX 中,有几个聚合函数可用来计算总体的方差和标准差,例如 STDEV、VAR 等。以下是相关函数的语法结构:
VAR.S( <column> ) VAR.P( <column> ) VARX.S( <table>, <expression> ) //VAR.S 的迭代函数版本 VARX.P( <table>, <expression> ) //VAR.P 的迭代函数版本 STDEV.S( <column> ) STDEV.P( <column> ) STDEVX.S( <table>, <expression> ) //STDEV.S 的迭代函数版本 STDEVX.P( <table>, <expression> ) //STDEV.P 的迭代函数版本
.P 后缀和.S 后缀(分别代表总体和样本)的区别在于执行计算的公式。以.P 结尾的函数对总体使用,其假定筛选上下文中的数据代表整个总体。如果当前数据表示总体的样本时,必须使用以.S 结尾的函数,公式略有不同:
和其他以 X 结尾的聚合函数一样,当表达式是比单列更复杂的引用时,应该使用 VARX 和 STDEVX。如果计算只需要引用单列,可以使用 VAR 和 STDEV。
例如,下面的度量值计算每种颜色销售额的标准差,图中显示了包含该颜色销售额 95%的值范围。
[Average Qty] := AVERAGE ( Sales[Quantity] ) [StDev.P Qty] := STDEV.P ( Sales[Quantity] ) [StDev.S Qty] := STDEV.S ( Sales[Quantity] ) [Min Qty] := MIN ( Sales[Quantity] ) [Max Qty] := MAX ( Sales[Quantity] ) [Distribution] := "95% between 1 and " & ROUND ( [Average Qty] + 2 * [StDev.P Qty], 2 )
如你所见,标准差是在假设总体的一个样本值(STDEV.S)比整个总体(STDEV.P)的计算值稍高的情况下计算的。这会扩展计算结果的估计分布范围,即使是在 Distribution 注释中做了四舍五入而没有表现出明显差异的情况下。
正态分布95%的置信区间下限应该是平均值减去2倍标准差吧?不应该是平均值吧?
老师,这里为何是95%的值范围,可以理解为取样数是总体的95%么?