从数据到信息
从信息到洞察

计算方差和标准差

基础概念

方差是每个样本值与全体样本值的平均数之差的平方值的平均数,计算公式如下:

标准差是方差的平方根。因此,标准差定义为:

标准差与原始数据的单位相同,因此更容易理解。简单来说,标准差可以描述一组数据与其平均值的分散程度。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值

相关函数

在 DAX 中,有几个聚合函数可用来计算总体的方差和标准差,例如 STDEV、VAR 等。以下是相关函数的语法结构:

VAR.S( <column> )
VAR.P( <column> )
VARX.S( <table>, <expression> )  //VAR.S 的迭代函数版本
VARX.P( <table>, <expression> )  //VAR.P 的迭代函数版本
STDEV.S( <column> )
STDEV.P( <column> )
STDEVX.S( <table>, <expression> )  //STDEV.S 的迭代函数版本
STDEVX.P( <table>, <expression> )  //STDEV.P 的迭代函数版本

.P 后缀和.S 后缀(分别代表总体和样本)的区别在于执行计算的公式。以.P 结尾的函数对总体使用,其假定筛选上下文中的数据代表整个总体。如果当前数据表示总体的样本时,必须使用以.S 结尾的函数,公式略有不同:

和其他以 X 结尾的聚合函数一样,当表达式是比单列更复杂的引用时,应该使用 VARX 和 STDEVX。如果计算只需要引用单列,可以使用 VAR 和 STDEV。

例如,下面的度量值计算每种颜色销售额的标准差,图中显示了包含该颜色销售额 95%的值范围。

[Average Qty] := AVERAGE ( Sales[Quantity] )
[StDev.P Qty] := STDEV.P ( Sales[Quantity] )
[StDev.S Qty] := STDEV.S ( Sales[Quantity] )
[Min Qty] := MIN ( Sales[Quantity] )
[Max Qty] := MAX ( Sales[Quantity] )
[Distribution] := "95% between 1 and " & ROUND ( [Average Qty] + 2 * [StDev.P Qty], 2 )

即使它们的平均值相同,每种颜色的分布也略有不同

如你所见,标准差是在假设总体的一个样本值(STDEV.S)比整个总体(STDEV.P)的计算值稍高的情况下计算的。这会扩展计算结果的估计分布范围,即使是在 Distribution 注释中做了四舍五入而没有表现出明显差异的情况下。

5
说点什么

1000
 
鼓掌微笑开心憧憬爱你色并不觉得吃瓜doge二哈喵喵思考笑哭捂脸悲伤大哭抓狂汗偷笑打脸捂眼黑线问号晕拜拜闭嘴衰咒骂ok作揖
2 评论数
3 被回复的评论
2 订阅评论的人数
 
查看最近回复
查看最热评论
  订阅本文评论  
最新 最旧 得票最多
提醒
成员
185****5613

正态分布95%的置信区间下限应该是平均值减去2倍标准差吧?不应该是平均值吧?

成员
159****5378

老师,这里为何是95%的值范围,可以理解为取样数是总体的95%么?

DAX 圣经

导读

初识 DAX

DAX 基础知识

DAX 原理

DAX 高级原理

基础函数类型

迭代函数

CALCULATE 函数

CALCULATE 调节器

基础表函数

条件判断函数

查找匹配函数

时间智能函数

统计类函数

投影函数

分组/连接函数

集合函数

其他函数