背景

本文是我在电子表格大会分享内容的文字总结，如果你是第一次阅读，可以通过下文了解一下背景知识。
Excel 你能分析这么多数据吗？（活动预告）

测试目的本次测试目的并非与其他数据分析方法对比优劣、而是尝试介绍一种完全基于 EXCEL 的本地化大数据集处理方式。

分析师处理大数据集时常用方式

本次演示的方式

这种方式的优点

低成本。减少工具间的切换成本，直接使用 Excel 作为存储和分析工具。
展现灵活。展现端继续使用 Excel，发挥它灵活、自定义程度高的优势。
便于交付。其他方式得到的结果为了便于交付，还要导出为 Excel，而现在整个分析流都在 Excel 内部完成。
结果可交互。PowerPivot 相当于一个存储了源数据的 OLAP 引擎，通过控制切片器等外部筛选条件，可以迅速、动态的查看结果，使用其他方法，可能需要返回分析端改变计算条件重新导出。

测试项目一：数据导入和耗时

向 Excel 导入大数据，有两种方式：

PowerPivot 导入，直接导入，不支持数据转换和清洗操作。
PowerQuery 导入，在导入前可以对数据做预处理。

本次使用的测试数据集共有 19 列，有多列需要进行格式转换和日期提取操作，使用第一种方式，需要导入后在 PowerPivot 内部进行，使用方式二可以在载入前完成，很明显的是，对于方式二，预处理步骤越多，加载时间会越长。下图展示了不同量级不同导入方式的耗时情况（单位：秒）

为了直接对比 PowerQuery 和 PowerPivot 的加载效率，增加了一个*号方式，这种方式不对数据做任何清洗转换，直接加载到模型，与 PowerPivot 步骤相同。

通过导入过程观察到的现象

对比前两行结果，PowerQuery 的数据导入效率与 PowerPivot 不分伯仲。

PowerQuery 没有数据量的限制，而 PowerPivot 不到导入超过 2G 的文件。

清洗步骤和数据量的增多，都会显著增加 PowerQuery 的导入时间，比如一亿行数据，即使三个简单的清洗步骤，用时已经超过了 30 分钟

结论

PowerPivot 导入方式使用的是 Access 连接器，受限于 Access 文件本身的限制，不能导入超过 2G 的数据，这也说明，PowerPivot 数据存储能力超过了 Access。

PowerQuery 是轻型 ETL 工具，处理大数据集性能不强。

如果尝试使用 Buffer 函数缓存数据，会发现这个缓存过程非常漫长，实际上，Buffer 函数并不适合缓存大数据集，因为无法压缩数据，内存可能会很快爆掉。

测试项目二：文件压缩比率

影响文件压缩比率的因素，主要是数据集本身的特征和 PowerPivot 引擎的性能

结论

数量级越大，压缩比率越高。

同一数据量级，清洗步骤越多，最终文件会越大，并且随着数据量的增加，这种现象会越明显。

测试项目三：数据分析的效率 – 简单分析

我们真正关心的内容是，Excel 能否快速、高效的对大数据集开展分析。

简单分析定义的场景：逐月统计有多少位顾客发生了购买。做法是把年和月拖入透视表行字段，将 CustomerKey 拖入值区域，修改值汇总方式为统计不重复值。

测试发现，即便使用一亿行数据，这个计算过程的用时也很短，小于 1s。于是我增加了一点难度，加入两个切片器对结果做交叉筛选，计算用时仍然小于 1s，看来 PowerPivot 处理这类分析比较轻松，最终此项测试没有计时。

测试项目四：复杂分析效率 – 新客户统计

统计新客户数量，逻辑是：逐月计算当月产生购买的顾客中，有多少是新客户（第一笔购买发生在当月）。为了获取 PowerPivot 引擎的计算用时，测试在 DAX Studio 内完成，同时为了模拟透视表的计算结果，需要对原度量值的写法做一点改动。

EVALUATE
ADDCOLUMNS (
    CROSSJOIN (
        VALUES ( '1 亿'[Order`Date (年)] ),
        VALUES ( '1 亿'[Order`Date (月索引)] )
    ),
    "newcustomers",
    VAR currentcustomer =
        CALCULATETABLE ( VALUES ( '1 亿'[CustomerKey] ) )
    VAR oldcustomer =
        FILTER (
            currentcustomer,
            CALCULATE (
                MIN ( '1 亿'[Order`Date] ),
                ALLEXCEPT ( '1 亿', '1 亿'[CustomerKey] )
            )
                < CALCULATE ( MIN ( '1 亿'[Order`Date] ) )
        )
    RETURN
        COUNTROWS ( EXCEPT ( currentcustomer, oldcustomer ) )
)
ORDER BY
    '1 亿'[Order`Date (年)],
    '1 亿'[Order`Date (月索引)]

计算用时（毫秒）

二次运算的用时指的是首次运算结束后，不清空缓存再次执行重复计算所花费的时间。相比第一次运算，节约时间在 30%左右。原因是 DAX 的两个引擎中，有一个可以缓存计算结果，被缓存的内容可以在之后被公式内部调用，也可以跨公式调用。

结合这个知识，对 DAX 的表达式进行优化，可以获得更好的性能表现，下面是新客统计优化之后的写法，我们来对比计值时间的变化。

EVALUATE
ADDCOLUMNS (
    CROSSJOIN (
        VALUES ( '1 亿'[Order`Date (年)] ),
        VALUES ( '1 亿'[Order`Date (月索引)] )
    ),
    "newcustomers2", COUNTROWS (
        FILTER (
            ADDCOLUMNS (
                VALUES ( '1 亿'[CustomerKey] ),
                "DateOfFirstBuy", CALCULATE (
                    MIN ( '1 亿'[Order`Date] ),
                    ALLEXCEPT ( '1 亿', '1 亿'[CustomerKey] )
                )
            ),
            CONTAINS (
                CALCULATETABLE ( VALUES ( '1 亿'[Order`Date] ), ALL ( '1 亿'[CustomerKey] ) ),
                '1 亿'[Order`Date], [DateOfFirstBuy]
            )
        )
    )
)
ORDER BY
    '1 亿'[Order`Date (年)],
    '1 亿'[Order`Date (月索引)]

优化后计算用时（毫秒）