从数据到信息
从信息到洞察

命运的成人礼 – 高考数据可视化报告

一年一度高考季

这是一篇解读型报告,我尝试通过图文结合的形式,从多个维度解读高考,报告使用的图表全部来自 Power BI 图表库,文章结尾提供了 web 版报告链接,可以在线体验。

Part 1 数说高考

    • 1966 年 6 月  中国终止了高等教育招生制度
    • 1977 年 10 月  中国恢复高等院校招生制度
    • 1977 年全国报考人数 570 万, 录取人数 27 万
    • 1978 年全国报考人数 610 万, 录取人数 40.2 万

 

改变人生的命运的成人礼 - 高考 数据可视化报告
1. 全国高考报名人数在 2008 年达到创纪录的 1050 万人,之后几年持续下降,2014 年开始稳定在 940 万,直到 2018 年迎来一个小高峰

2. 今年,高考人数创下了自 2010 年后的新高,975 万的报名人数相比去年增加 35 万人,增幅 3.72%
改变人生的命运的成人礼 - 高考 数据可视化报告
3. 随着高等教育的普及,高考整体录取率在 2000 年前后开始显著上升(柱形图颜色加深),2013 年达到 76%的历史高点,之后稳定在 75%的水平。

各省变化:西南地区报名人数逆势增长,河南领跑全国无悬念
改变人生的命运的成人礼 - 高考 数据可视化报告
2018 年,有 10 个省份报名人数超过了 2008 年的巅峰期,增长最快的省份来自于云、贵、川等西南地区(将鼠标悬停在地图上方,可以观察到该省份的历史趋势)

西南地区工业化、城镇化步伐较慢,人口出生率比较高,人口拐点相比发达地区到来的晚,再加上教育发展滞后,高考人数拐点也相应滞后。

户籍人口第一大省河南今年报名总人数 98.38 万人,逼近百万,比去年增加 11.8 万人,创历史新高,广东、山东、四川等考生大省紧随其后。

下图你可以观察到最近九年以来各省报考人数的变化(单位:万人)
改变人生的命运的成人礼 - 高考 数据可视化报告2017 录取率:地狱模式难分伯仲,京津沪优势明显

录取率是衡量一个地区高考难度的主要指标,如果说以总录取率论难度是耍流氓,那么重点院校的录取情况无疑更有代表性。

以含金量较高 985 院校为例,2017 年,河南、安徽和贵州三省(下图红色)的录取率最低, 低于 1.2%,庞大的考生数量和优质教育资源的缺乏使得这些地区的考生竞争尤为激烈,集中了全国优质高校资源的北京、上海和天津则毫无悬念的以最高的录取率领跑全国。

改变人生的命运的成人礼 - 高考 数据可视化报告

 

31 省市近十年录取分数线查询

改变人生的命运的成人礼 - 高考 数据可视化报告
抓取了最近 10 年全国各省的录取线数据,通过稍后给出的报告链接,大家可以自助查询。

Part 2 志愿填报

改变人生的命运的成人礼 - 高考 数据可视化报告
“生活就像一盒巧克力,你永远不知道下一秒会得到什么”这句话原本是阿甘妈妈哄孩子用的,现实则是另一个截然不同的版本,我们曾经以为,走出高考的那一刻,可以暂时松一口气了,不料生活反手就是一巴掌:慢着,知道志愿怎么填吗?从过来人的故事中 也许能获得一些启发

改变人生的命运的成人礼 - 高考 数据可视化报告

志愿填报工具

对于大多数人,高考填报志愿第一次真正意义上将人生的选择权掌握在自己手中,是顺从长辈意志还是勇敢追随自己的爱好,永远没有标准答案。因为谁都不知道如果当年做出的是另外一个选择,人生将走向何方。
不过,虽然报志愿要考虑的因素非常多,我倾向于认为它们的重要性是有先后的:城市>学校>专业

毕竟网上流传着这么一句真相:包邮江浙沪、追星北上广

为了尽可能呈现决策过程需要考虑的变量,我采集了以下数据:

学校数据:2600 多所本专科院校、包含一流院校/一流学科、985、211、院校类型、直属部门等分类信息
城市数据:2600 多所院校所在城市等级,使用第一财经 2017 年的城市分级。
专业数据:教育部学科排名、双一流学科
薪酬数据:TOP200 院校毕业生薪酬及排名(供参考)
录取分数线:972 所院校分省市、分批次、分科目的过去十年的录取分数
经纬度:2000 多所院校的地理坐标,用于定位学校准确位置

基于以上数据,制作了下面的志愿填报辅助工具,
通过过滤器之间的交叉筛选,筛选出一批初步符合条件的学校列表,
然后自定义每个维度的权重,为每个学校计算得分并以此排名,最终得到符合个人需求的学校。
设置一个估分预测功能,手动调整分数,工具对每个院校计算一个过线概率,当然这里面没有什么复杂的预测,结果只作参考。

步骤 1:维度分布统计和院校初筛

改变人生的命运的成人礼 - 高考 数据可视化报告
桑基图统计了两个相邻维度间的院校数量分布,受限于对数据集的要求,多层桑基图不能直接筛选模型,我在每个类别下面放置了对应的筛选器,用于初步筛选。例如,筛选位于一线城市和新一线城市的 211 综合类大学列表。

步骤 2:筛选学科排名

改变人生的命运的成人礼 - 高考 数据可视化报告
基于《教育部 2017 全国高校学科评估结果》,展示出该专业的全国院校实力排名,从 A+ 到 C-  一共九个等级。帮助你按照专业进一步筛选学校。同时,上方的初筛结果也会过滤学校,不在初筛条件内的院校不显示在学科排名中。

步骤 3: 计算个性化权重得分

改变人生的命运的成人礼 - 高考 数据可视化报告调高城市级别项目的权重,一线城市院校得分增加。

选择学校是极具个性化的选择,为了能模拟这一过程,我引入了 5 个自定义变量:为每个学校计算权重,总得分是 5 项滑杆因素的加权平均数。
向右拖动滑杆则此项指标的权重增加,反之权重下降;当权重值为 0 时,此项指标不参与计算;当每项分值相同时,权重相同。
每项因素的内部成员已经预设了得分且不能修改,例如重点院校类别:985>211>本科>专科。
学科级别权重在筛选学科后生效,此时表格将只显示有学科排名的院校

步骤 4:预估分数和算法
改变人生的命运的成人礼 - 高考 数据可视化报告
拖动滑杆改变分数,你可以在右侧表格的过线预测字段观察到当前分数的过线概率是高还是低,模型使用你预估的分数为每个院校计算过线概率,并实时返回预测结果,是个很有意思的功能,属于 what-if 切片器的实战应用。

这个过线概率的预测并没用什么高深的算法,我使用预估分数与每个院校在用户选择的省份、批次和科目这三个约束条件下的距今最近年份的录取分数进行比较,比最低分高 25 分或比平均分高 15 分都算做高过线概率。

步骤 5:查看院校历史录取线

经过初筛、权重得分排序和估分预测后,已经可以筛选出几所条件还不错的学校。在这一步,选择一所列表中的院校,通过查看每个院校的历史录取数据,我们来进一步研判录取形式。
改变人生的命运的成人礼 - 高考 数据可视化报告
注:录取线需要在选定省份、录取批次和文理科后才会显示,因为不同的学校有各自的录取批次,这一项需要特别注意。

步骤 6:查看院校准确位置和周边环境

改变人生的命运的成人礼 - 高考 数据可视化报告

注:value 字段可以忽略

最后

志愿填报是典型的多变量综合决策过程,配合 What-if 切片器,在 Power BI 里可以模拟出一个简单的填报模型。受限于个人时间和精力,报告还有很多不完善之处,但这本身是个值得尝试的方向。昨天在学员群里内部分享了这个报告,有人提到自己准备用 Power BI 给女儿的班级做成绩查询系统,这就是很有意义的尝试。学以致用,才能实现工具的价值。

数据获取
报告使用的所有数据全部来自网络,我用 PowerQuery 抓取了大部分数据,除去个别数据因为量太大,考虑到抓取效率我改用了其他工具。

在线版报告地址

点此全屏浏览

欢迎大家试用在线版报告,在评论区留下自己的意见

数据来源&参考文献

  1. 高考网  www.gaokao.com
  2. 中国教育在线高考频道  http://gaokao.eol.cn/gkbm/
  3. 搜狐教育频道 :2017 各地高考录取人数与录取率排行,差距竟这么大?
  4. 第一财经.:各省高考报名人数变化:西南地区增速最猛 城镇化潜力大
  5. 新东方在线:历年高考人数和录取率统计
  6. 中国薪酬网:2018 年中国大学毕业薪酬 TOP-200 排名榜
  7. 第一财经 2017 年版中国 338 城市分级榜单
  8. 中国教育在线:双一流建设高校及学校名单
  9. 感谢林燕和倪瑞芹对报告的建议

1
说点什么

1000
 
鼓掌微笑开心憧憬爱你色并不觉得吃瓜doge二哈喵喵思考笑哭捂脸悲伤大哭抓狂汗偷笑打脸捂眼黑线问号晕拜拜闭嘴衰咒骂ok作揖
1 评论数
0 被回复的评论
1 订阅评论的人数
 
查看最近回复
查看最热评论
  订阅本文评论  
最新 最旧 得票最多
提醒
游客
孙先生

学习一下