在做一些预测的时候常常会用到国家统计局的数据,之前写的一些爬虫也没能够复用,今天又遇到了这个问题,反复检查之后发现国家统计局的各种数据其实都遵循同一套逻辑,而只需掌握这一个逻辑,我们便可以想要啥就要啥。
经典https
不安全🤪🤪🤪🤪🤪
一进到这个网站我立马熟练的点开了,各项数据分类,这里有国家月度数据,国家年度数据,国家季度数据,也有分各个省的数据。
我今天对2021的出生率死亡率非常感兴趣,于是我立马快速切换到年度数据。
随后飞速的在左侧侧边栏找到人口指标下的人口出生率、死亡率和自然增长率。
我也如期拿到了数据
但是总感觉过程不够丝滑,我能不能让这个过程更高效一点?
我打开了F12
神奇,冒充开发者。
结果发现原来发现,不论什么数据基本都是同一个接口:
https://data.stats.gov.cn/easyquery.htm
paramters = { "m": "QueryData", "dbcode": "fsnd", "rowcode": "zb", "colcode": "sj", "wds": [], "dfwds": [{"wdcode":"zb","valuecode":"A0303"}], "k1": 1651675561678 "h": 1, }
这请求方法是GET,参数又只有这么几个,那么如果我解析了这几个参数,我岂不是想爬什么爬什么,想爬什么时间段就爬什么时间段?
m
:无需多言,就是请求数据dbcode
:我是在想不出这个单词表示的意义,不过当我看到后面fsnd
的时候,我知道这应该是分省年度
的缩写,我想这大抵对应首页的几个数据种类。rowcode
:直译为行编码,一看后面的字,原来是zb
招标啊,colcode
:直译为列编码,后面的sj
应该是时间的缩写wds
:不明所以dfwds
:不明所以,不过这个字段和上面wds
应该很重要k1
:为时间戳h
:好像就是一个常量简单分析之后我立马上试了一试
OK的完全没有问题,那么接下来就是指定需求了:
dbcode
即可实现预想一次性处理所有指标,那么就先得对指标的命名情况有一个了解
dfwds: [{"wdcode":"zb","valuecode":"A0302"}]
在dfwds
中我们发现那个熟悉的词语拼音缩写,zb
指标,后面的应该就对应于这个指标的代码
可以发现A0302
完美对应这个指标在指标树中位置。同时我观察到10号元素不是A10
而是A0A
,所以可以得出大部分数据都是满10进A随后按照字典序提升。
官网只提供了一段时间的爬取,但是我想要任意时间段的数据。尝试查看了近20年数据之后,我发现这里的dfwds
变了,现在变成了时间索引,且valuecode
也 变了,变成最近20,我自然联想到直接把20改一改,没准就能行。
果然如期返回了!那我们的推断没有错。
现在我想爬取任意一个指标的任意时间段的数据,经过测试发现原来dfwds真的是一个数组,可以放多个条件
"dfwds": "[{"wdcode":"zb","valuecode":"A0202"},{"wdcode":"sj","valuecode":"LAST50"}]"
把指标信息和时间约束都加到这个字段,从而实现了我们最初的需求。
我立马写成代码测试
python nationStatisticdata.py --zb A0302 --sj LAST50 --dbcode hgnd --output 湖北省人口出生死亡自然增长.csv
非常顺利哈哈哈哈!
GitHub
: https://github.com/HuangXingjie2002/Mush-Spider