3.4 爬取数据以JSON格式进行存储_Python数据预处理技术与实践-QQ阅读男频科幻网

上QQ阅读APP看书，第一时间看更新

上一节介绍了如何分析网页数据并爬取数据，得到数据以后如何进行存储呢？本节主要介绍JSON格式数据的本地化存储，具体操作步骤如下。

使用pipline.py文件作为管道文件，负责处理Spider中获取到的实体特征信息，并进行存储。这里需要导入JsonItemExporter模块进行JSON操作，然后在JsonExporterPipleline方法中执行具体的写操作，完整的代码如下：

在setting.py设置文件中修改方法的执行优先级。数字从小到大，数字越小，优先级就越高，具体设置如下：

运行main.py文件，实现本地JSON文件存储。执行完成后，打开articleexport.json文件查看结果，如图3-13所示。

图3-13　JSON格式数据的本地化存储