![Python数据预处理技术与实践](https://wfqqreader-1252317822.image.myqcloud.com/cover/321/27563321/b_27563321.jpg)
上QQ阅读APP看书,第一时间看更新
3.4 爬取数据以JSON格式进行存储
上一节介绍了如何分析网页数据并爬取数据,得到数据以后如何进行存储呢?本节主要介绍JSON格式数据的本地化存储,具体操作步骤如下。
1. 修改管道文件
使用pipline.py文件作为管道文件,负责处理Spider中获取到的实体特征信息,并进行存储。这里需要导入JsonItemExporter模块进行JSON操作,然后在JsonExporterPipleline方法中执行具体的写操作,完整的代码如下:
![](https://epubservercos.yuewen.com/FBFBF6/15825992205221306/epubprivate/OEBPS/Images/Figure-P82_39260.jpg?sign=1738863404-9GfncOFlXeuIxCEBwNDeBSTUljpol9qI-0-280cb0875f5507096a07a4dd6d74dbd5)
2. 修改设置文件
在setting.py设置文件中修改方法的执行优先级。数字从小到大,数字越小,优先级就越高,具体设置如下:
![](https://epubservercos.yuewen.com/FBFBF6/15825992205221306/epubprivate/OEBPS/Images/Figure-P82_39259.jpg?sign=1738863404-HK5r4LtD4hOxJEfy5oHeKt7ruNdbCRFl-0-a45997e3774abcef886814ef565b52f3)
3. JSON格式数据的本地化存储
运行main.py文件,实现本地JSON文件存储。执行完成后,打开articleexport.json文件查看结果,如图3-13所示。
![](https://epubservercos.yuewen.com/FBFBF6/15825992205221306/epubprivate/OEBPS/Images/Figure-P83_12929.jpg?sign=1738863404-SvIERLp98lWXOn13IP2qn3K4anPlqx7n-0-98ee2c384afda33b1aec7dbe5bdd6f73)
图3-13 JSON格式数据的本地化存储