首页 > 其他 > 详细

数据初级分析分类(2)

时间:2020-03-13 22:36:35      阅读:87      评论:0      收藏:0      [点我收藏+]

  今天在昨天的基础上进一步规范了地域列的取值,以及使用高德地图的api将昨天模拟百度地图搜索请求未找到的500多条数据重新进行查询。除此之外,还看了一些关于python提取关键字的博客。

  昨天虽然找到了3500多条数据的地域和行政区划代码,但是由于未考虑到完成单位在其他省份的情况,导致某些地域值只有XX市XX区,没有前面的XX省。

  虽然后来又换用高德地图的api进行查询,但是仍有181条数据未能查找到所在地域,我认为一方面是数据集有问题,另一方面是这些单位可能已经改名。我觉得不太可能是重名单位多的原因,因为我在编写脚本时只取了结果列的第一种情况,结果不论有多少只取第一种。其次,这未找到的181条数据中,有9条数据的完成单位是人名,所以真正未将地域维度标准化的数据有172条。

  明天的任务是提取关键字和补充行业分类,如果有时间的话会尝试搜索搜索这172条数据,看看能不能手动将地域维度标准化。

数据初级分析分类(2)

原文:https://www.cnblogs.com/dream0-0/p/12489239.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!