python去重

python去重由于在python爬虫过程中有爬取到重复的链接,并没有进行去重操作,故,这里再通过python自带的set再次进行去重一次。下面是给出来的代码#-*-coding:utf-8-*-#@Time:2018/9/2113:31#@Author:蛇崽#@Email:643435675@QQ.com#@Site:http://www…

由于在python 爬虫过程中有爬取到重复的链接,并没有进行去重操作,故,这里再通过python自带的set再次进行去重一次。

下面是给出来的代码

 # -*- coding: utf-8 -*- # @Time : 2018/9/21 13:31 # @Author : 蛇崽 # @Email : 643435675@QQ.com # @Site : http://www.ltc622.com/ # @File : get_only_teaminfo.py # @Software: PyCharm 队员信息去重 import json def read_json(): f = open('team_all2.json', encoding='utf-8') link_datas = [] f2 = open('all_teaminfos.jason', 'a', encoding='utf-8') while 1: line = f.readline() if not line: break jline = json.loads(line) teamName = jline['teamName'] teamLink = jline['teamLink'] teamId = jline['teamId'] print('link ====== >>>> ', teamLink) data = { 
     'teamName':teamName, 'teamLink':teamLink, 'teamId':str(teamId), } data = json.dumps(data, ensure_ascii=False) link_datas.append(data) link_datas_final = set(link_datas) for data in link_datas_final: print(data) f2.write(data+'\n') f2.close() if __name__ == '__main__': read_json() 

说下主要思路:主要是把一个list放进到set里面,然后取出来,便是已经去重过的数据了。

————————————— 下面是广告 ————————————————

个人微信:hll643435675(备注:博客)

更多资源请访问:

https://blog.csdn.net/xudailong_blog/article/details/78762262

欢迎光临我的小网站:http://www.00reso.com

欢迎光临这个妹子的SEO优化网站:http://www.ltc622.com/

陆续优化中,后续会开发更多更好玩的有趣的小工具

————————————— 上面是广告 ————————————————

今天的文章python去重分享到此就结束了,感谢您的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/5434.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注