博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python去重
阅读量:1825 次
发布时间:2019-04-25

本文共 1381 字,大约阅读时间需要 4 分钟。

由于在python 爬虫过程中有爬取到重复的链接,并没有进行去重操作,故,这里再通过python自带的set再次进行去重一次。

下面是给出来的代码

# -*- coding: utf-8 -*-# @Time    : 2018/9/21 13:31# @Author  : 蛇崽# @Email   : 643435675@QQ.com# @Site    : http://www.ltc622.com/# @File    : get_only_teaminfo.py# @Software: PyCharm 队员信息去重import jsondef read_json():    f = open('team_all2.json', encoding='utf-8')    link_datas = []    f2 = open('all_teaminfos.jason', 'a', encoding='utf-8')    while 1:        line = f.readline()        if not line:            break        jline = json.loads(line)        teamName = jline['teamName']        teamLink = jline['teamLink']        teamId = jline['teamId']        print('link  ======   >>>>   ', teamLink)        data = {
'teamName':teamName, 'teamLink':teamLink, 'teamId':str(teamId), } data = json.dumps(data, ensure_ascii=False) link_datas.append(data) link_datas_final = set(link_datas) for data in link_datas_final: print(data) f2.write(data+'\n') f2.close()if __name__ == '__main__': read_json()

说下主要思路:主要是把一个list放进到set里面,然后取出来,便是已经去重过的数据了。

--------------------------------------- 下面是广告 ------------------------------------------------

个人微信:hll643435675(备注:博客)

更多资源请访问:

欢迎光临我的小网站:

欢迎光临这个妹子的SEO优化网站:

陆续优化中,后续会开发更多更好玩的有趣的小工具

--------------------------------------- 上面是广告 ------------------------------------------------

转载地址:http://luxkf.baihongyu.com/

你可能感兴趣的文章
正式加入阿里巴巴!Android自定义View详解,大厂直通车!
查看>>
安卓开发基础面试题,30岁以后搞Android已经没有前途?复习指南
查看>>
python调试
查看>>
雷电模拟器重置开机密码
查看>>
其它安全问题
查看>>
SSRF
查看>>
python3 语法注意
查看>>
C语言复习
查看>>
Spring:源码解读Spring IOC原理
查看>>
Spring AOP原理分析一次看懂
查看>>
Spring AOP的实现原理(二)
查看>>
Spring AOP的实现原理(三)
查看>>
Spring AOP的实现原理(四)
查看>>
Spring AOP的实现原理(五)
查看>>
Java动态代理与CGLIB
查看>>
Java 9 新特性
查看>>
缓存与数据库不一致
查看>>
Gson的入门使用
查看>>
SpringBoot之集成Spring AOP
查看>>
Linux免密码登录设置
查看>>