admin 管理员组文章数量: 888526
数据清洗:去掉txt文件中有空缺值的行
最近在做爬虫爬取豆瓣读书的数据,发现很多书籍会没有评分,当时爬虫也没做特别处理,所以这个问题保留了下来。
数据格式就是以英文逗号分隔,(book_id,book_name,book_score)
一部分数据如下
1443021,网络营销,
2265243,How Buildings Work,
4022720,影子富豪查克·菲尼, 7.3
2157526,Mind Set!,
1431351,平家物语图典, 7.1
之前试过了判断是不是None,或者用正则匹配Null都不行
最后想到的办法就是将score转换成字符串,因为此时的score是列表list的一个元素,之后只需将字符串score与" "判断是否相同即可
代码如下:
#处理缺失值的程序 auther:wuyou
file = open("BookInfo.txt","r",encoding="utf-8") #打开老文件,读模式
newfile = open("Book.txt","a",encoding="utf-8") #打开新文件,追加写模式
for line in file:info = line.replace("\n","") #去掉换行符book_info = info.split(",") #划分数组if len(book_info) > 3: #如果多于3个元素continuescore = str(book_info[2]) #转换成字符串if score == " ": #如果字符串为空continuenewfile.write(line) #如果通过前两项测试,则写入新的文件中保存
file.close() #关闭文件
newfile.close() #关闭文件
本文标签: 数据清洗去掉txt文件中有空缺值的行
版权声明:本文标题:数据清洗:去掉txt文件中有空缺值的行 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.freenas.com.cn/jishu/1693586683h230811.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论