博客
关于我
chapter.数据清洗1.2
阅读量:517 次
发布时间:2019-03-07

本文共 2318 字,大约阅读时间需要 7 分钟。

1.3填充缺失值

当数据量不够或者其他部分信息很重要的时候,就不能删除数据了,这时需要对缺失值进行填充,通过fillna方法可以将缺失值替换为常数值。
例:

import pandas as pdimport numpy as npfrom pandas import Series,DataFramefrom IPython.display import displaydata=DataFrame(np.arange(12).reshape(3,4))display(data)#对数据进行处理,即创建一些为缺失值的数据data.loc[1,:]=np.nandata[2]=np.nandisplay(data)

在这里插入图片描述

使用fillna方法填充

import pandas as pdimport numpy as npfrom pandas import Series,DataFramefrom IPython.display import displaydata=DataFrame(np.arange(12).reshape(3,4))display(data)#对数据进行处理,即创建一些为缺失值的数据data.loc[1,:]=np.nandata[2]=np.nandisplay(data)data.fillna(0)#全部填充为0

在这里插入图片描述

当然在fillna中传入字典结构数据,可以针对不同列填充不同的值,fillna返回的是新对象,不会对原数据进行修改,可通过inplace就地进行修改。
例:

import pandas as pdimport numpy as npfrom pandas import Series,DataFramefrom IPython.display import displaydata=DataFrame(np.arange(12).reshape(3,4))display(data)#对数据进行处理,即创建一些为缺失值的数据data.loc[1,:]=np.nandata[2]=np.nandisplay(data)data.fillna({   1:6,3:0})

在这里插入图片描述

还可以通过平均值来作为填充数

import pandas as pdimport numpy as npfrom pandas import Series,DataFramefrom IPython.display import displaydata=DataFrame(np.arange(12).reshape(3,4))display(data)#对数据进行处理,即创建一些为缺失值的数据data.loc[1,:]=np.nandata[2]=np.nandisplay(data)data.fillna(method='ffill')

在这里插入图片描述

2.移除重复数据
在爬取的数据中往往会出现重复数据,对于重复数据保留一份即可,其余可以移除,在DataFrame数据中,通过duplicated方法判断各行是否有重复数据。

data=DataFrame({       '姓名':['小敏','晓明','小强','小红','晓明'],    '年龄':['女','男','男','女','男'],    '地址':['北京','南京','上海','广州','南京']})
import pandas as pdimport numpy as npfrom pandas import Series,DataFramefrom IPython.display import displaydata=DataFrame({       '姓名':['小敏','晓明','小强','小红','晓明'],    '年龄':['女','男','男','女','男'],    '地址':['北京','南京','上海','广州','南京']})display(data)data.duplicated()

在这里插入图片描述

通过drop_duplicates方法,可以删除多余的重复项

import pandas as pdimport numpy as npfrom pandas import Series,DataFramefrom IPython.display import displaydata=DataFrame({       '姓名':['小敏','晓明','小强','小红','晓明'],    '年龄':['女','男','男','女','男'],    '地址':['北京','南京','上海','广州','南京']})display(data)data.drop_duplicates()

在这里插入图片描述

很显然这种情况下当每行的每个字段都相同时才会判断出为重复,这时可以通过指定部分作为判断重复项的依据。

import pandas as pdimport numpy as npfrom pandas import Series,DataFramefrom IPython.display import displaydata=DataFrame({       '姓名':['小敏','晓明','小强','小红','晓明'],    '年龄':['女','男','男','女','男'],    '地址':['北京','南京','上海','广州','南京']})display(data)data.drop_duplicates('年龄')

在这里插入图片描述

从结果可以看出,保留的数据为第一次出现的组合。传入keep=‘last’可以保留最后一个。

转载地址:http://hrynz.baihongyu.com/

你可能感兴趣的文章
NIFI1.23.2_最新版_性能优化通用_技巧积累_使用NIFI表达式过滤表_随时更新---大数据之Nifi工作笔记0063
查看>>
NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_根据binlog实现数据实时delete同步_实际操作04---大数据之Nifi工作笔记0043
查看>>
NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置binlog_使用处理器抓取binlog数据_实际操作01---大数据之Nifi工作笔记0040
查看>>
NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置数据路由_实现数据插入数据到目标数据库_实际操作03---大数据之Nifi工作笔记0042
查看>>
NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置数据路由_生成插入Sql语句_实际操作02---大数据之Nifi工作笔记0041
查看>>
NIFI从MySql中离线读取数据再导入到MySql中_03_来吧用NIFI实现_数据分页获取功能---大数据之Nifi工作笔记0038
查看>>
NIFI从MySql中离线读取数据再导入到MySql中_不带分页处理_01_QueryDatabaseTable获取数据_原0036---大数据之Nifi工作笔记0064
查看>>
NIFI从MySql中离线读取数据再导入到MySql中_无分页功能_02_转换数据_分割数据_提取JSON数据_替换拼接SQL_添加分页---大数据之Nifi工作笔记0037
查看>>
NIFI从PostGresql中离线读取数据再导入到MySql中_带有数据分页获取功能_不带分页不能用_NIFI资料太少了---大数据之Nifi工作笔记0039
查看>>
nifi使用过程-常见问题-以及入门总结---大数据之Nifi工作笔记0012
查看>>
NIFI分页获取Mysql数据_导入到Hbase中_并可通过phoenix客户端查询_含金量很高的一篇_搞了好久_实际操作05---大数据之Nifi工作笔记0045
查看>>
NIFI分页获取Postgresql数据到Hbase中_实际操作---大数据之Nifi工作笔记0049
查看>>
NIFI同步MySql数据_到SqlServer_错误_驱动程序无法通过使用安全套接字层(SSL)加密与SQL Server_Navicat连接SqlServer---大数据之Nifi工作笔记0047
查看>>
Nifi同步过程中报错create_time字段找不到_实际目标表和源表中没有这个字段---大数据之Nifi工作笔记0066
查看>>
NIFI大数据进阶_FlowFile拓扑_对FlowFile内容和属性的修改删除添加_介绍和描述_以及实际操作---大数据之Nifi工作笔记0023
查看>>
NIFI大数据进阶_FlowFile生成器_GenerateFlowFile处理器_ReplaceText处理器_处理器介绍_处理过程说明---大数据之Nifi工作笔记0019
查看>>
NIFI大数据进阶_Json内容转换为Hive支持的文本格式_操作方法说明_01_EvaluteJsonPath处理器---大数据之Nifi工作笔记0031
查看>>
NIFI大数据进阶_Kafka使用相关说明_实际操作Kafka消费者处理器_来消费kafka数据---大数据之Nifi工作笔记0037
查看>>
NIFI大数据进阶_Kafka使用相关说明_实际操作Kafka生产者---大数据之Nifi工作笔记0036
查看>>
NIFI大数据进阶_NIFI的模板和组的使用-介绍和实际操作_创建组_嵌套组_模板创建下载_导入---大数据之Nifi工作笔记0022
查看>>