纯净、安全、绿色的下载网站

首页|软件分类|下载排行|最新软件|IT学院

当前位置:首页IT学院IT技术

如何解决python缺失值 python缺失值的解决办法总结

小妮浅浅   2021-06-09 我要评论
想了解python缺失值的解决办法总结的相关内容吗小妮浅浅在本文为您仔细讲解怎样解决python缺失值的相关知识和一些Code实例欢迎阅读和指正我们先划重点:python,缺失值下面大家一起来学习吧

1、解决方法

(1)忽视元组

缺少类别标签时通常这样做(假设挖掘任务与分类有关)除非元组有多个属性缺失值否则该方法不太有效当个属性缺值的百分比变化很大时其性能特别差

(2)人工填写缺失值

一般来说这种方法需要很长时间当数据集大且缺少很多值时这种方法可能无法实现

(3)使用全局常量填充缺失值

将缺失的属性值用同一常数(如Unknown或负无限)替换如果缺失值都是用unknown替换的话挖掘程序可能会认为形成有趣的概念因为有同样的价值unknown因此这种方法很简单但不可靠

(4)使用与给定元组相同类型的所有样本的属性平均值

(5)使用最可能的值填充缺失值

可以通过回归、使用贝叶斯形式化的基于推理的工具和决策树的总结来决定

2、实例

import numpy as np
 
from sklearn.preprocessing import Imputer
 
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
 
import numpy as np
from sklearn.preprocessing import Imputer
 
###1.使用均值填充缺失值
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
imp.fit([[1, 2], [np.nan, 3], [7, 6]])
 
X = [[np.nan, 2], [6, np.nan], [7, 6]]
print(imp.transform(X))  
[[4.         2.        ]
 [6.         3.66666667]
 [7.         6.        ]]

知识点扩充:

缺失值的处理方法

由于各种各样的原因真实世界中的许多数据集都包含缺失数据这些数据经常被编码成空格、nans或者是其他的占位符但是这样的数据集并不能被scikit - learn算法兼容因为大多数的学习算法都会默认数组中的元素都是数值因此素偶有的元素都有自己的代表意义

使用不完整的数据集的一个基本策略就是舍弃掉整行或者整列包含缺失值的数值但是这样处理会浪费大量有价值的数据下面是处理缺失值的常用方法:

1.忽略元组

当缺少类别标签时通常这样做(假定挖掘任务涉及分类时)除非元组有多个属性缺失值否则该方法不是很有效当每个属性缺少值的百分比变化很大时它的性能特别差

2.人工填写缺失值

一般该方法很费时并且当数据集很大缺少很多值时该方法可能行不通

3.使用一个全局常量填充缺失值

将缺失的属性值用同一个常数(如“Unknown”或 负无穷)替换如果缺失值都用“unknown”替换则挖掘程序可能会认为它们形成一个有趣的概念因为它们都具有相同的值“unknown”因此虽然该方法很简单但是它十分不可靠

4.使用与给定元组属同一类的所有样本的属性均值

例如:将顾客按照credit_risk分类则使用具有相同信用度的给定元组的顾客的平均收入替换income中的缺失值

Python客栈送红包、纸质书

5.使用最可能的值填充缺失值

可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定例如利用数据集中其他顾客的属性可以构造一颗决策树来预测income的缺失值


相关文章

猜您喜欢

  • docker容器与镜像的区别 聊聊docker中容器与镜像的区别

    想了解聊聊docker中容器与镜像的区别的相关内容吗天下没有收费的bug在本文为您仔细讲解docker容器与镜像的区别的相关知识和一些Code实例欢迎阅读和指正我们先划重点:docker容器与镜像的区别,docker容器,docker镜像下面大家一起来学习吧..
  • Python添加类型标注 浅谈怎么给Python添加类型标注

    想了解浅谈怎么给Python添加类型标注的相关内容吗枇杷鹭在本文为您仔细讲解Python添加类型标注的相关知识和一些Code实例欢迎阅读和指正我们先划重点:Python添加类型标注,Python类型标注下面大家一起来学习吧..

网友评论

Copyright 2020 www.fresh-weather.com 【世纪下载站】 版权所有 软件发布

声明:所有软件和文章来自软件开发商或者作者 如有异议 请与本站联系 点此查看联系方式