
Python中的pandas模块学习
本文是基于Windows系统环境,学习和测试pandas模块:
Windows 10
PyCharm 2018.3.5 for Windows (exe)
python 3.6.8 Windows x86 executable installer
1. 读取csv/txt文件
读取txt文件,设置分隔符为‘,’,设置是否跳过第一行
import pandas as pd
data = pandas.read_csv('test.txt', sep=',', header=None)
print(data)
读取某一行
import pandas as pd
data = pandas.read_csv('test.txt')
index = 3
printf(data.ix[index]) # 读取第三行
读取某一列
import pandas as pd
data = pandas.read_csv('test.txt')
printf(data['ID']) # 读取属性名为ID的列,区分大小写
读取前5行
import pandas as pd
data = pd.read_csv('user.csv')
data.head(5) # 获取前5行
2. 基本操作
删除/选取某列含有特殊数值的行
import pandas as pd
data = pd.read_csv('user.csv')
print(data)
#删除/选取某列含有特定数值的行
#data[data['A'].isin([1])] # 选取df1中A列包含数字1的行
data=data[~data['A'].isin([1])] # 通过~取反,选取不包含数字1的行
print(data)
删除/选取某行含有特殊数值的列
cols=[x for i,x in enumerate(df2.columns) if df2.iat[0,i]==3]
#利用enumerate对row0进行遍历,将含有数字3的列放入cols中
print(cols)
#df2=df2[cols] 选取含有特定数值的列
df2=df2.drop(cols,axis=1) #利用drop方法将含有特定数值的列删除
print(df2)
删除含有空值的行或列
import pandas as pd
import numpy as np
df1 = pd.DataFrame(
[
[np.nan, 2, np.nan, 0],
[3, 4, np.nan, 1],
[np.nan, np.nan, np.nan, 5],
[np.nan, 3, np.nan, 4]
],columns=list('ABCD'))
print(df1)
df2=df1.copy()
df1['A']=df1['A'].fillna('null') #将df中A列所有空值赋值为'null'
print(df1)
df1=df1[~df1['A'].isin(['null'])]
print(df1)
#删除某行空值所在列
df2[0:1]=df2[0:1].fillna('null')
print(df2)
cols=[x for i,x in enumerate(df2.columns) if df2.iat[0,i]=='null']
print(cols)
df2=df2.drop(cols,axis=1)
print(df2)
3. 统计分析
打印统计详细信息
import pandas as pd
data = pd.read_csv('user.csv')
print (data.describe()) # 打印详细信息
统计中值
import pandas as pd
data = pd.read_csv('user.csv')
print (data['userAge'].median()) # 统计userAge这一列的中值
统计某一列不重复的值
import pandas as pd
data = pd.read_csv('user.csv')
print (data['userName'].unique()) #打印某一列不重复的值
4. 异常处理
中值填充缺失值
import pandas as pd
data = pd.read_csv('user.csv')
data['userAge'] = data['userAge'].fillna(data['userAge'].median())
参考文献
使用pandas读取文件
Python 使用pandas读取文件以及基本处理
pandas.DataFrame删除/选取含有特定数值的行或列
推荐了解热门学科
传智播客是一家致力于培养高素质软件开发人才的科技公司,“黑马程序员”是传智播客旗下高端IT教育品牌。自“黑马程序员”成立以来,教学研发团队一直致力于打造精品课程资源,不断在产、学、研3个层面创新自己的执教理念与教学方针,并集中“黑马程序员”的优势力量,针对性地出版了计算机系列教材50多册,制作教学视频数+套,发表各类技术文章数百篇。
传智播客从未停止思考
传智播客副总裁毕向东在2019IT培训行业变革大会提到,“传智播客意识到企业的用人需求已经从初级程序员升级到中高级程序员,具备多领域、多行业项目经验的人才成为企业用人的首选。”
中级程序员和初级程序员的差别在哪里?
项目经验。毕向东表示,“中级程序员和初级程序员最大的差别在于中级程序员比初级程序员多了三四年的工作经验,从而多出了更多的项目经验。“为此,传智播客研究院引进曾在知名IT企业如阿里、IBM就职的高级技术专家,集中研发面向中高级程序员的课程,用以满足企业用人需求,尽快补全IT行业所需的人才缺口。
何为中高级程序员课程?
传智播客进行了定义。中高级程序员课程,是在当前主流的初级程序员课程的基础上,增加多领域多行业的含金量项目,从技术的广度和深度上进行拓展。“我们希望用5年的时间,打造上百个高含金量的项目,覆盖主流的32个行业。”传智播客课程研发总监于洋表示。
黑马程序员热门视频教程【点击播放】