pandas 基础属性

pandas.series自带了三个’’属性”，管理分类的cat，管理字符串的str，管理时间的dt

str

pd.series.str：返回的是一个series的字符串列，但是复杂函数还是要apply写。
pd.series.str.contain(str)：查找列是否包含该str，包含则返回行。
pd.series.str.len()：返回该series列所有str的长度。

dt

首先要把格式转为datatime格式

pd.to_datetime(“series”)

pd.series.dt：返回的是一个series的datetime类型列，可以做datatime类型操作
pd.series.dt:有几个内置属性

hour：返回datetime的时

day: 返回datetime的天

second：返回datetime的秒

quarter：返回第几季度

month：返回月

year：返回年

datatime类型还可以进行加减操作哦

pandas 读写文件¹

read_csv

读取txt | tsv*等类似类型文件也可以用，sep设置为空格 | \t 就行了

当然pandas的series也可以写入或读取

Pandas.read_csv(filepath_or_buffer,sep,header,dtype,engine,converters,skiprows,skipfooter,nrows)2

filepath:：读取的文件地址或url地址
sep：str类型，默认’,’ 指定分隔符。如果不指定参数，则会尝试使用默认值逗号分隔。分隔符长于一个字符并且不是‘\s+’,将使用python的语法分析器。并且忽略数据中的逗号，并且可以用正则匹配！
header：指定第几行作为列名(忽略注解行)，如果没有指定列名，默认header=0; 如果指定了列名header=None
dtype：例子： {‘a’: np.float64, ‘b’: np.int32} 指定每一列的数据类型，a,b表示列名
engine：使用的分析引擎。可以选择C或者是python，C引擎快但是Python引擎功能更多一些。并且如果sep本意不是正则可以用这个来区别

比如：sep=’::’没有engine时会被识别为正则，本意是数据确实就是以::分隔的，用engine=python来区别
converters：置指定列的处理函数，可以用”序号”也可以使用“列名”进行列的指定
skiprows：默认值 None 需要忽略的行数即header的后xx行开始，，或需要跳过的行号列表（从0开始）

如果是一个csv文件，excel打开默认header为第一行，要从第15行开始读取则设置skiprows=14，但这样header也会被跳过，所以一般是skiprows=[i for i in rang(1,14)]
skipfooters：从文件尾部开始忽略
nrows：从文件中只读取多少数据行，需要读取的行数（从文件头开始算起）

对应的是Dataframe.to_csv()，参数都类似，

# 设置index=None，写入时除去index，这样正常读入就没有unnamed了
df.to_csv(xxx,index=None)

写入txt

这个要提一下，因为很多人都会忽略to_csv的sep参数。

csv本质是：分割的txt文件，所以实质上pandas也兼容了写入txt

# 常用模板如下
# 只需声明分割符就行了
df.to_csv('path',sep='\t',header=None,index=None)

read_excel

Pandas.read_excel(io,sheet_name,sep,header,dtype,engine,converters,skiprows,skipfooter,nrows)

与read_csv参数基本相同，这里只介绍额外增加的参数

io：文件类对象，pandas Excel 文件或 xlrd 工作簿。该字符串可能是一个URL。URL包括http，ftp，s3和文件。例如，本地文件可写成file://localhost/path/to/workbook.xlsx
sheet_name：默认是sheetname为0，返回多表使用sheetname=[0,1]，若sheetname=None是返回全表。注意：int/string返回的是dataframe，而none和list返回的是dict of dataframe，表名用字符串表示，索引表位置用整数表示；

read_json

Pandas.read_json(filepath_or_buffer,orient,header,type,dtype,convert_dates,keep_default_dates,numpy,encoding,lines)

orient：预期的json字符串格式，orient的设置有以下几个值：
1. ‘split’ : dict like {index -> [index], columns -> [columns], data -> [values]}
2. ‘records’ : list like [{column -> value}, … , {column -> value}]
3. ‘index’ : dict like {index -> {column -> value}}
4. ‘columns’ : dict like {column -> {index -> value}}
5. ‘values’ : just the values array
type：返回的格式(series or frame), 默认是 ‘frame’
dtype：同csv，列的数据类型
convert_dates：解析日期的列列表；如果为True，则尝试解析类似日期的列，默认值为True
keep_default_dates：default True。如果解析日期，则解析默认的日期样列
numpy：直接解码为numpy数组。默认为False；仅支持数字数据，但标签可能是非数字的。
encoding：json编码
lines：将每行读取为一个json对象

read_html

Pandas.read_html(io,match,flavor,header,index_col,skiprows,attrs,parse_dates)

io：接收网址、文件、字符串。网址不接受https，尝试去掉s后爬去
match：正则表达式，返回与正则表达式匹配的表格
flavor：html解释器
index_col：同csv
skip_rows：同csv
attrs：属性，比如 attrs = {‘id’: ‘table’}~~不是很懂~~
parse_dates：解析日期

pandas查询数据

pandas.loc

~~无敌好吧，我只能说无敌~~

dataframe.iloc和loc相似，不过只能接受整数的传参。而loc可以接受整数，字符串，bool的传参（注意先行后列就行了）

缺点就是必须按照顺序索引（比如muti index 必须先level 1再索引level 2），而且如果要按行操作需要reset index

Dataframe.loc

初始表格


tuples = [
   ('cobra', 'mark i'), ('cobra', 'mark ii'),
   ('sidewinder', 'mark i'), ('sidewinder', 'mark ii'),
   ('viper', 'mark ii'), ('viper', 'mark iii')
]
index = pd.MultiIndex.from_tuples(tuples)
values = [[12, 2], [0, 4], [10, 20],
        [1, 4], [7, 1], [16, 36]]
df = pd.DataFrame(values, columns=['max_speed', 'shield'], index=index)
df

数据提取

# 返回dataframe
df.loc[['viper'],:]

# 返回series
df.loc['viper',:]

# 间隔取(这样只能返回dataframe
# 不加[]会报错
df.loc[['cobra','viper'],:]

# 连续取值(只能返回dataframe)
# 行切片则是前闭后闭，列切片也是前闭后闭（不然怎么取全列
df.loc['cobra':'sidewinder','max_speed':'temp']

# 只有单列查询才会返回series否则其他的全是dataframe
# series
df.loc['cobra':'viper','shield']
# dataframe
df.loc['cobra':'sidewinder',['shield']]
df.loc[['cobra','viper'],'max_speed':'shield']

bool类型传参

dataframe.loc[bool]和dataframe[bool]不一样！！！

~~dataframe.loc[bool]是遍历行，dataframe[bool]是遍历所有元素，但是当index是muti index时不能用index~~

# 列的bool值要带入新的loc的行部分
df.loc[df.loc[:,'shield']>30,:]
# 等效
df[df.shield>30]


# 行的bool值要带入新的loc的列部分
df.loc[('cobra','mark ii')]>3


df.loc[:,df.loc[('cobra','mark ii')]>3]

# 逻辑 判断
# |是or，&是and每个条件要括号括起
df.loc[:,(df.loc[('cobra','mark ii')]>3)&(df.loc[('cobra','mark ii')]<3)]
# isin([xx,xx]) 是否存在
# 通过~取反相当于!
df.loc[:,df.loc[('cobra','mark ii')].isin([3,4,5])]
df.loc[:,~(df.loc[('cobra','mark ii')].isin([3,4,5]))]
# serise.str.contain(xxx|xx|x)
# 不完全匹配字符串

设置values

df.loc[['viper', 'sidewinder'], ['shield']] = 50

dataframe.xs()函数

pandas.DataFrame.xs(key,axis=0,level=None,drop_level=True) ⁴

key: 行index或列的name
axis: index或columns
level: 指定行的level等级

iter遍历

遍历整行:Dataframe.iterrows():
遍历全部列:Dataframe.iteritems():

pandas数据处理

nan的处理

dataframe.fillna()

DataFrame.fillna(value=None,method=None,axis=None,inplace=False, limit=None,downcast=None)

value：将nan填充为的value
method：填充方法bfill：向后寻找第一个非空进行填充, ffill：向前寻找第一个非空进行填充
axis：填充的坐标轴
inplace是否赋值到原dataframe

数据类型转换

# 读入转换
pd.read_csv('xxx',dtype={'columns_name':columns_type,'xxx':xx})
# 强制转换
df.column_name.astype(int)

dataframe.dropna()

DataFrame.dropna(axis=0, how=’any’,thresh=None, subset=None, inplace=False*)

axis：axis=0丢掉包含nan值的行，axis=1则为丢掉列
how：决定是是所有行或列包含nan丢弃(all)还是只有一个就丢弃(any)

dataframe.isnull()

pandas.isnull(obj)

判断obj类里面所有值是否为null，返回bool类型

pandas.drop

DataFrame.drop(labels=None,axis=0, index=None, columns=None,level=None,inplace=False, errors=’raise’

labels：字符串或数组，需要删去的对应关键字
axis：axis默认为0 ，即默认删除行
index：index=labels等价于labels=labels，axis=0
inplace：是否替换原数据

dataframe.reset_index()

dataframe.reset_index(level=None,drop=False,inplace=False,col_level=0,col_fill=’’)

level:从index 移除的level index，默认全部移除index重新标号
inplace：是否替换原数据
如果列是muti columns 则选择插入到第几个level
col_fill:选择列插入时其他列的命名，默认repeat

dataframe.rename()

dataframe.rename(mapper=None,index=None,columns=None,axis=None,copy=True,inplace=False,level=None,errors=’ignore’)

mapper:函数或字典
index：如果axis=0 则mapper作用与index
columns：axis=1 mapper作用与columns
axis:指定坐标轴
inplace：是否替换原数据

该函数也能用在series上

pandas 数据统计

dataframe.info()函数

Dataframe.info(verbose=None,buf=None,max_col=None,memory_usage=None,null_counts=None)

verbose:是否返回全部信息
是否输出到文件，默认输出到屏幕

dataframe.describe()函数

~~管他的，用默认参数就完事了~~

还有series.describe()，和这个类似

dataframe.value_counts()函数

Dataframe.value_counts(subset=None,normalize=False,sort=True,ascending=False,dropna=True)

subset: 需要计数的列
normalize：返回频数（False）还是比例（True）
sort：是否排序
ascending：是否降序排列（默认降序）
dropna:是否不统计na
返回的是去重后对应的key和value

series.value_counts()和这个类似不过没有了subset而已。

但是奇怪的是用Dataframe会报错很神奇。

pandas 数据整理

concat

pandas.concat(objs=[],axis=0,join=outer,ignore_index=False)

opt：需要合并的series或dataframe
axis：合并的轴，1为列（横向拼接），0按为行（向下拼接）
join：合并的方式
ignore_index: 是否忽略index，如果忽略新的index将按0，1…编号

~~感觉这一个万能，merge只能两个合并，这个可以多个合并~~

merge

pandas.DataFrame.merge(left,right,how=’inner’, on=None, left_index=False,right_index=False,sort=False, validate=None)

left :dataframe
right: dataframe或者series （需要被merge的对象）
left_index: 新index用左边的
right_index: 新index用右边的
how: left, right, outer, inner, cross, 默认inner，
- left：按左边关键字合并
- right：按右边关键字合并
- outer：取并集关键字合并，没有的关键字用na替代
- inner：取交集关键字合并
- cross：笛卡尔积合并
sort：是否排序
validate：str，optional 对应关系

还有些append什么的就算了。

#df 1 
#       a  b
# 0   foo  1
# 1   bar  2
# df 2
#       a  c
# 0   foo  3
# 1   cz  4

df1.merge(df2, how='inner', on='a')
#       a  b  c
# 0   foo  1  3

groupby

DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True,observed=False, dropna=True)

by:通过什么group 可以是function，list，dic…
axis: 按行还是按列group，（通常是行
sort:是否按key值排序，默认排序
dropna：是否丢弃na值，默认丢弃
返回的是一个dataframe！！！

当然series也有groupby，参数相同，只是返回的是一个series。

在pandas读取文件的过程中，最常出现的问题，就是中文问题与格式问题，希望当你碰到的时候，可以完美的解决。

apply

pd.DataFrame.apply(func,axis=0,raw=False,result_type=None,args=(),kwargs

axis：0|index 传入按每行，1|columns依次按每列值传入（通常是axis=1来用）

#df
A  B
0  4  9
1  4  9
2  4  9

# axis=0 按行传入的值分别为
[4,4,4],[9,9,9]

# axis=1 按列传入的值分别为
[4,9],[4,9],[4,9]

raw：False 代表传入函数为一个Series，True代表传入函数的是一个np.arrary
result_type：expand，reduce，broadcast，当axis=1才有效

进度条

虽然官网上搜索不到了，但还可以用

from tqdm import tqdm 
tqdm.pandas(desc='xxx')
# 与正常apply一样传参
data.progress_apply()

最后附上pyechart可视化官方文档，配合pandas使用^{3^}

Reference

¹. 本文因上次训练拉跨了，遂有感而发，pandas基础学习主要是看这个视频，顺便附上pandas官网链接 ↩

². 读取文件参数基本参考了：https://www.cnblogs.com/happymeng/p/10481293.html ↩

³. 上次训练又拉跨了，pyechart也该总结一下了…/(ㄒoㄒ)/~~ ↩

⁴. 索引部分参考 ↩

pandas 基础属性

str

dt

pandas 读写文件1

read_csv

写入txt

read_excel

read_json

read_html

pandas查询数据

pandas.loc

数据提取

bool类型传参

设置values

dataframe.xs()函数

iter遍历

pandas数据处理

nan的处理

dataframe.fillna()

数据类型转换

dataframe.dropna()

dataframe.isnull()

pandas.drop

dataframe.reset_index()

dataframe.rename()

pandas 数据统计

dataframe.info()函数

dataframe.describe()函数

dataframe.value_counts()函数

pandas 数据整理

concat

merge

groupby

apply

进度条

Reference

pandas 读写文件¹