pandas是python下一个很牛X的数据分析的模块。在进行这部分总结的时候,我一些在考虑如何设置篇幅。想了一圈,决定第一篇不去介绍pandas的其他内容,先是以玩的心态了解下怎么去构造数据。怎么去改数据。玩过了以后,第二票再去介绍理论的东西。不废话,进主题。
1、创建测试数据
#!/usr/bin/env python # _*_ coding: utf-8 _*_ import pandas as pd import numpy as np dates = pd.date_range('20170101', periods = 6) df = pd.DataFrame(np.arange(24).reshape((6, 4)), index = dates, columns = ['A', 'B', 'C', 'D'])
此时执行print打印,获取的数据如下:
print(dates) DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04', '2017-01-05', '2017-01-06'], dtype='datetime64[ns]', freq='D') print(df) A B C D 2017-01-01 0 1 2 3 2017-01-02 4 5 6 7 2017-01-03 8 9 10 11 2017-01-04 12 13 14 15 2017-01-05 16 17 18 19 2017-01-06 20 21 22 23
2、修改数据
数据的修改可以使用行号、列号,也可以使用索引号进行修改。
# 设置df[2,1]为100 df.iloc[2, 1] = 100 # loc设置值 df.loc['20170102', 'C'] = 999
上面第一种修改是根据索引修改的,python 下索引是从0开始的,所以这个修改的是第三行第二列的值。第二种方法就比较容易理解了,这种做法和我们常见excel里的一样,通过行列找到对应的值,改掉就行了。
3、高级修改
高级修改是通过通过一些条件和范围,修改一部分数据的内容。
# 根据条件设置值 df[df.A > 8] = 0 # 根据ix设置值 df.ix[[0, 2], ['A', 'C']] = 888 # 限定设置区域 df.B[df.B == 0] = 6
第1个示例,修改列名为A的,其中值大于8的,都修改为0;
第2个示例,这个比较好玩,是修改第1行、第3行的第A、C两列的值(四个单元格)为888。不过ix这个函数后面的版本中被废弃了。官方建议使用loc(行方法)和iloc(列方法)替代。
第3个示例,指定了列,该列中值为0的单元格,都修改为值为0 。
4、列添加
# 添加一列 df['F'] = None df['E'] = pd.Series([1, 2, 3, 4, 5, 6], index = dates)
上面的代码添加了两列,其中一列值全部为空,另一列添加的值为1-6,并指定了索引为最开始生成的时间序列。