pandas小结(一)数据设置

pandas是python下一个很牛X的数据分析的模块。在进行这部分总结的时候,我一些在考虑如何设置篇幅。想了一圈,决定第一篇不去介绍pandas的其他内容,先是以玩的心态了解下怎么去构造数据。怎么去改数据。玩过了以后,第二票再去介绍理论的东西。不废话,进主题。

1、创建测试数据

#!/usr/bin/env python
# _*_ coding: utf-8 _*_
import pandas as pd
import numpy as np
dates = pd.date_range('20170101', periods = 6)
df = pd.DataFrame(np.arange(24).reshape((6, 4)), index = dates, columns = ['A', 'B', 'C', 'D'])

此时执行print打印,获取的数据如下:

print(dates)
DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
               '2017-01-05', '2017-01-06'],
              dtype='datetime64[ns]', freq='D')
print(df)
             A   B   C   D
2017-01-01   0   1   2   3
2017-01-02   4   5   6   7
2017-01-03   8   9  10  11
2017-01-04  12  13  14  15
2017-01-05  16  17  18  19
2017-01-06  20  21  22  23

2、修改数据

数据的修改可以使用行号、列号,也可以使用索引号进行修改。

# 设置df[2,1]为100
df.iloc[2, 1] = 100
# loc设置值
df.loc['20170102', 'C'] = 999

上面第一种修改是根据索引修改的,python 下索引是从0开始的,所以这个修改的是第三行第二列的值。第二种方法就比较容易理解了,这种做法和我们常见excel里的一样,通过行列找到对应的值,改掉就行了。

3、高级修改

高级修改是通过通过一些条件和范围,修改一部分数据的内容。

# 根据条件设置值
df[df.A > 8] = 0
# 根据ix设置值
df.ix[[0, 2],  ['A', 'C']] = 888
# 限定设置区域
df.B[df.B == 0] = 6

第1个示例,修改列名为A的,其中值大于8的,都修改为0;

第2个示例,这个比较好玩,是修改第1行、第3行的第A、C两列的值(四个单元格)为888。不过ix这个函数后面的版本中被废弃了。官方建议使用loc(行方法)和iloc(列方法)替代。

第3个示例,指定了列,该列中值为0的单元格,都修改为值为0 。

4、列添加

# 添加一列
df['F'] = None
df['E'] = pd.Series([1, 2, 3, 4, 5, 6], index = dates)

上面的代码添加了两列,其中一列值全部为空,另一列添加的值为1-6,并指定了索引为最开始生成的时间序列。




本站的发展离不开您的资助,金额随意,欢迎来赏!

You can donate through PayPal.
My paypal id: itybku@139.com
Paypal page: https://www.paypal.me/361way

  1. 本文目前尚无任何评论.
  1. 本文目前尚无任何 trackbacks 和 pingbacks.