python 数据分析、数据处理之超实用的pandas | 表关联连接、新增添加一行记录、空值判断、数据读写、按行输出等

我在博客上分享的都是在实际项目中遇到的棘手的并且解决的问题，整理出来当作知识总结，希望也能帮助到需要的人。

一、dataframe 的merge方法实现千万条数据的关联

这里的temp1是特征数据，有几千万条，temp2是样本标签，有几万条，现在需要拿出有标签的几万条样本的数据，做后续分析。
之前自己写循环做关联操作，每次循环到150万次左右程序就killed了，内存不足，算不出来。
尝试了好多方法，发现dataframe的merge方法简直不能更好用，只需一行代码就能实现，计算速度也是极快的。merge里面传四个参数，分别是两张表的名称、关联字段的名称、和连接方式（left或right）。

temp1 = pd.read_csv('/Users/taorui02/Documents/test_data.txt')
temp2 = pd.read_csv('/Users/taorui02/Documents/test_sample.txt')
merge_data1 = pd.merge(temp2, temp1, on='id', how='left')
merge_data1.to_csv("test.csv", index=False, sep=',')

二、dataframe新增一行数据

dataframe用来做数据处理是十分方便的，可是要增加一行数据的方法我折腾了会儿才解决，因为它不同于修改、赋值。
我们的思维惯性是给新增一行给一个列赋值，其他列默认就是空，可是dataframe不是这样，给一个值是放不到表中的，它也不会报错。正确的放法是把一行数据放到list里面再赋值。

如果是修改赋值，这样就可以：

1.先新建一个dataframe表

import pandas as pd
import numpy as np

df2 = pd.DataFrame(np.arange(16).reshape((4, 4)),
                   index=['a', 'b', 'c', 'd'],
                   columns=['one', 'two', 'three', 'four'])

print(df2)

输出：

   one  two  three  four
a    0    1      2     3
b    4    5      6     7
c    8    9     10    11
d   12   13     14    15

2.修改一列

import pandas as pd
import numpy as np

df2 = pd.DataFrame(np.arange(16).reshape((4, 4)),
                   index=['a', 'b', 'c', 'd'],
                   columns=['one', 'two', 'three', 'four'])
df2['one'] = 99999
print(df2)

输出：

     one  two  three  four
a  99999    1      2     3
b  99999    5      6     7
c  99999    9     10    11
d  99999   13     14    15

3. 修改特定值

import pandas as pd
import numpy as np

df2 = pd.DataFrame(np.arange(16).reshape((4, 4)),
                   index=['a', 'b', 'c', 'd'],
                   columns=['one', 'two', 'three', 'four'])
df2['one'][0] = 99999
print(df2)

输出：

     one  two  three  four
a  99999    1      2     3
b      4    5      6     7
c      8    9     10    11
d     12   13     14    15

4. 使用索引赋值的方式不能实现新增一行，新增的话要用`.loc[i]=一个list`这种方式。

# coding:utf-8
from pandas import *
df = DataFrame(columns=('lib', 'qty1', 'qty2'))  # 生成空的pandas表

df.loc[0] = [1, 3, 4]
print df

输出：

  lib qty1 qty2
0   1    3    4

三、dataframe里面的空值判断

在数据处理的过程中，空值是再常见不过的了。
之前没有用pandas的时候判断空值用 if value == '':来判断，可是到了dataframe里面这种代码就失效了，用if value :判断还是报错，最后发现pandas里面有自带的判断空值的方法。
当在文本文件中，空值为null，读入dataframe中，空值就变成了NaN，使用pd.isnull()或者pd.notnull()对一列进行空值判断，即if pd.notnull(value):来判断。

四、数据读取和保存

1. 数据读取

普通读取，sep指定文件的分隔符

using_data = pd.read_csv("/Users/taorui02/Documents/id", sep=' ')

很多时候我们拿到的数据是没有表头的，这时候读入数据要么不显示表头，加header=None就行，要么根据需要自己定义表头。
自定义表头读取，这里给数据加了两个列名，id、label。

using_data = pd.read_csv("/Users/taorui02/Documents/id", sep=' ', header=None, names=['id', 'label'])

2. 数据写入CSV

数据处理完写入文件也是有点讲究的，有时候需要表头，有时候不需要，不需要的时候同样加header=None、index=False就可以。
header=None：不显示列名
index=False：不显示索引号

using_data.to_csv("/Users/taorui02/Documents/IDd.csv", index=False, header=None)

五、逐行打印数据

在hadoop集群上处理数据的时候输出的结果后续需要拆分合并的操作，这时候不能直接保存数据到文件，而是输出，print或者sys.stdout.write()，这时候输出的内容是不能带列名和索引号的，需要逐行打印数据内容。
这里的要点是using_data.loc[index]访问到的不是我们真正想要的，要加上.values才能拿到数据。

import pandas as pd
# 读入数据
using_data = pd.read_csv("/Users/taorui02/Documents/id", sep=' ', header=None, names=['id', 'label'])
# 逐行打印
for index in using_data.index:
    print(using_data.loc[index].values)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

python 数据分析、数据处理之超实用的pandas | 表关联连接、新增添加一行记录、空值判断、数据读写、按行输出等

一、dataframe 的merge方法实现千万条数据的关联

二、dataframe新增一行数据

1.先新建一个dataframe表

2.修改一列

3. 修改特定值

4. 使用索引赋值的方式不能实现新增一行，新增的话要用`.loc[i]=一个list`这种方式。

三、dataframe里面的空值判断

四、数据读取和保存

1. 数据读取

2. 数据写入CSV

五、逐行打印数据

《日本蜡烛图》读书笔记 & 技术分析回测

Python多线程编程深度探索：从入门到实战

《期货-市场技术分析》读书笔记

mongodb处理json数据很好

顶级 Javaer 都在用的 20 个类库，真香！

[转帖]cpupower

google浏览器插件开发

35K*14 薪，入职了！这公司只要不裁员，我能一直呆下去！

基於tensorflow和deepspeech的中文語音識別模型，訓練+部署

醫療對話場景的語音識別 |垂直領域（google 2018 論文解讀）

語音識別數據增強方法（google2019年7月論文）

財經知識 | 金融小白學習之旅

beam search解碼原理（斯坦福 2014 論文解讀）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

python 数据分析、数据处理之超实用的pandas | 表关联连接、新增添加一行记录、空值判断、数据读写、按行输出等

一、dataframe 的merge方法实现千万条数据的关联

二、dataframe新增一行数据

1.先新建一个dataframe表

2.修改一列

3. 修改特定值

4. 使用索引赋值的方式不能实现新增一行，新增的话要用.loc[i]=一个list这种方式。

三、dataframe里面的空值判断

四、数据读取和保存

1. 数据读取

2. 数据写入CSV

五、逐行打印数据

4. 使用索引赋值的方式不能实现新增一行，新增的话要用`.loc[i]=一个list`这种方式。