pyspark&pandas之字符串篩選dataframe

原創

2019-02-23 18:08

#pandas:
import numpy as np
import pandas as pd

df = pd.DataFrame(np.array([['banana',1],['apple',2],['pear',3]]).reshape(3,2))
df.columns = ['a','b']
df2 = df[df['a'].str.contains('l')]
print(df2)

       a  b
1  apple  2

#pyspark:
ddf = spark.createDataFrame(df)
ddf2 = ddf[ddf['a'].like('%l%')]
ddf2.show()

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

CentOS 安裝 SVN1.7.7

CentOS默認的yum --install subversion ，安裝的是1.6版本安裝1.7腳本爲： #!/bin/bash echo WANdisco Subversion Installer for Cen

2020-07-08 12:36:10

亂序拼圖驗證的識別並還原 puzzle-captcha（開源）

一、前言亂序拼圖驗證是一種較少見的驗證碼防禦，市面上更多的是拖動滑塊，被完美攻克的有不少，都在行爲軌跡上下足了功夫，本文不討論軌跡模擬範疇，就只針對拼圖還原進行研究。找一個市面比較普及的頂像亂序拼圖進行驗證，它號稱的防禦能力4星，

2021-12-01 00:53:28

【轉載】Python處理csv文件

Python處理csv文件 CSV(Comma-Separated Values)即逗號分隔值，可以用Excel打開查看。由於是純文本，任何編輯器也都可打開。與Excel文件不同，CSV文件中：值沒有類型，所有值都是字符串不能指定字

2020-07-18 14:25:30

Error:field larger than field limit(131072)解決方法

從csv文件讀取某一列的數據時，報錯顯示：Error:field larger than field limit(131072) 通過判斷髮現是因爲文件的行數超過csv限制的行數，所以導致結果既無法在控制檯打印，試着轉到df,存成csv文

2020-07-08 12:39:29

啓動Jupyter時, 遇到 sudo: jupyterhub: command not found 問題的解決方案

最近在學習Jupyter, 但是我發現啓動不了多用戶的JupyterHub 官網的教程: sudo jupyterhub 直接輸入就會導致這樣子的結果後面我各種谷歌百度,都好複雜,然後我突然想到,這是沒有Jupyterhub

钢琴线与小刀

2020-07-08 12:39:19

Python小記 —— 文件讀寫操作裏read()方法的深究

** 語法 ** 格式：read(size) 在read()方法裏，size表示要從文件中讀取的數據長度，如果沒有指定size或者指定爲“None”就表示讀取文件裏的全部數據。特別需要注意點： read()的讀取機制因訪問文件

2020-07-08 12:33:27

No more authentication methods to try,Permission denied (publickey)

簡言之就是ssh client更新了，不支持rsa的私鑰，導致無法登陸。ssh登陸服務器，出現類似下面的提示：debug3: authmethod_is_enabled publickey debug1: Next authenticati

2023-11-21 09:53:05

linux有磁盤空間卻顯示不足 linux中inode使用率過高處理辦法 linux中inode使用率過高處理辦法

linux中inode使用率過高處理辦法前幾天收到監控告警，說Inode節點空間不足，之前沒處理過這種問題，所以記錄一下處理過程，便於以後查閱。 Inode使用率高並不會影響系統正常運行和新文件的創建，但是當使用率達到100%的時候，

故宮博物院

2022-12-25 14:18:39

Unixbench：簡介及使用【轉】

轉自：https://www.cnblogs.com/chenshengkai/p/12761467.html 一、安裝 1.下載 https://github.com/kdlucas/byte-unixbench/archive

2022-06-30 14:35:50

linux下kill殺死進程的命令

常規篇：　首先，用ps查看進程，方法如下： $ ps -ef … smx 1822 1 0 11:38 ? 00:00:49 gnome-terminal smx 1823 1822 0 11:38 ? 00:00:00 gnome-p

2020-11-10 13:34:45

基於tiny4412的Linux內核移植 -- 設備樹的展開【轉】

轉自：https://www.cnblogs.com/pengdonglin137/p/5248114.html 閱讀目錄(Content) 作者信息平臺簡介摘要正文一、根據設備樹創建device node鏈表二、遍歷de

2020-10-22 13:20:25

增加FastDfs多文件存儲路徑

項目需要增加聊天會話功能，涉及到上傳語音圖片等信息。考慮新增一個目錄，所有相關文件存在一個相同的目錄中。因此需要對原項目增加一個存儲的路徑。以前的項目因爲只有一個路徑，且已經運行中。走了些彎路，僅此記錄操作過程。nginx version

2020-07-08 12:37:23

supervisor管理redis，mysql進程

參考:https://blog.csdn.net/lihao21/article/details/77689790 查看supervisor的管理文件查看redis的啓動文件編寫supervisor的ini文件 [progra

2020-07-08 12:37:23

linux下禁止用戶使用密碼方式登陸，而使用密鑰方式登陸

使用putty生成密鑰和登陸根據公鑰認證的原理（見後面說明），認證雙方任何一方都可製作該鑰匙對，並且只要認證方有被認證方的公鑰信息，即可匹配成功。這裏，我們先以Windows上的putty登陸Linux服務器爲例說明。所以，該密鑰對由pu

2020-07-08 12:36:09

find的用法：find查找指定文件和文件夾，設置爲指定用戶和用戶組

find . -name js 查找當前文件夾內名稱完全是js的文件和文件夾 find . -name "*js*" 查找當前文件夾內名稱包含js的文件和文件夾 find . -type d -name "*js" 查找當前文件夾

2020-07-08 12:35:54

24小時熱門文章

最新文章

最新評論文章