5個例子學會Pandas中的字符串過濾

要處理文本數據,需要比數字類型的數據更多的清理步驟。爲了從文本數據中提取有用和信息,通常需要執行幾個預處理和過濾步驟。

Pandas 庫有許多可以輕鬆簡單地處理文本數據函數和方法。在本文中,我介紹將學習 5 種可用於過濾文本數據(即字符串)的不同方法:

  • 是否包含一系列字符
  • 求字符串的長度
  • 判斷以特定的字符序列開始或結束
  • 判斷字符爲數字或字母數字
  • 查找特定字符序列的出現次數

首先我們導入庫和數據

  1. import pandas as pd
  2. df = pd.read_csv("example.csv")
  3. df

我們這個樣例的DataFrame 包含 6 行和 4 列。我們將使用不同的方法來處理 DataFrame 中的行。第一個過濾操作是檢查字符串是否包含特定的單詞或字符序列,使用 contains 方法查找描述字段包含“used car”的行。但是要獲得pandas中的字符串需要通過 Pandas 的 str 訪問器,代碼如下:

  1. df[df["description"].str.contains("used car")]

但是爲了在這個DataFrame中找到所有的二手車,我們需要分別查找“used”和“car”這兩個詞,因爲這兩個詞可能同時出現,但是並不是連接在一起的:

  1. df[df["description"].str.contains("used") &
  2. df["description"].str.contains("car")]

可以看到最後一行包含“car”和“used”,但不是一起。

完整文章:

https://avoid.overfit.cn/post/636266a8e77644f6b18cb0077fcccfe2

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章