要處理文本數據,需要比數字類型的數據更多的清理步驟。爲了從文本數據中提取有用和信息,通常需要執行幾個預處理和過濾步驟。
Pandas 庫有許多可以輕鬆簡單地處理文本數據函數和方法。在本文中,我介紹將學習 5 種可用於過濾文本數據(即字符串)的不同方法:
- 是否包含一系列字符
- 求字符串的長度
- 判斷以特定的字符序列開始或結束
- 判斷字符爲數字或字母數字
- 查找特定字符序列的出現次數
首先我們導入庫和數據
import pandas as pd
df = pd.read_csv("example.csv")
df
我們這個樣例的DataFrame 包含 6 行和 4 列。我們將使用不同的方法來處理 DataFrame 中的行。第一個過濾操作是檢查字符串是否包含特定的單詞或字符序列,使用 contains 方法查找描述字段包含“used car”的行。但是要獲得pandas中的字符串需要通過 Pandas 的 str 訪問器,代碼如下:
df[df["description"].str.contains("used car")]
但是爲了在這個DataFrame中找到所有的二手車,我們需要分別查找“used”和“car”這兩個詞,因爲這兩個詞可能同時出現,但是並不是連接在一起的:
df[df["description"].str.contains("used") &
df["description"].str.contains("car")]
可以看到最後一行包含“car”和“used”,但不是一起。
完整文章:
https://avoid.overfit.cn/post/636266a8e77644f6b18cb0077fcccfe2