0、停止詞介紹

停止詞是應該從輸入中排除的詞，通常是因爲詞經常出現而且沒有那麼多含義。

StopWordsRemover 將字符串序列（例如，Tokenizer 的輸出）作爲輸入，並從輸入序列中刪除所有停用詞。停用詞列表由 stopWords 參數指定。某些語言的默認停用詞可通過調用訪問 StopWordsRemover.loadDefaultStopWords(language)，其中可用選項爲“丹麥語”，“荷蘭語”，“英語”，“芬蘭語”，“法語”，“德語”，“匈牙利語”，“意大利語”，“挪威語” “，”葡萄牙語“，”俄語“，”西班牙語“，”瑞典語“和”土耳其語“。布爾參數 caseSensitive 指示匹配項是否區分大小寫（默認爲 false）。

1、示例

1.1、數據準備

id  | raw
----|----------
0   | [I, saw, the, red, baloon]
1   | [Mary, had, a, little, lamb]

1.2、應用停用詞後結果

id  | raw                         | filtered
----|-----------------------------|--------------------
0   | [I, saw, the, red, baloon]  | [saw, red, baloon]
1   | [Mary, had, a, little, lamb]|[Mary, little, lamb]

1.3、說明

在過濾掉了停用詞“I”，“the”，“have”和“a”。
應用StopWordsRemoverwith raw 作爲輸入列和 filtered 輸出列

2、代碼實現

import org.apache.spark.ml.feature.StopWordsRemover
import org.apache.spark.sql.SparkSession
object Test {

  def main(args: Array[String]): Unit = {

    val spark: SparkSession = SparkSession.builder()
      .appName("test")
      .master("local[2]")
      .getOrCreate()

    spark.sparkContext.setLogLevel("WARN")

    val remover = new StopWordsRemover()
      .setInputCol("raw")
      .setOutputCol("filtered")

    val dataSet = spark.createDataFrame(Seq(
      (0, Seq("I", "saw", "the", "red", "baloon")),
      (1, Seq("Mary", "had", "a", "little", "lamb"))
    )).toDF("id", "raw")
    remover.transform(dataSet).show()
  }
}

3、輸出結果

+---+--------------------+--------------------+
| id|                 raw|            filtered|
+---+--------------------+--------------------+
|  0|[I, saw, the, red...|  [saw, red, baloon]|
|  1|[Mary, had, a, li...|[Mary, little, lamb]|
+---+--------------------+--------------------+

有問題請聯繫QQ:765120845

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

sparkmllib算法之特徵轉換-第一篇（StopWordsRemover）

0、停止詞介紹

1、示例

1.1、數據準備

1.2、應用停用詞後結果

1.3、說明

2、代碼實現

3、輸出結果

Python實現大麥網搶票的四大關鍵技術點解析

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

阿龍學堂-Java手機號碼歸屬地查詢

sparkmllib算法之特徵轉換-第一篇（StopWordsRemover）

sparkmllib算法之操作-第二篇

sparkmllib算法之操作-第三篇（TF-IDF）

阿龍學堂-中綴-後綴表達式的計算

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結