spark DataFrame正則表達式

原創

Daisy和她的单程车票

2020-06-16 15:38

spark DataFrame正則表達式

注意在spark中使用正則的時候，需要時時刻刻加上轉義自符

'\'需要使用'\\',例如'\w'需要使用'\\w'

正則表達式，使用的庫在sql.funtions 下，如導入split和regexp_extract

import org.apache.spark.sql.functions.{regexp_extract,split}

1.1 split

split 切分字符串
可通過下面的，形如udf函數實現

val splitFunc=udf((arg:String)=>{arg.split(',|[| ')[0]})

也可使用

var data1 = data.withColumn(colName, split(col(colName), pattern=',|[| ')(0))

1.2 regexp_extract

regexp_extract(string subject, string pattern, int index) 將字符串subject按照pattern正則表達式的規則拆分，返回index指定的字符
例子：匹配至少有兩個非數字的gid

val data =fake_data.select(regexp_extract(fake_data("gid"),"^\\d{2}",0).alias("gid"))

1.3 like & rlike的區別

1.3.1 like：

%：匹配零個及多個任意字符
_：與任意單字符匹配
[]：匹配一個範圍
[^]：排除一個範圍
ESCAPE 關鍵字定義轉義符 WHERE ColumnA LIKE ‘%5/%%’ ESCAPE ‘/’
like不是正則，而是通配符

1.3.2 rlike

rlike是正則，正則的寫法與java一樣。’‘需要使用’\’,例如’\w’需要使用’\w’
A rlike ‘\d+’ 匹配一個或多個數字， not A rlike ‘\d+’ 匹配非數字
** 參考鏈接**

正則表達式參考鏈接：https://www.cnblogs.com/wxshi/p/6827056.html

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

ASP正則表達式收集

hutchin 發表於 2006/10/31, 4:34 PM. 學習用正則表達式突出顯示字符串中查詢到的單詞的函數<%'''''Function hs(aa,bb) ''建立函數hs，兩值：aa爲內容，bb爲需要查詢的字符Dim re

2020-07-08 10:27:05

【Python】正則表達式快速入門（re模塊的使用）【轉載】

原文鏈接：https://morvanzhou.github.io/tutorials/python-basic/basic/13-10-regular-expression/ 一、簡單的匹配正則表達式無非就是在做這麼一回事

2020-07-08 09:13:34

SpringBoot如何優雅的進行參數校驗(一)

SpringBoot如何優雅的進行參數校驗一.爲什麼要進行參數校驗在日常的開發過程中,我們常常需要對傳入的參數進行校驗,比如在web前後端分離項目中,參數校驗有兩個方面: 前端進行參數校驗後端進行參數校驗那這兩種

2024-04-23 23:15:58

最新版Spring Security 中的路徑匹配方案！

@[toc] Spring Security 是一個功能強大且可高度定製的安全框架，它提供了一套完整的解決方案，用於保護基於 Spring 的應用程序。在 Spring Security 中，路徑匹配是權限控制的核心部分，它決定了哪些請求可

2024-04-22 12:14:28

關於轉義符 \ 在php正則中的匹配問題

今天做題遇到一個很經典的問題，記錄一下，先看一段代碼 <?php $str，=，"\\"; $pattern，=，"/\\/"; if(preg_match($partern,$str,$arr)) { ，，，，echo，"suc

2024-04-09 22:46:30

京東雲“智能編碼”上線了！免費試用

智能編碼JoyCoder 是一款基於大語言模型、適配多種 IDE 的智能編程助手，可以爲研發人員提供代碼預測續寫、UI 草圖轉前端代碼、生成單元測試、代碼安全漏洞自動識別及修復、一鍵生成接口文檔、AI 智能問答等功能。助力開發者高效、流暢、

2024-04-02 23:16:35

引領向量數據庫技術新變革，Milvus 2.4 正式上線！

備受關注的 Milvus 2.4 正式上線！作爲向量數據庫賽道的領軍者，Zilliz 一直致力於推動向量技術的進步與創新。本次發佈中，Milvus 新增支持基於 NVIDIA 的 GPU 索引—— CUDA 加速圖形索引（CAGRA），

2024-03-25 21:26:35

（小實驗）理解編譯原理：一個四則運算的解釋器

在前面的課程中，我在 JavaScript 和 CSS 的部分，多次提到了編譯原理相關的知識。這一部分的知識，如果我們從編譯原理“龍書”等正規的資料中學習，就會耗費掉不少的時間，所以我在這裏設計了一個小實驗，幫助你快速理解編譯原理相關的知識

2024-03-25 10:20:45

Prompt 工程師壓箱底絕活——Prompt 的基本組成部分、格式化輸出與應用構建

本文由飛槳星河社區開發者張洪申貢獻。張洪申，本科畢業於浙江大學竺可楨學院求是數學班，目前浙江大學控制科學與工程學院博士在讀，研究方向爲數據科學、電力系統。科研工作曾被 Nature 官方公衆號 Nature portfolio 專題報道。

2024-03-21 00:45:40

O2OA(翱途)開發平臺系統安全-用戶登錄IP限制

O2OA(翱途)開發平臺[下稱O2OA開發平臺或者O2OA]支持對指定的用戶設置可以連接的客戶端計算機的IP地址，以避免用戶在不安全的環境下訪問系統。本篇主要介紹如何開啓O2OA用戶登錄IP限制。一、先決條件： 1、O2Serve

2024-03-14 22:57:18

從基礎到代碼實戰，帶你進階正則表達式的全方位應用

本文分享自華爲雲社區《Regex Mastery: 從基礎到高級，解鎖正則表達式的全方位應用》，作者：檸檬味擁抱。正則表達式是一種強大的文本匹配和處理工具，廣泛應用於文本處理、數據抽取、表單驗證等領域。本文將從正則表達式的基礎知識出發，逐

2024-03-14 11:13:09

乾貨|Zabbix監控深信服超融合

前提： -->實現的流程步驟： -->zabbix上超融合監控展示結果所需軟件：1、zabbix 2、python 3、node.js環境所需資料：1、超融合平臺API接口（通過廠家獲取）關聯zabbix知識點：1、zabbix

2024-02-23 22:58:33

ES 規範爲什麼總在 6 月發版？

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！一.JavaScript 的誕生 1995 年 5 月，一個叫 Brendan Eich 的人花 10 天創造了 JavaScript 二

雲棲號資訊小哥

2020-07-08 18:47:09

知道這 20 個正則表達式，能讓你少寫 1,000 行代碼

http://www.runoob.com/regexp/regexp-syntax.html 正則表達式，一個十分古老而又強大的文本處理工具，僅僅用一段非常簡短的表達式語句，便能夠快速實現一個非常複雜的業務邏輯。熟練地掌握正則表

哈哈金馆长

2020-07-08 11:36:23

re.S、re.I、re.M

re.S (使 . 匹配包括換行在內的所有字符) re.I(不區分大小寫) re.M(多行匹配) ^只匹配字符串的開頭，$只匹配字符串結尾，.不匹配換行符. re.S做的事情是: 讓.也匹配換行符 re.M做的事情是: 讓^匹配每行

2020-07-08 11:16:26

24小時熱門文章

最新文章

最新評論文章