大数据平台数仓如何配置udf

原創

2020-04-04 13:00

udf即自定义函数，适用于一般的函数无法满足当前工作需要或者特定场景需求等所应运而生的工具函数

本文拿汉字匹配来举例，udf一般可以用python和java来编写，java用的比较多，对平台的适应性也更好，但python udf开发难度低

在java IDEA里进行udf 开发

首先写好汉字匹配的java脚本，该脚本无需写main函数，直接写public函数即可，其他要求以各大数据平台为准，脚本如下，注意这里需要导入hadoop的类，建议用maven建项目

package cn.hhy.udf;

import org.apache.hadoop.hive.ql.exec.UDF;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public final class filterHZ extends UDF {
    public String evaluate(String col1){
        //匹配汉字
        String regex = "([\u4e00-\u9fa5]+)";
        String str_hz = "";
        //提取汉字
        if(col1 != null){
            Matcher ma = Pattern.compile(regex).matcher(col1);
            while(ma.find()){
                str_hz += ma.group(0);
            }
        }
        return str_hz;
    }
}

之后打出jar包，如何打jar包

把该jar包上传到平台资源管理里，然后在函数管理里创建函数，映射该jar包，命名创建完成即可

函数使用：

select getHZ('FHK匹配JS汉字123fds符合东方  *** 飞机的回复、31 3256323232若峰的算法555555%%%7,,,   ');

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

PolarDB-X 分区建列类型变更

背景縱觀數據庫領域數十年來的發展，關係型數據庫脫穎而出的一個重要原因是，它支持用戶靈活地定義和修改“數據模型”。 PolarDB-X 作爲一款雲原生關係型數據庫，同樣支持通過各種 DDL 語句對數據模型進行修改，以滿足用戶業務的不斷髮展

2023-07-21 00:32:24

基于 Package 跨项目访问资源实践

背景目前隨着公司業務的不斷擴展，各個業務線的數據也越來越多，如果所有數據都集中管理比較錯綜複雜。MaxCompute的跨項目訪問資源比較適合這樣的場景。每個業務線創建對應的project，自行管理數據。如果有需要訪問其他業務線數據的訴求

2023-05-25 00:23:01

HashTable 在蚂蚁转化归因中的极致运用

概述螞蟻的轉化歸因在初期運行兩個多小時的情況下，進行了一系列優化，其中建立hash cluster表及強制hash關聯及Shuffle的手動干預進行remove操作此部分優化佔了較大比重。本文則主要講述hash cluster表的一些運

2023-05-16 12:22:33

关系代数和SQL语法

數據分析的語言接口 OLAP計算引擎是一架機器，而操作這架機器的是編程語言。使用者通過特定語言告訴計算引擎，需要讀取哪些數據、以及需要進行什麼樣的計算。編程語言有很多種，任何人都可以設計出一門編程語言，然後設計對應的編譯器做解析。編程語言

2023-01-31 00:01:22

消息服务 + Serverless 函数计算助力企业降本提效

背景介紹消息隊列服務（下文均以 Message Service 命名）作爲雲計算 PaaS 領域的基礎設施之一，其高併發、削峯填谷的特性愈發受到開發者關注。Message Service 對上承接消息生產者服務的請求，對下連接消費者服務

2023-01-13 23:56:47

Spark-SQL之DataFrame基本操作

1、創建DataFrame 本文所使用的DataFrame是通過讀取mysql數據庫獲得的，代碼如下: val spark = SparkSession .builder() .appName("Spark

2022-04-30 11:41:13

深度揭秘Greenplum数据库透明加密

今天爲大家介紹的是基於下一代Greenplum數據庫的數據安全組件的一個重要組成部分——數據透明加密。數據加密已經成爲保證數據庫安全必不可少的一項要求。傳統Greenplum使用外部的UDF在實現數據加密，在易用性和性能方面都有所欠缺。爲了

2022-04-30 11:10:11

活动报名｜Arch Meetup#8-杭州站

AI 時代產生了大量的非結構化數據，也對海量信息環境下的檢索造成了巨大的挑戰。作爲專爲 AI 應用場景而生的雲原生向量數據庫 Milvus，在過去的 2 年間也不斷地爲降低開發者構建非結構化數據分析處理類應用的困難尋找

2021-08-11 21:35:26

【版本发布】Linkis 1.0.1正式发布

【版本發佈】Linkis 1.0.1 正式發佈 Linkis 1.0.1正式發佈啦！ Linkis 1.0.1對Linkis1.0.0版本發現Bug和影響性能，

2021-07-30 21:42:15

Hive 自定义UDF函数

Hive的SQL可以通過用戶定義的函數（UDF），用戶定義的聚合（UDAF）和用戶定義的表函數（UDTF）進行擴展。當Hive提供的內置函數無法滿足你的業務處理需要時，此時就可以考慮使用用戶自定義函數（UDF）。 UDF、UDAF、UDT

2021-07-16 21:25:47

spark2.1注册内部函数spark.udf.register("xx", xxx _)，运行时抛出异常：Task not serializable

spark2.1註冊內部函數spark.udf.register("xx", xxx _)，運行時拋出異常：Task not serializable 參考文章：（1）spark2.1註冊內部函數spark.udf.register("

2021-05-16 09:19:37

时序数据库Influx-IOx源码学习一（项目背景）

爲什麼會發起IOx項目原文請參見: https://www.influxdata.com/blog/announcing-influxdb-iox/ 1. 下一步的目標原文中介紹到，過去的7年時間的發展中，InfluxDB 在

2021-04-15 21:35:51

flinksql 自定义udf

1、pom.xml(注意：pom中有多餘的jar，本人暫時未進行剔除) <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/

2021-03-22 21:38:24

网易游戏基于 Flink 的流式 ETL 建设

網易遊戲資深開發工程師林小鉑爲大家帶來網易遊戲基於 Flink 的流式 ETL 建設的介紹。內容包括：業務背景專用 ETL EntryX 通用 ETL 調優實踐未來規劃一. 業務背景網易遊戲 ETL 服務概況網

2021-03-22 21:36:59

hive学习笔记之二：复杂数据类型

歡迎訪問我的GitHub https://github.com/zq2599/blog_demos 內容：所有原創文章分類彙總及配套源碼，涉及Java、Docker、Kubernetes、DevOPS等；《hive學習筆記》系列導航基

2021-03-22 21:14:23

24小時熱門文章

python gdal 安装使用（Windows， python 3.6.8）

最新文章

最新評論文章