原创 數據庫字段數據(暱稱)排序,規則: 數字>英文字母>漢字首字母 兼容簡繁體排序

數據庫字段數據(暱稱)排序,規則: 數字>英文字母>漢字首字母 兼容簡繁體排序  我們找資料,最急於尋找解決方案,再到爲什麼是這個, 所以先說解決思路:order by convert_to(你要排序的字段,'GBK') :解決了 

原创 Spark性能優化指南——高級篇 (轉自美團)

轉自:https://tech.meituan.com/spark-tuning-pro.html 前言 繼基礎篇講解了每個Spark開發人員都必須熟知的開發調優與資源調優之後,本文作爲《Spark性能優化指南》的高級篇,將深入

原创 Spark性能優化指南——基礎篇 (轉自美團)

Spark性能優化指南——基礎篇 感謝原作者:李雪蕤 轉自:https://tech.meituan.com/spark-tuning-basic.html 前言 在大數據計算領域,Spark已經成爲了越來越流行、越來越受歡迎的計

原创 機器學習-KMeans聚類 K值以及初始類簇中心點的選取

感謝原作者,轉自:https://www.cnblogs.com/kemaswill/archive/2013/01/26/2877434.html 機器學習-KMeans聚類 K值以及初始類簇中心點的選取   本文主要基於

原创 機器學習中的數據清洗與特徵處理綜述(轉)

轉自:https://tech.meituan.com/machinelearning-data-feature-process.html 背景 隨着美團交易規模的逐步增大,積累下來的業務數據和交易數據越來越多,這些數據是美團做

原创 spark 算子combineByKey 詳解

combineByKey 作爲spark 的核心算子之一,有必要詳細瞭解。reduceByKey 和groupByKey 等健值對算子底層都實現該算子。(1.6.0版更新爲combineByKeyWithClassTag) combine

原创 PostgreSQL 窗口函數複習筆記

在總結hive之前特地回去複習了一下,以前PostgreSQL的窗口函數(MySQL目前還沒有支持),以下基於版本9.3實驗。 我們都知道在sql中有一類函數叫做聚合函數,例如sum()、avg()、max()等等,這類函數可以將多行數據

原创 spark 常用算子 詳解

Spark算子可以分成兩大類: 1.Transformation類算子 2.Action類算子。 轉換(轉化操作)算子,這類轉化操作爲懶執行,不會觸發提交作業,從而也不會處理中間過程。Transformation 操作是延遲計算的,