原创 tensorflow serving安裝、部署、調用、多模型版本管理教程

說明:該文檔使用typora寫的,由於typora的markdown格式與CSDN有一定的出入,導致顯示有點小瑕疵,懶得改了,勿噴。 1. 準備模型 使用tf.keras訓練一個簡單的線性迴歸模型,保存爲protobuf文件。 i

原创 中文文本拼寫檢查錯誤糾正方案整理

說明: 該文檔主要考察平安文本糾錯項目和愛奇藝文本糾錯項目整理而來。 1. 常見的中文錯誤類型 發音錯誤, 特點:音近,發音不標準, 原因:地方發音,語言轉化。 - 灰機 拼寫錯誤:特點: 正確詞語錯誤使用, 原因: 輸入

原创 pyspark 遇到的問題

最近弄pyspark,想通過spark操作hdfs,遇到一些問題,記錄下來! 1。 剛看到這個問題的時候很懵逼,果斷去查看了集羣的防火牆,端口9000的狀態,集羣是否允許遠程登錄等問題,發現還是不行,重新換了一個自己本地配置的

原创 依存句法分析總結

1. 基本概念 依存句法分析(Dependency Parsing,DP)通過分析語言單位內成分之間的依存關係,揭示其句法結構。直觀來講,就是分析句子中的“主謂賓”、“定狀補”這些語法成分,並分析各成分的關係。對句法結構進行分析,

原创 Spark源碼學習- SparkContext

SparkContext是整個Spark的唯一入口,是Spark上層應用和底層實現的中轉站,以重要性不言而喻,這也是我學習Spark源碼的第一步。 借鑑http://blog.csdn.net/OiteBody/article/

原创 kylin 維度優化,Aggregation Group,Joint,Hierachy,Mandatory等解析

衆所周知,Apache Kylin 的主要工作就是爲源數據構建 N 個維度的 Cube,實現聚合的預計算。理論上而言,構建 N 個維度的 Cube 會生成 2n 個 Cuboid, 如圖 1 所示,構建一個 4 個維度(A,B,

原创 kylin介紹

看過一些kylin資料之後,自己對kylin的一些基本知識做一些總結,也算是對知識的一個備份吧。、 kylin的歷史背景之內的我就介紹了,網上一大堆信息。 kylin官網 : http://kylin.apache.org 1

原创 linux 中文件(文件夾)的基本信息

Linux 是一個多用戶的系統,不同的用戶處於不同的地位,對於同一個文件具有不同的權限。Linux系統對不同的用戶訪問同一文件(包括目錄文件)的權限做了不同的規定。 Linux中使用ll或者ls -l來顯示目錄下的所有文件的信息,

原创 spark mllib 之 Pipeline工作流構建

Spark 機器學習庫從 1.2 版本以後被分爲兩個包 spark.mllib 包含基於RDD的原始算法API。Spark MLlib 歷史比較長,在1.0 以前的版本即已經包含了,提供的算法實現都是基於原始的 RDD。 spa

原创 kylin2.1.0 + CHD5.7環境搭建

由於cloudera本身並沒有集成kylin的服務,也並沒有kylin的 parcel包, 所以需要我們單獨配置kylin的集羣環境,kylin的本身配置並不難,但是它需要依賴 HDFS,hive,hbase組件,所以在部署kyl

原创 spark 通信機制

轉載自:http://www.aboutyun.com/thread-21115-1-1.html bute 對於Network通信,不管傳輸的是序列化後的對象還是文件,在網絡上表現的都是字節流。在傳統IO中,字節流表示爲Stre

原创 Spark源碼學習-windows使用idea搭建源碼閱讀集羣

最近準備開始看spark源碼,第一步當然是要搭建一個舒適的spark源碼閱讀環境,通過單步調試才能順藤摸瓜的理清具體脈絡,有助與提高閱讀效率。在搭建環境過程中,遇到一些奇怪的錯誤,但居然都鬼使神差的搞定了,人品啊,哈哈哈 Spar

原创 windows10下使用idea遠程調試hadoop集羣

在windows10環境下,使用idea搭建maven項目鏈接Linux上的hadoop集羣。 注意事項:           保證hadoop集羣的用戶與Windows的用戶一致,不然後報錯,錯誤信息我忘了,反正很麻煩 1. 下載had

原创 kylin 官方案例learn_kylin手動創建測試

在上一篇文章中介紹了kylin相關的基本知識,這篇文章的主要目的是針對kylin初學者,進行一次詳細的kylin案例介紹,這裏,我們還是以官方給定的數據爲例。說明,我用的是kylin2.1.0. 與kylin1.x 可能有不一樣的

原创 Spark ML 之 RDD to DataFrame (python版)

由於工作需要,最近開始用Python寫Spark ML程序,基礎知識不過關,導致一些簡單的問題困擾了好久,這裏記錄下來,算是一個小的總結,說不定大家也會遇到同樣的問題呢,順便加一句,官方文檔纔是牛逼的,雖然我英語很菜。 先說下我的