原创 合併子區間

本題leetcode 地址:https://leetcode-cn.com/problems/merge-intervals/ 組合子區間,將重合的區間進行最大的組合,得到沒有重合的區間 例如 輸入: [[1,3],[2,6],[

原创 清華大學THUCNews數據集處理方法

清華大學THUCNews數據集處理方法 數據集下載地址:http://thuctc.thunlp.org/ 本文主要記錄了清華的THUCNEWS數據集用於文本分類的數據預處理方法,比較簡單直接上代碼 #! usr/bin/env

原创 在分佈式環境Spark中關閉jieba延時加載等優化方法 (3)

在分佈式環境中關閉jieba延時加載的方法 這篇博客是記錄在使用spark+jieba的過程中,每個task調動jieba分詞的時候需要進行延時加載或者從緩存中讀取模型文件從而浪費時間問題: Building prefix dict

原创 PySpark TopK 問題(分組TopK)(4)

PySpark TopK 問題(分組TopK) 記錄幾種利用PySpark計算TopK的方法,準備使用兩個例子,其中第一個例子是計算不同院系,不同班,不同學科的成績前K名的分數。第二個例子以文本數據爲例,計算在不同文本類別下出現Top

原创 Spark中得groupBy,reduceByKey和 combineByKey區別於各自用法 (5)

Spark中得groupByKey,reduceByKey和 combineByKey區別於各自用法 這篇博文記錄Spark中經常使用到的shuffle操作groupByKey,reduceByKey和 combineByKey,其中

原创 PySpark TF-IDF計算(2)

使用PySpark進行TF-IDF計算 這篇博文將記錄使用PySpark進行TF-IDF統計的過程,將提供多種計算方法。 1. 準備數據 爲了簡單,同時爲了驗證自己的程序有木有錯誤,我使用如下的測試數據: 1 我來到北京清華大學 2

原创 基於BERT預訓練的中文命名實體識別TensorFlow實現

BERT-BiLSMT-CRF-NER Tensorflow solution of NER task Using BiLSTM-CRF model with Google BERT Fine-tuning 使用谷歌的BERT模型在B

原创 hadoop2.7編譯以及部署時遇到的坑

hadoop2.7編譯以及部署時遇到的坑 1.編譯時,mvn 出錯 使用如下mvn編譯,注意-P後面不要帶docs mvn package -Pdist,native -DskipTests -Dtar 部署完成後,運行sta

原创 克隆鏈表

鏈表克隆,今天看面經的時候,發現很多公司都考了這個題目,也有很多童鞋掛在這個題目上,廢話不多說,直接說解決辦法。 1. 克隆鏈表 最簡單的,從直接克隆簡單鏈表開始吧,鏈表結構定義如下: class RandomListNode {

原创 LeeCode 列表排序

題目一 使用的方法對鏈表進行排序 原題: Sort a linked list in O(n log n) time using constant space complexity. 分析: 複雜度爲O(n log n) 的排序第一時間

原创 Spark 學習筆記 TF-IDF

spark 計算TF-IDF的多種方法 TF-IDF相關概念請移步百度百科 下面記錄自己在做關鍵詞抽取的時候,計算TF-IDF時候的經歷,使用spark不多。 下面的始終方法我都試過,最後選了第四個方案,在500W篇新聞中,計算2-gr

原创 文本分類---樸素貝葉斯(2)

基於sklearn的文本分類—樸素貝葉斯(2) 本文是文本分類的第二篇,記錄使用樸素貝葉斯進行文本分類任務,數據集下載地址:http://thuctc.thunlp.org/ 文本分類的主要內容如下: - 1.基於邏輯迴歸

原创 Hive 學習筆記(1)---hive的配置

Hive 學習筆記(1)— Hive的配置 系統環境 OS: centos6.5 64bit metastore: MySQL Hive version: 1.2.1 hadoop version 2.6.5 安裝配置 1. 官網下

原创 決策樹(1)ID3原理以及代碼實現

1. 簡介 決策樹又稱判別樹,它是基於樹形結構來進行決策的,就比如咱以前學過的二叉樹,一個節點有兩個孩子,左孩子爲true,右孩子爲false,在決策樹中,一個節點代表一個屬性(特徵,feature。。。)每一個屬性可能有不同的屬性值,有

原创 [3].Spark 學習筆記 使用java ---explode

這篇文章將記錄如何使用spark DataFrame將列數據展開,這裏使用的是explode方法 將對List數據和Map分別給出展開的例子: 在stackoverflow 中的問題是這樣的: https://stackoverflow.