台部落Macanv

本題leetcode 地址：https://leetcode-cn.com/problems/merge-intervals/ 組合子區間，將重合的區間進行最大的組合，得到沒有重合的區間例如輸入: [[1,3],[2,6],[

2019-10-26 21:36:47

清華大學THUCNews數據集處理方法數據集下載地址:http://thuctc.thunlp.org/ 本文主要記錄了清華的THUCNEWS數據集用於文本分類的數據預處理方法，比較簡單直接上代碼 #! usr/bin/env

2019-09-26 20:55:55

在分佈式環境中關閉jieba延時加載的方法這篇博客是記錄在使用spark+jieba的過程中，每個task調動jieba分詞的時候需要進行延時加載或者從緩存中讀取模型文件從而浪費時間問題： Building prefix dict

2019-02-22 03:46:33

PySpark TopK 問題(分組TopK) 記錄幾種利用PySpark計算TopK的方法,準備使用兩個例子，其中第一個例子是計算不同院系，不同班,不同學科的成績前K名的分數。第二個例子以文本數據爲例，計算在不同文本類別下出現Top

2019-02-22 03:46:33

Spark中得groupByKey,reduceByKey和 combineByKey區別於各自用法這篇博文記錄Spark中經常使用到的shuffle操作groupByKey,reduceByKey和 combineByKey，其中

2019-02-22 03:46:33

使用PySpark進行TF-IDF計算這篇博文將記錄使用PySpark進行TF-IDF統計的過程，將提供多種計算方法。 1. 準備數據爲了簡單，同時爲了驗證自己的程序有木有錯誤，我使用如下的測試數據： 1 我來到北京清華大學 2

2019-02-20 00:52:07

BERT-BiLSMT-CRF-NER Tensorflow solution of NER task Using BiLSTM-CRF model with Google BERT Fine-tuning 使用谷歌的BERT模型在B

2019-01-04 02:41:01

227

hadoop2.7編譯以及部署時遇到的坑 1.編譯時，mvn 出錯使用如下mvn編譯，注意-P後面不要帶docs mvn package -Pdist,native -DskipTests -Dtar 部署完成後，運行sta

2018-10-06 09:23:54

鏈表克隆，今天看面經的時候，發現很多公司都考了這個題目，也有很多童鞋掛在這個題目上，廢話不多說，直接說解決辦法。 1. 克隆鏈表最簡單的，從直接克隆簡單鏈表開始吧，鏈表結構定義如下: class RandomListNode {

2018-08-24 18:12:15

題目一使用的方法對鏈表進行排序原題: Sort a linked list in O(n log n) time using constant space complexity. 分析: 複雜度爲O(n log n) 的排序第一時間

2018-08-24 18:12:15

spark 計算TF-IDF的多種方法 TF-IDF相關概念請移步百度百科下面記錄自己在做關鍵詞抽取的時候，計算TF-IDF時候的經歷，使用spark不多。下面的始終方法我都試過，最後選了第四個方案，在500W篇新聞中，計算2-gr

2018-08-24 18:12:15

基於sklearn的文本分類—樸素貝葉斯(2) 本文是文本分類的第二篇，記錄使用樸素貝葉斯進行文本分類任務，數據集下載地址:http://thuctc.thunlp.org/ 文本分類的主要內容如下: - 1.基於邏輯迴歸

2018-08-24 18:12:15

Hive 學習筆記（1）— Hive的配置系統環境 OS: centos6.5 64bit metastore: MySQL Hive version: 1.2.1 hadoop version 2.6.5 安裝配置 1. 官網下

2018-08-24 18:12:15

1. 簡介決策樹又稱判別樹，它是基於樹形結構來進行決策的，就比如咱以前學過的二叉樹，一個節點有兩個孩子，左孩子爲true，右孩子爲false，在決策樹中，一個節點代表一個屬性（特徵，feature。。。）每一個屬性可能有不同的屬性值，有

2018-08-24 18:12:14

這篇文章將記錄如何使用spark DataFrame將列數據展開，這裏使用的是explode方法將對List數據和Map分別給出展開的例子：在stackoverflow 中的問題是這樣的： https://stackoverflow.

2018-08-24 18:12:14