台部落吕秀才

　　minhash是一種基於jaccard index 相似度的算法。屬於LSH(Location Sensitive Hash)家族中的一員。　　jaccard index ：有兩個集合A={a , b , c , d , e

2020-06-21 22:42:32

前一陣子有一個學弟問kmeans算法的初始中心點怎麼選，有沒有什麼算法。我讓他看看kmeans++，結果學弟說有地方沒看懂。然後，他不懂的地方，我給標註了一下。下面是網上的資料，我對畫線的地方做了標註。 k-means++

2020-06-21 22:42:32

閒來無事，想起上學時數據結構課程中有個字符串位移的小算法挺有意思，今天寫了下，就測試了一個字符串，純屬娛樂。 public class Offset { public static void swap(char [] chars

2020-06-21 22:42:32

前一陣子我們部門接到了業務那邊的一個需求。想通過用戶的wifi數據計算出商場內用戶最喜愛走的線路。其實說白了就是用戶軌跡聚類。根據業務的需求，我們最終採用了traClus聚類算法。traClus算法相比於其它的軌跡聚類算法的一

2020-06-21 22:42:27

一、從Trie說起　　DAT是Double Array Trie的縮寫，說到DAT就必須先說一下trie是什麼。Trie樹是哈希樹的一種，來自英文單詞"Retrieval"的簡寫，可以建立有效的數據檢索組織結構，trie中文叫做鍵樹，也

2020-06-21 22:42:26

Abstract 我們介紹了一個叫BERT的模型，BERT是“Bidirectional Encoder Representations from Transformers”首字母的縮寫。與最近的語言表示模型不同，BERT通過在每

2020-06-21 22:42:26

今天要把HBase中的部分數據轉移到HDFS上，想根據時間戳來自動輸出到以時間戳來命名的每個文件夾下。雖然以前也做過相似工作，但有些細節還是忘記了，所以這次寫個隨筆記錄一下。 package com.chuntent.hadoop

2020-06-21 22:42:26

1、使用lm模型來做。主要思想：根據歷史對話，生成新的語句：注意，這裏不一定是回答語句。 a)基礎數據：100w qq聊天對話。見下圖 b)數據處理： i)沒有分詞，以字爲基礎進行編碼。 ii)歷史對

2020-06-21 22:42:26

　　以前用java寫MR程序總不習慣寫單元測試，就是查錯也只是在小規模數據上跑一下程序。昨天工作時，遇到一個bug，查了好久也查出來。估計是業務邏輯上的錯誤。後來沒辦法，只好寫了個單元測試，一步步跟蹤，瞬間找到問題所在。所以說，工作中還

2020-06-21 22:42:26

使用tensorflow實現了簡單的rnn網絡用來學習加法運算。 tensorflow 版本：1.1 import tensorflow as tf from tensorflow.contrib import rnn class R

2020-06-21 22:42:25

文章目錄Attention Is All You Need 摘要1 Introduction（簡介）2 Background（背景）3 Model Architecture（模型結構）3.1 Encoder and Decoder

2020-06-21 22:42:25

一、說明　　IG是information gain 的縮寫，中文名稱是信息增益，是選擇特徵的一個很有效的方法（特別是在使用svm分類時）。這裏不做詳細介紹，有興趣的可以googling一下。　　chi-square 是一個常用特徵篩

2020-02-20 18:48:55

最近在做QA系統，用tensorflow做了些實驗，下面的的是一個cnn的評分網絡。主要參考了《APPLYING DEEP LEARNING TO ANSWER SELECTION: A STUDY AND AN OPEN TASK》這

2020-02-20 18:48:54

最近寫了個商品搜索模塊，要做成tomcat服務，以前只關注算法，從來沒有使用過tomcat，這次上網上查了些資料還搞定（小公司真是鍛鍊人啊，以前我從來不考慮這些服務問題）。 1、tomcat 環境的搭建　　直接從網上下載tomcat壓

2020-02-20 18:48:54

　　前幾天寫dijkstra算法，想到了最小堆。今天整理了一下。發了出來。還是本着說明天的原則。代碼沒有進行壓縮。　　最小堆：　　1、用數組表示時，假設當前根節點的下標爲i ，則其兩個子節點的下標分別爲 2*i + 1 與 2*i

2020-02-20 18:48:54