原创 mac上AnyProxy安裝與使用

簡介 AnyProxy是阿里開源的一個抓包工具,其原理與fiddler、charles一樣,其本質功能都相同。大家如果用過charles的話,會發現AnyProxy的界面更加簡潔,操作更加方便。 這個是安裝好的AnyProxy界

原创 python實現Simhash處理大規模文本相似度

Simhash簡介: Simhash–顧名思義,通過hash值比較相似度,通過兩個字符串得出來的hash值,進行異或操作,然後得到相差的個數,數字越大則差異越大。 Simhash流程: 計算文本hash值的步驟: 1、用分詞工具(

原创 HashTable has different value for same key. Key has 1 and trying to add value 4

今天在處理語料的時候,總是遇到上面的這個問題,我總以爲是我的語料裏面有重複的詞語出現,但是用以前的編譯過的程序進行去重的時候發現,文本的總行數是不變的,也就是說,語料裏面並沒有重複性的詞語或字,可是,爲什麼總會出現這樣的情況呢?

原创 訓練K-Means與DBSCAN算法模型

在copy代碼之前,先來對k-means和dbscan算法進行簡單的瞭解一下吧。 k-means 介紹 K-means聚類算法也稱k均值聚類算法,是集簡單和經典於一身的基於距離的聚類算法。它採用距離作爲相似性的評價指標,即認爲兩個

原创 INSERT OVERWRITE LOCAL DIRECTORY

最近在hive操作導數據時,碰到了一些問題,主要是通過INSERT OVERWRITE LOCAL DIRECTORY來進行數據的導出操作,現在主要說一下需要注意的事項: INSERT OVERWRITE LOCAL DIRECT

原创 推薦系統之UserCF算法

基於用戶的協同過濾算法 算法概念: UserCF算法是推薦系統中協同過濾算法中的一種,稱爲基於用戶的協同過濾算法。該算法通過用戶A的興趣,找到興趣相同的其他用戶,將其他用戶喜歡而用戶A沒有的物品進行推薦。 算法步驟: 找到和目標

原创 ServiceUnavailable: WebSocket connection failure. Due to security constraint

出現這個問題的環境如下: 在linux部署neo4j; vim /conf/neo4j.conf 修改以下配置項 #dbms.directories.import=import dbms.memory.heap.initial_

原创 Python解析xml找出同目錄標籤

什麼是 XML? XML 指可擴展標記語言(eXtensible Markup Language)。 你可以通過本站學習 XML 教程 XML 被設計用來傳輸和存儲數據。 XML 是一套定義語義標記的規則,這些標記將文檔分成許多部

原创 知識圖譜-Neo4j圖形知識庫

圖形數據庫(Graph Database)是NoSQL數據庫家族中特殊的存在,用於存儲豐富的關係數據,Neo4j 是目前最流行的圖形數據庫,支持完整的事務,在屬性圖中,圖是由頂點(Vertex),邊(Edge)和屬性(Pr

原创 問答系統對問題分類

通過對問答系統的問題進行分類,可以使我們更加清楚問題的類別,以便更加容易針對某種問題的類型進行建模。 我把問題分爲6類,其中爲“5W”,即where、when、who、why、what及other。 # encoding=utf-8

原创 mysql防止插入重複數據

我們對mysql插入數據分爲兩種情況: 一、以主鍵爲區別字段,主鍵不能重複 方案一: insert ignore into table_name(email,phone,user_id) values('[email protected]',

原创 java使用log4j輸入到指定文件中

今天遇到了一個新問題,在java程序中,寫入一個拋出異常的語句,當有錯誤的時候,系統會把錯誤輸出到控制檯,那麼我們怎麼把控制檯上的錯誤信息當做日誌輸出到我們特定的日誌當中呢。 這個問題需要藉助log4j神器,我們在程序中導入以下兩個包

原创 最短編輯距離

概念: 字符串的編輯距離,又稱爲Levenshtein距離,由俄羅斯的數學家Vladimir Levenshtein在1965年提出。是指利用字符操作,把字符串A轉換成字符串B所需要的最少操作數。其中,字符操作包括: ⋅\cdot⋅

原创 docker打包jar鏡像

小編最近在實習公司幫忙做項目部署,對方要求需要把jar包再次進行docker鏡像封裝,小編呢也沒有了解過docker鏡像,於是就去百度了一波,發現了這個Docker中文文檔,感覺還不錯,大家不會的可以來看看,很詳細的介紹了有關Dock

原创 TF-IDF關鍵詞提取算法

參考書目:python自然語言處理實戰——核心技術與算法 TF/IDF 基本思想:TF是計算一個詞在一篇文檔中出現的頻率,IDF是一個詞在多少篇文檔中出現過,顯然TF越高證明這個詞在這篇文章中的代表性就越強,而INF越低則證明這