原创 Wireshark: The capture session could not be initiated on interface

Wireshark是個不錯的抓包工具,可以捕獲HTTP,TCP和UDP的包,對於前後端開發非常有用。在Mac上安裝完Wireshark之後提示如下錯誤:The capture session could not be initiated

原创 joblib和pickle模型持久化保存及加載

訓練模型的時候,通常希望把模型保存下來,方便後面可以做測試的時候交叉驗證。下面簡單介紹兩種保存模型的方法:基於joblib和基於pickle的保存和加載。 1. 使用joblib 這裏joblib是來自於sklearn.externals

原创 tokenizer的生成及padding

我們在做embedding的時候,通常會先做下tokenizer,然後再做word embedding,我們下面看看怎麼來生成tokenizer。 1. 可以先搞一批raw data,可以從網上爬下來,也可以從已有的collection下

原创 conda安裝sklearn

sklearn有很多有用的庫,通常我們用pip管理包的時候,直接用pip (python 2.7)或者pip3 (python 3)安裝就行了。 比如在python2.7下 pip install -U sklearn 或者pytho

原创 MongoDB vs Redis vs HBase

當SQL無法滿足我們的需求或者SQL已經不是必須的或者最佳的選擇時,就可以考慮NoSQL了。 MongoDB是文檔型數據庫,使用bson結構,可以更加靈活的處理嵌套結構的數據,是這三個裏最接近關係型數據庫的,有着非結構化、方便擴充字段、寫

原创 pinyin去掉聲調

拼音表達方式多種多言,有Unicode的符號音調,也有數字音調,通常我們需要在各種格式間相互轉換。我們舉個簡單的例子做個轉換。 #!/usr/bin/python # -*- coding: UTF-8 -*- # map vowel

原创 Elastic Search (ES)基本使用

基於kibana的DevTool可以很方便的進行ES的測試。當然,你可以用curl命令或者Postman等工具進行測試。   下面是一些基本的數據操作,可以參考一下。 # 獲取ES的基本信息 GET _search { "quer

原创 在旋轉後有序數組中查找指定數(Search in Rotated Sorted Array)

題目  Suppose a sorted array is rotated at some pivot unknown to you beforehand. (i.e., 0 1 2 4 5 6 7 might become 4 5 6

原创 Mac上啓動、關閉、重啓MySQL服務

1. 啓動服務 mysql.server start 2. 關閉服務 mysql.server stop 3. 重啓服務 mysql.server restart 點贊 收藏 分享 文章舉

原创 LeetCode 題目解析

所有代碼均是基於C++11實現,有部分代碼參考了其他同學的實現。這裏只做部分test,test case寫的有限,並不會cover所有的Corner case。大家可以只作爲參考,添加更多的test case。有些面試官會讓你自己寫tes

原创 移除有序數組的重複數字(Remove Duplicates from Sorted Array)

題目 Given a sorted array, remove the duplicates in place such that each element appear only once and return the new leng

原创 移除有序數組的重複數字 2(Remove Duplicates from Sorted Array II)

題目 Follow up for "Remove Duplicates": What if duplicates are allowed at most twice? For example, Given sorted array A =

原创 決策樹分類算法剖析

面試中,大家不僅要懂得目前比較流行的深度學習算法,對於傳統的分類和聚類算法也要了解一些。在實際應用中也不是所有的深度學習算法就是萬能的,訓練時間久、可解釋性差都可能會阻礙在工業界的使用,很多情況下還是需要用到傳統的分類和聚類算法。 十二年

原创 決策樹ID3與C4.5的python實現

測試文件格式如下,保存爲isFish.csv no surfacing,flippers,isFish 1,1,yes 1,1,yes 1,0,no 0,1,no 0,1,no 代碼如下:具體基礎邏輯可以參考https://blog.c

原创 Error: Another active Homebrew update process is already in progress.

用brew安裝的時候,你如果安裝一半就按Ctrl+Z停掉,這個時候brew有個臨時文件,你再次執行brew安裝其他包的時候就會報錯。 Error: Another active Homebrew update process is al