原创 【知識圖譜】neo4j安裝---linux

1、下載社區版的neo4j,不要去官網下載,我的下載地址是: http://neo4j.com.cn/topic/5b003eae9662eee704f31cee 2.無需安裝,直接解壓,然後進入它的bin目錄,在終端敲

原创 異常值檢測方法

一、異常值是指什麼?請列舉識別連續型變量異常值的方法? 答:異常值是指樣本中的個別值,其數值明顯偏離所屬樣本的其餘觀測值。在數理統計裏一般是指一組觀測值中與平均值的偏差超過兩倍標準差的測定值。 常用的檢驗法有(按優劣次序): (1

原创 《計算機網絡》小結01

一、計算機網絡基本概念 1.網絡的特性 共享性和互聯性 2.網絡與互聯網的區別 1)網絡是通過集線器等將主機相連 2)互聯網是通過路由器將網絡相連 3.ISP和IXP 1)ISP互聯網提供者:主幹網/地區網/校園網 2)IXP互聯

原创 機器學習:模型調參

一、網格調參 from sklearn.model_selection import GridSearchCV parameters = [{'a1':['a','b'],'a2':['a','b']}] clf = GridSe

原创 機器學習:如何判斷和解決過擬合和欠擬合

1.利用學習曲線判斷 2.誤差 = 偏差(精確率) + 方差(穩定性) 3.下圖中虛線爲訓練集,實線爲測試集 ''' 功能:判別過擬合和欠擬合 學習曲線Learning Curve:評估樣本量和指標的關係 驗證曲線validat

原创 機器學習:模型評估指標

一、錯誤率和準確率 from sklearn.metrics import accuracy_score print('準確率',accuracy_score(y_true,y_pred,normalize=True)) prin

原创 機器學習:邏輯迴歸、多分類問題

一、sklearn代碼 from sklearn.linear_model import LogisticRegression ''' (1)penalty:使用指定正則化項(默認:l2) (2)dual: n_samples >

原创 機器學習:迴歸模型,正則化

一、線性迴歸 1.最小二乘法:最小化均方誤差MSE,即點到直線的歐式距離最小,從而求解w和b 2.優點:速度快,建模簡單,解釋性強 3.缺點:異常值敏感 from sklearn.linear_model import Linea

原创 機器學習:數據集劃分(包含交叉驗證)

1.留出法 原始數據分成訓練集、驗證集和測試集,並且保持數據分佈的一致性,可以使用shuffle 缺點:只進行了一次劃分,數據結果具有偶然性 from sklearn.model_selection import train_

原创 算法面試基本問題

一、Java 1.一個Java程序可以認爲是一系列對象的集合,而這些對象通過調用彼此的方法來協同工作。下面簡要介紹下類、對象、方法和實例變量的概念。 2.對象:對象是類的一個實例,有狀態和行爲。 3.類:類是一個模板,它描述一類對

原创 學術論文有關事項

一、論文閱讀步驟 1)搜索 先找領域內的A類會議,再根據關鍵詞搜索相關論文20篇 2)初篩選 20篇論文先根據頁數(一般8頁以上,少於8頁的可忽略)篩選一遍 先看論文的摘要,總結這篇論文通過xx方法研究xx問題,得到xx結果

原创 實習面試&正式秋招總結

一、華爲實習面試及轉正面試 【崗位:機器學習算法崗】 1.申請時間:2018年12月31日前,簡歷註冊 2.線上筆試時間:1月5日19:00-21:00,全程攝像,不能查閱任何資料,可以用本地IDE,線上平臺爲牛客網,語言不限。

原创 使用CRF++實現命名實體識別

【定義】 CRF++是著名的條件隨機場的開源工具,也是目前綜合性能最佳的CRF工具,採用C++語言編寫而成。其最重要的功能是採用了特徵模板。這樣就可以自動生成一系列的特徵函數,而不用我們自己生成特徵函數,我們要做的就是尋找特徵,比

原创 財務造假判斷+面試+車牌識別

一、線上賽題 題目:判斷企業財務是否造假 難點:類別不均衡,造假類遠少於非造假類,大概比例爲70:1 主要步驟 1.數據預處理 一共36列,其中公司代碼列作爲索引,沒有使用。fake列作爲預測的標籤列。還剩下34列。