原创 詞向量學習總結 [獨熱表示-分佈式表示-word2vec -Glove - fast text - ELMO - BERT]

最近面試**公司,被問到word2vec和Glove的損失函數的區別,有點忘記了,回來後便看了一下。 參考博客資料:NLP中詞向量對比:word2vec/glove/fastText/elmo/GPT/bert 該博客的目錄: 想知道具體

原创 在excel中構建lift table時遇到的$絕對引用、相對引用、混合引用的使用

Back: 在excel中經常會看到絕對引用、相對引用、混合引用的蹤影。例如在計算lift table時,可用其計算TPR  FPR KS 1. 先show一下lift table是什麼: Lift Table一般包含以下特徵列:好佔比(

原创 中文詞向量的訓練

最近在做畢設,需要對中文進行向量化表示,現有的最全中文詞向量預訓練向量有:最全中文詞向量 part 1:以上鍊接中的詞向量介紹: 格式 預先訓練好的向量文件是文本格式。每行包含一個單詞和它的向量。每個值由空格分隔。第一行記錄元信息:第一個

原创 劍指offer在線編程(08-14)【9】

 Date: 2019-08-14 1.  鏈表中環的入口結點   (考察知識點:鏈表) 題目描述 給一個鏈表,若其中包含環,請找出該鏈表的環的入口結點,否則,輸出null。 分析: 第一種不考慮時複雜度時,可以直接利用一個列表對環形鏈表

原创 機器學習面試題集(個人疑惑的題)

找工作一直在找機器學習的崗位,最近在博客上看到一些面試題,做了一下,對自己不懂的地方做了一些總結: 1. 假設X公司的員工收入分佈中位數爲$35,000,25%和75%比例處的數值爲$21,000 和$53,000。收入$1會被認爲是異常

原创 letcode貪心算法練習+6個股票問題總結

Date : 2019-08-21   1.  寶石與石頭 給定字符串J 代表石頭中寶石的類型,和字符串 S代表你擁有的石頭。 S 中每個字符代表了一種你擁有的石頭的類型,你想知道你擁有的石頭中有多少是寶石。 J 中的字母不重複,J 和

原创 算法基礎知識【3】(8-11)

Date: 2019-08-11 1.  算法的空間複雜度是指()。算法空間複雜度指的是算法 執行過程中需要佔用多少內存空間資源 回顧:算法的時間複雜度 2.  在索引順序表中,實現分塊查找,在等概率查找情況下,其平均查找長度不僅與表中元

原创 python中的按位與 +按位或+ 按位反+異或運算 +左移+右移

Date :2019-08-11   1. 按位與        按位與是針對二進制數的操作,指將兩個二進制數的每一位都進行比較,如果兩個相應的二進位都爲 1 則此位爲 1,否則爲 0。在本例中, 5 的二進制表達爲 101 , 3 的二

原创 中文詞向量學習記錄-綜述

最近打算準備畢設,所以需要仔細瞭解一下中文詞向量的最近發展,發現一個比較完整的系列文章: 參考原文鏈接:https://bamtercelboo.github.io/2018/08/16/chinese_embedding_paper_f

原创 算法基礎知識【4】(8-12)

Date: 2019-08-12 1.  算法的時間複雜度與空間複雜度沒有直接關係   因爲:算法的時間複雜度是指執行算法所需要的計算工作量,可以用執行算法過程中所需基本運算的執行次數來度量;算法的空間複雜度是指執行這個算法所需要的內存空

原创 骰子游戲 python 實現

1.扔三顆骰子,求點數之和最大值出現的概率? 思想:三顆骰子的和數取值範圍在[3,18],越靠近兩邊出現的概率越小,點數最大的應該在中間,以下計算9,10,11,12的概率: * * 首先計算出現9的概率:爲了避免重複和遺漏,將點數和爲9

原创 數據挖掘(9-22):數據離散程度+數據清理+三大相關係數+數據庫索引(數據庫面試常問)+P值含義及理解

1.衡量數據離散程度的統計量: 數據的離散程度即衡量一組數據的分散程度如何,其衡量的標準和方式有很多,而具體選擇哪一種方式則需要依據實際的數據要求進行抉擇。 首先針對不同的衡量方式的應用場景大體歸納如下: 極差:極差爲數據樣本中的最大值與

原创 信用卡評分模型(數據獲取+數據預處理+探索分析+變量選擇+模型開發+模型評估+信用評分+建立評分系統)

最近兩次遇到關於信用卡評分的題目,遂瞭解一波。 Reference:  基於python的信用卡評分模型(超詳細!!!) https://www.jianshu.com/p/f931a4df202c https://blog.csdn.n

原创 關於stack和hstack的區別

import numpy as np a=np.array([[1,2,3,21], [4,5,6,22]]) b=np.array([[7,8,9,22], [10,11,12,23]]) d=np.stack((a,b)

原创 tensroflow 三種數據讀取的方法:placeholder feed_dict、queue隊列、Dataset三種方式

參考以下資料:https://www.cnblogs.com/LXP-Never/p/11460000.html 具體個人總結,後續更新。