原创 presto ,hive 區別

Presto是由Facebook開發的,是一個運行在多臺服務器上的分佈式查詢引擎,本身並不存儲數據,但是可以接入多種數據源(Hive、Oracle、MySql、Kafka、Redis等),並且支持跨數據源的級聯查詢,比如: select

原创 pyspark 操作

1. 日期轉時間戳 spark_df_from_csv = spark.read.csv('/data1/AIPlatform/look_order_cross_city_new_deepfm_0116_0130_origin.csv'

原创 AFM,NFM

推薦系統中使用ctr排序的f(x)的設計-dnn篇之AFM模型  圖中的前三部分:sparse iput,embedding layer,pair-wise interaction layer,都和FM是一樣的。而後面的兩部分,則是AF

原创 hive創建分區表,進行動態或靜態分區插入數據

https://blog.csdn.net/dax1n/article/details/81568442 對於hive分區表插入數據時候,對於分區字段可以自行指定一個靜態字段或者根據分區字段的具體值進行插入分區表,對於前者指定一個分區值的

原创 選取訓練神經網絡時的Batch size

結論: batch size  一般爲2的冪次方,128爲分位線,向下(乘以0.5)或向上(乘以2)測試效果,若向下效果繼續,乘以0.5,直指結果不再變好,數值範圍一般在:2到512.有論文說最好的實驗表現都是在batch size處於2

原创 提交離職申請了

       在公司4年兩個月,結婚生了娃。雖然領導一直換,職級沒升上去,但還是感謝公司的培養。希望自己在新的工位崗位上,能保持持續學習的激情。       除了技術能力外,一個人的推動力和表現力也很重要。剛入職時,只知道埋頭幹活,還經常

原创 k折交叉驗證,stacking和blending模型融合,xgboost可自定損失函數,但是要求出一階,二階導數,解決類別不平衡的問題,過採樣或者代價敏感函數

K折交叉驗證 一般情況將K折交叉驗證用於模型調優,找到使得模型泛化性能最優的超參值。找到最優參數後,在全部訓練集上重新訓練模型,並使用獨立測試集對模型性能做出最終評價。 如果訓練數據集相對較小,則增大k值。 增大k值,在每次迭代過程中將會

原创 累積分佈進行特徵歸一化 深度學習特徵處理方法

深度學習在搜索業務中的探索與實踐  利用累積分佈進行歸一化: 累積分佈進行特徵歸一化? 最近看谷歌的兩篇關於使用DNN進行推薦的文章,文章中都提到使用累積分佈進行特徵歸一化。 兩篇文章分別是 Wide & Deep Learning f

原创 mac 安裝python ,pip 開發環境

1. mac安裝python https://blog.csdn.net/xuanlv_haoshao/article/details/82316766 mac 安裝pip curl https://bootstrap.pypa.io/

原创 lightgbm處理類別特徵

lightGBM的categorical_feature(類別特徵)使用 http://www.luyixian.cn/news_show_253681.aspx lightGBM比XGBoost的1個改進之處在於對類別特徵的處理, 不再

原创 word2vec 兩個模型,兩個加速方法 負採樣加速Skip-gram模型 層序Softmax加速CBOW模型 item2vec 雙塔模型 (DSSM雙塔模型)

推薦領域(DSSM雙塔模型): https://www.cnblogs.com/wilson0068/p/12881258.html   word2vec  word2vec筆記和實現 理解 Word2Vec 之 Skip-Gram 模型

原创 deepFM

用Google搜索“TensorFlow+DeepFM”,一般都能搜索到“ChenglongChen/tensorflow-DeepFM”和“lambdaJi的TensorFlow Estimator of DeepFM”這二位的實現。二

原创 tensorflow GPU並行

華爲雲 modelArt: 底層封裝了hovord(uber 底層) uber hovord地址: https://github.com/horovod/horovod 阿里雲:PAI TensorFlow多GPU並行的實現 https:

原创 FNN,PNN

FNN網絡圖推薦系統中使用ctr排序的f(x)的設計-dnn篇之FNN模型 FNN模型只包含了deep部分,沒有shallow部門(lr or fm),而特徵之間的交叉提現爲拼接(concatenate),然後利用幾個fcs加深模型  

原创 tensorflow embedding_lookup_sparse embedding_lookup

多值離散特徵(muit-onehot) 推薦系統遇上深度學習(四)--多值離散特徵的embedding解決方案 在處理DeepFM數據時,由於每一個離散特徵只有一個取值,因此我們在處理的過程中,將原始數據處理成了兩個文件,一個記錄特徵的索