原创 快速上手關鍵詞抽取的算法

前言 在自然語言處理領域,我們有一種類型的問題是如何在一堆文本中提取出核心詞/句子。而無論是對於長文本還是短文本,往往幾個關鍵詞就可以代表整個文本的主題思想。同時,在很多推薦系統中,由於無法直接就整體文本進行利用,往往會現對文本進

原创 集成學習需要理解的一些內容

本系列爲深入篇,儘可能完善專題知識,並不會所有的都會出現在面試中,更多內容,詳見:Reflection_Summary,歡迎交流。 另外,歡迎大家關注我的個人bolg,知乎,更多代碼內容歡迎follow我的個人Github,如果有

原创 xDeepFM架構理解及實現

本文主要是爲了講解xDeepFM的框架,及如何用tensorflow去實現主幹部分,如果需要直接拆箱可用,可以參考:xDeepFM,我的部分代碼也來自於其中,這邊主要是和大家一起對比着看下,xDeepFM到底做了哪些事情?我的工程

原创 Bert需要理解的一些內容

更多來自於GitHub:Reflection_Summary. Bert的雙向體現在什麼地方? mask+attention,mask的word結合全部其他encoder word的信息 Bert的是怎樣實現mask構造的? M

原创 LR需要理解的一些內容

本系列爲深入篇,儘可能完善專題知識,並不會所有的都會出現在面試中,更多內容,詳見:Reflection_Summary,歡迎交流。 另外,歡迎大家關注我的個人bolg,知乎,更多代碼內容歡迎follow我的個人Github,如果有

原创 Auto-Machine-Learning初探

前言 最近在看AutoML,業界在 automl 上的進展還是很不錯的,個人比較看好這個方向,所以做了一些瞭解: Google: Cloud AutoML, Google’s Prediction API Microsoft:

原创 中文語境下的手機號識別

最近在做一個關於中文大段文本中的手機號碼識別,由於屬於對抗性的一個文本,發現傳統的手機號碼識別方法,比如正則匹配並不是很適用。 理論情況下文本中的手機號碼出現方式應該如下: 9*6箱車轉讓,連線路一起打包,帶線路轉讓,固定貨源聯繫

原创 Python踩坑指南(第二季)

本期圍繞jieba講一個我遇到的實際問題,在同一個服務裏,存在兩個不同接口A和B,都用到了jieba分詞,區別在於兩者需要調用不同的詞庫,巧合中,存在以下情況: 詞庫A:"幹拌麪" 詞庫B:"幹拌","面" 在服務啓動的時候,由

原创 Python踩坑指南(第一季)

最近在python開發的過程中,發現了一些比較有意思的問題,確實讓自己在開發過程中被噁心了一把,所以開了這個連續的更新博文,之後會持續的按第一第二第三這種版本下去,更新一些比較有意思的python代碼問題。 with open('

原创 Python自用工具包PyTls

我們搞了個python的工具包PyTls。 做這件事的初衷是發生了一個星期要用python同時開發3個項目的情況,我發現了兩個現象:1.有很多定製化的需求是極度高頻反覆重寫的;2.有很多功能之前寫過,可能因爲稍許複雜又忘了,再用的

原创 DynamicProgramming動態規劃整理

整理一下刷題過程中的一些想法,方便以後高效複習,動態規劃部分整理如下: 主要的思路有如下幾種: 基礎類型 只需要寫出i和i-1之間的狀態轉移方程即可,沒有任何額外操作的行爲,比如: 一維度: 53. 最大子序和,狀態方程是:

原创 Python踩坑指南(第三季)

在代碼維護的過程中,發現需要對某個變量進行保護,不允許調用修改,之前我一直使用的是_x或者__x的形式,這樣做只是避免展示,但是如果想要強行修改,還是可以變更的,爲了保證高安全性,這邊可以參考@property的形式: class

原创 Google團隊在DNN的實際應用方式的整理

很榮幸有機會和論文作者Emre Sargin關於之前發的Deep Neural Networks for YouTube Recommendations進行交流,梳理如下: 提問對話彙總: 如何進行負採樣的? 構造了千萬量級熱

原创 YoutubeNet的數據答疑

實在是太忙了,抽空給大家解析一下之前寫的YoutubeNet的數據是怎麼構造的,協助大家可以自行構造一下。 這邊和大家說一下,我沒有上傳數據的原因有兩個: 涉及公司的數據財產,不方便上傳 懶得做脫敏處理 數據一共有1300多萬條

原创 transformer工程實現筆記

上線形式: tensorflow直接加載上線 基於openblas重新實現 基於cublas庫重新實現 優點: tensorflow:有谷歌開源代碼,不需要另外實現 cublas/openblas:可以定製化優化,耗時更短,可微調