原创 Pyspark 讀取 txt 文件並生成 DataFrame

網上找了很多資料,例如 textFile 和wholeTextFiles方法。但這兩個都是都是讀取txt文件,然後生成RDD的格式。 如果再從 RDD 轉爲 Pyspark 的 DataFrame格式,那麼就多此一舉了。 終於找到了直接讀

原创 數據人需要掌握的技能,從底層到應用

作者:潘鵬舉,攜程酒店研發部 BI 經理,負責酒店服務相關的業務建模工作,主要方向是用機器學習幫助業務創造價值。 1、大數據平臺 各種炫酷新技術,搭建Hadoop、Hive、Spark、Flink、Kylin、Druid、Beam~,

原创 大數據分析工程師面試13題 ◀ ElasticSearch

ElasticSearch是一個近實時的搜索平臺,在大數據生態系統中佔據重要的地位。我們必須要了解其基本原理和概念,一方面可以對數據分析工作中排查問題有比較大的幫助,另一方面方便我們與他人溝通交流。         1 請介紹下ES以

原创 取得 iOS 更新和還原錯誤的相關協助

因爲自己的iPhone開不了機,所以備份一下網上找到的資料。 參考資料:https://support.apple.com/zh-hk/HT204770#hardware 取得 iOS 更新和還原錯誤的相關協助 本文會說明如何解決 iOS

原创 Pandas DataFrame中的tuple元素遍歷

 在用Word2vec計算出詞語的相似度之後,得到的DataFrame格式如下: 1. 索引(index)爲輸入的關鍵詞,從第0列開始爲相似度最高的詞語和它的餘弦相似度。 2. 這個DataFrame 中每一個元素,比如(通話, 0.21

原创 XLNet:運行機制及和Bert的異同比較

  這兩天,XLNet貌似也引起了NLP圈的極大關注,從實驗數據看,在某些場景下,確實XLNet相對Bert有很大幅度的提升。就像我們之前說的,感覺Bert打開兩階段模式的魔法盒開關後,在這條路上,會有越來越多的同行者,而XLNet就是其

原创 Python 計算兩個dict的和

由於要統計詞語出現的頻數,而 dict 格式存儲頻數是非常合適的。 在循環過程中,產生了 dict 需要進行累加,因此需要了解如何進行兩個 dict 的累加。  輸入: x = { 'apple': 1, 'banana': 2 } y

原创 放棄幻想,全面擁抱Transformer:自然語言處理三大特徵抽取器(CNN/RNN/TF)比較

2018年從經濟角度講,對於所有人可能都是比較難過的一年,而對於自然語言處理領域來說,2018年無疑是個收穫頗豐的年頭,而諸多技術進展如果只能選擇一項來講的話,那麼當之無愧的應該就是Bert模型了。在上一篇介紹Bert的文章“從Word

原创 推薦算法工程師如何突破模型調研的瓶頸期?

  筆者在我司一條核心業務中從事算法類工作,整個組分爲召回和排序兩個方向,從 2016 年 9 月排序方向剛開始成立時加入到團隊中。截止到 18 年底,圍繞着同一個核心業務指標,我們經歷了從線性模型、基於統計性特徵的樹模型、基於大規模離

原创 HBase架構一張圖看懂

以下是華爲工程師很早之前總結的HBase架構圖解,非常經典。雖然現在架構有所完善,但總體思想沒有改

原创 既然神經網絡可以解決分類問題,那SVM、決策樹這些算法還有什麼意義呢?

先說結論:沒有一個模型是萬能的,需要根據數據選擇適合的模型。 在機器學習中,數據大概可以分成四大類:圖像 (Image),序列(Sequence),圖(Graph) 和表格(Tabular) 數據。其中,前3類數據有比較明顯的模式,比

原创 Python 面試題彙總(附答案)

記錄網上看到的知識點和麪試題。不定時更新~ 1. list tuple dict set 是可迭代對象,那麼字符串是否爲可迭代對象? 頭腦一熱的,馬上回答不是,但其實… 答案:是 >>> from collections import

原创 編輯距離(Edit Distance) 一文讀懂(Python實現)

在NLP任務中經常會碰到比較兩個字符串的相似度,比如拼寫糾錯和指代判斷。用戶很可能在搜索時輸入錯別字,比如“微信”輸成了“爲信”,但是搜索引擎返回的結果糾正爲“微信”的搜索結果,如圖1-1。另外比如“北京大學校長”和“北大校長”,“北京故

原创 大數據分析工程師入門 ◀ 指標體系

理解了上篇文章講的數據方法後,那麼接下來就是把分析方法應用到實際工作中。上篇文章中,我們提到數據分析師工作中很重要的一部分,就是構建一個相對完整的指標體系,因爲這樣才能直接反應出公司業務的發展現狀,才能對業務發展做出一個相對客觀的評估。

原创 英特爾「攪局」金融業?看銀聯如何AI反欺詐,人壽個性化賣保險

在數據中心江湖叱吒風雲的英特爾如何助力金融垂直業的智能化升級? 時間倒回到 2000 年。 位於紐約的高盛美股交易大廳里人頭攢動,電話聲此起彼伏,銀行業大客戶的訂單接踵而至,600 名交易員緊張而有序地進行着股票交易。 如今,這裏只剩下三