ML圈子的精華問答第 1 期

原創

阿龙的圈子

2019-03-05 14:55

這是知識星球「機器學習愛好者」的精華分享頻道，每週最有價值的問題和知識會在這裏展現給大家！

ML精彩問答

問題by「suger」：想做實際項目體驗體驗，有哪些網上的項目比賽可以參加呢?大佬們有啥推薦麼？

優質回答by「abc」：如果想學習機器學習相關的，kaggle上面有很多適合入門的項目。國內的很多競賽平臺也經常發佈各種賽事，如天池，DC，DataFountain，biendata 。不僅可以鍛鍊自己，還有這不菲獎金，我當時就是從小白做起，誤打誤撞結識了很多好朋友，也收穫了不錯的獎金。適合的時候做做比賽挺棒的。

問題by「小魚兒」：前幾天去面試nlp相關崗位，被問到幾個問題當時沒有回答的很好，想分享出來讓大神解答一下：1.如何根據一段文本數據集給用戶的喜好打標籤？我當時只是想到判斷用戶的喜好肯定是蒐集用戶畫像，分析用戶的喜好還有他的社交關係，通過他的朋友的喜好來構建相似度，預測出本人的喜好等等，但是還並不清楚只是一段文本，如何給用戶打標籤。我現在猜想是不是可以通過文本聚類的方式，通過統計tfidf來統計關鍵詞的重要度，進一步去根據這些關鍵詞來選出用戶感興趣的標籤呢？請牛人指點。。。2，給你一段文章，比如《紅樓夢》中的某一章節，你用什麼算法去評價這段話寫的好還是不好？當時一點思路都沒有，到底想問什麼？？難道是針對一段文字做情感分析？還是針對文章本身去做分類？？請牛人指點一二。。。？

優質回答一by「阿龍」：第一個問題，給用戶的喜好打標籤，如果標籤的候選項是組織好的，例如科技、音樂、教育等，這種情況下，可以理解爲文本分類任務；如果標籤的候選項自由度比較高，我贊同你所說的關鍵信息抽取，形成自由標籤；第二個問題，沒有清晰的思路，模糊能夠想到的是，文章的流利程度(perplexity)，平均語句長度，最長/最短語句長度，等特徵可以放在一起，在標註數據上學習一個文章優秀度評判模型。

優質回答二by「何處去雲闕」：問題一、可以找一下閱讀理解相關的模型，通過一段話判斷用戶的喜好，除非有我喜歡XXX之類的，這種比較明顯的句子，現在流行用閱讀理解加知識圖譜，用有監督的方式來挖用戶喜歡。問題二、這種寫的好不好完全是要通過有監督的方式來評價，因爲評價標準不好說但不會有什麼太多限制。

問題by「Just丶you」：使用tensorflow+cnn訓練模型的時候每次進行到第二次迭代的時候就報內存不足，在網上查閱資料也設置對應的參數限定按需分配，也設置了最多使用多少gpu。數據類型大概有一千二百個分類左右，數據只要超過四十萬就會出現這種內存不足的問題。這可能是什麼原因呢，要如何解決呢

優質回答by「路人」：是內存不足還是gpu顯存不足？如果是內存不足，和模型本身關係不大，應該是數據規模太大了，建議檢查檢查下代碼，看看是不是什麼地方數據加載量過大。

優質資源分享

「光城」寫了一篇關於論文完整復現的文章。研究內容：U-Net網絡，於是找了一篇經典論文，並學習論文及代碼解讀。在學習U-Net網絡後，使用U-Net神經網絡提取視網膜紋理血管。論文復現之醫學圖像應用：視網膜血管分割
「黃博」好多初學者提問機器學習怎麼樣入門，我做了一個簡單的總結，我也是這樣走過來的。（總結裏附帶學習資料）良心推薦：機器學習入門資料彙總及學習建議（2018版）

公衆號：阿龍的圈子

阿龍，中科院研究生，自然語言處理愛好者，致力於勤勞致富，競賽收入30W+，實習收入20W+。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

ML圈子的精華問答第 1 期

ML精彩問答

優質資源分享

公衆號：阿龍的圈子

Java自主學習

hdu 5543

通信實驗結果處理計算器

打卡

HDU 4046

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結