ML圈子的精華問答第 1 期

這是知識星球「機器學習愛好者」的精華分享頻道,每週最有價值的問題和知識會在這裏展現給大家!

ML精彩問答

問題by「suger」:想做實際項目體驗體驗,有哪些網上的項目比賽可以參加呢?大佬們有啥推薦麼?

優質回答by「abc」:如果想學習機器學習相關的,kaggle上面有很多適合入門的項目。國內的很多競賽平臺也經常發佈各種賽事,如天池,DC,DataFountain,biendata 。不僅可以鍛鍊自己,還有這不菲獎金,我當時就是從小白做起,誤打誤撞結識了很多好朋友,也收穫了不錯的獎金。適合的時候做做比賽挺棒的。

問題by「小魚兒」:前幾天去面試nlp相關崗位,被問到幾個問題當時沒有回答的很好,想分享出來讓大神解答一下:1.如何根據一段文本數據集給用戶的喜好打標籤?我當時只是想到判斷用戶的喜好肯定是蒐集用戶畫像,分析用戶的喜好還有他的社交關係,通過他的朋友的喜好來構建相似度,預測出本人的喜好等等,但是還並不清楚只是一段文本,如何給用戶打標籤。我現在猜想是不是可以通過文本聚類的方式,通過統計tfidf來統計關鍵詞的重要度,進一步去根據這些關鍵詞來選出用戶感興趣的標籤呢?請牛人指點。。。2,給你一段文章,比如《紅樓夢》中的某一章節,你用什麼算法去評價這段話寫的好還是不好?當時一點思路都沒有,到底想問什麼??難道是針對一段文字做情感分析?還是針對文章本身去做分類??請牛人指點一二。。。?

優質回答一by「阿龍」:第一個問題,給用戶的喜好打標籤,如果標籤的候選項是組織好的,例如科技、音樂、教育等,這種情況下,可以理解爲文本分類任務;如果標籤的候選項自由度比較高,我贊同你所說的關鍵信息抽取,形成自由標籤;第二個問題,沒有清晰的思路,模糊能夠想到的是,文章的流利程度(perplexity),平均語句長度,最長/最短語句長度,等特徵可以放在一起,在標註數據上學習一個文章優秀度評判模型。

優質回答二by「何處去雲闕」:問題一、可以找一下閱讀理解相關的模型,通過一段話判斷用戶的喜好,除非有 我喜歡XXX之類的,這種比較明顯的句子,現在流行用閱讀理解加知識圖譜,用有監督的方式來挖用戶喜歡。 問題二、這種寫的好不好完全是要通過有監督的方式來評價,因爲評價標準不好說但不會有什麼太多限制。

問題by「Just丶you」:使用tensorflow+cnn訓練模型的時候每次進行到第二次迭代的時候就報內存不足,在網上查閱資料也設置對應的參數限定按需分配,也設置了最多使用多少gpu。數據類型大概有一千二百個分類左右,數據只要超過四十萬就會出現這種內存不足的問題。這可能是什麼原因呢,要如何解決呢

優質回答by「路人」:是內存不足還是gpu顯存不足?如果是內存不足,和模型本身關係不大,應該是數據規模太大了,建議檢查檢查下代碼,看看是不是什麼地方數據加載量過大。

優質資源分享

公衆號:阿龍的圈子

阿龍,中科院研究生,自然語言處理愛好者,致力於勤勞致富,競賽收入30W+,實習收入20W+。

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章