思路總結-----對微博情感分析的的挖掘

一朋友由於工作需要，準備對新浪微博進行相關的抓取挖掘。特別是情感分析這一塊，便於他後期的實驗實踐。實際上，文本挖掘及分析在未來都會產生較大的效果。舉一個簡單的例子，現在地鐵裏的每個人每天都會去刷新自己的人人好友圈，微信好友消息。而這些消息大部分是基於文本的。如何對這些原始的消息進行挖掘。進而爲相應的精準營銷做準備。在以後的營銷中將會產生重大效果。

原始數據

這一部分的內容，我們可以通過爬蟲技術來抓取。通過聚類算法，找到相同話題的所有微博。然後拿來做爲原始數據。還有就是用戶好友圈內的評價消息，還有用戶產生的連接消息，等等。這些都可以作爲原始數據來歸入我們的數據庫。

確訂目標(商業理解)

這一步也同時與業務理解要很好的關聯起來，首先，我們是要用這些原始數據來作什麼？比如，我們用情感分析，所有不同用戶對同一事件的理解。我們要將他們的微博信息裏的關鍵詞找出來。然而進行相應的查找算法，進而確定所有用戶對這一事件的評價。然後，我們要通過用戶的評價，找到有二次商業利用值的客戶。然後確訂爲目標客戶。

數據理解

所抓取到的微博內容是什麼，裏邊帶幾個鏈接？是用什麼符號與之相連？文字，圖片的分類，另外還有評論信息是否也有參考價值。裏邊的特殊符號代表什麼？等等。這些信息，那些是對我們的來說是有用的，如何去用？比如說要從文本中挖掘出關建字，進行相關的營銷活動。從而確定博主的情感動向。進而可以做些什麼？理解我們的數據，才能更好的抓取到我們所要使用的數據。

模型建立

有人說，搞數據挖掘的人就是要來做這一部分的內容。你要建立一個好的模型，那以後的數據通過你的這個模型，那麼你所需要的內容自動地就會呈現出來。而這一部分也是整個數據挖掘裏最難的部分。

比如說我們的微博數據，我們可以通過決策樹算法建立模型。最後輸出那些關健字的客戶就是我們的目標客戶。又或者，我們可以通過神經網絡的算法建立模型，找到相關的所的決策項。實際上，數據挖掘所用到的方法很多，也很複雜，我也是到現在還是沒有弄清楚一些算法的核心思想。但這樣並不影響我們來使用相關的算法來進行挖掘。再者說，現在的挖掘對象，真正上PB內容的資料也不是很多的。很多企業還停留在小型機的階段。所以，有的時候，我會開玩笑的說：數據量太小的話，EXECL會更好一些，然後是ACCESS數據庫。再然後就是ORCALE數據庫.....

模型建立是一個比較幸苦的工作，可是如果建立完成後，一般3-5年不會發生變化。比如我們現在的信用卡的信用評分系統。

模型評估

這一部分內容，是進行相關優化。也就是說模型建立好了，開始要跑業務了。要測試一下看它到底能跑到什麼樣的程度。有的時候，你挖掘了半年，也找到的目標客戶，結果被其他人先用其他方法吸引走了，怎麼辦？所以纔要有模型評估這件工作。

先將大數據裏的一部分數據，一般是40%拿來先做訓練，你也可以拿少量來試一試。然後看完成這些數據需要多長時間。換了其他的算法後，是否可以提高挖掘時間。一般這一步的數據分配要遵守一個4:3:3的原則，即40%拿來做訓練，30%來做測試，另外的30%拿來做驗證。綜合來說，才能夠評價這個模型的好壞，以及這個模型是否能產生它的相應價值。

發佈模型

這是最後一步，讓所有微博數據進行相應的算法優化。進而達到最好的挖掘效果。

在以上的這幾個步驟中，模型評估與商業理解其實也是相輔相成的，因爲這兩個主要是與數據最爲密切。而數據理解與商業理解又是相互制約的，很多時候，我們是有了大數據，但是我們找不到我們的所要挖掘的目標在那裏，這時就需要不斷的修訂我們的商業理解與數據理解，然而，模型的相關內容，在整個閉環的過程中並不顯的那麼重要。有的時候，客戶的一個很簡單的需求，我們並不一定要用複雜的技術來實現，簡單也許就意味着勝利。

再來說說在文本挖掘中的思路，少量的文本信息。我們可以放在在WORD裏用複製粘貼來完成，多的話可以用EXCEL，再多的話可以用U1，要是還是多就用SAS與R，再多就用其他的了，具體什麼軟件，我也沒用過。

好了，就先總結這麼多吧。下週有空再寫吧！

思路總結-----對微博情感分析的的挖掘

redis的key亂碼問題和值自增問題

CORS error 但是 status code 是200 OK

一個開源且全面的C#算法實戰教程

一款.NET開源、功能強大、跨平臺的繪圖庫 - OxyPlot

壓縮上傳的GPU數據的方案

OpenTelemetry 實踐指南：歷史、架構與基本概念

需求管理祕籍：從混亂到有序，讓你的項目高效運轉

使用skopeo同步鏡像

用光線投射法渲染規則模型

售前實戰+項目心得

關於“裁員潮”的一點思考

記某次APM項目的售前支持

關於普通人實現財富自由的深度思考

到底需要多少“算法”才能過好這一生

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結