原创 C5.0決策樹算法及性能提升

C5.0算法是基於C4.5開發的新版本,它能適用於很多類型的問題,同神經網絡、支持向量機等複雜算法相比,它幾乎可以表現地一樣優秀,並且更容易理解和部署。這裏我們將用UCI機器學習網站http://archive.ics.uci.edu/m

原创 R語言網頁抓取入門-rvest包

R語言中的rvest包是極易掌握的網頁抓取工具,只要進行適當的操作就可以入門網頁抓取。1.背景介紹>install.packages("rvest") #安裝rvest包 >library(rvest) #加載rvest包,該過程中會自動

原创 R語言數據清洗與規整-迴歸模型爲例

數據清洗和規整是進行數據分析的前提條件,數據的清洗和規整通常會花費比進行數據分析更多的時間,正所謂“清洗一小時,分析五秒鐘”。 數據清洗和規整要依據實際數據的特徵進行,其包括缺失值和冗餘值的處理、數據重歸類、字符類型轉換等。這裏將使用“狗

原创 R語言數據結構介紹-入門篇

R語言中用於存儲數據的結構包括向量、矩陣、數組、數據框和列表,這五種結構之間聯繫緊密。在R語言中查看數據格式的函數爲str()。 1.向量     向量用 c() 創建,可以被用於存儲數值型、字符型或邏輯型數據,但單個向量中只能存在一種數

原创 客戶流失預測--基於R語言C5.0

對於中國各大電信運營商而言,在整體市場規模相對穩定的情況下,能否維護好現有的客戶是保證其收益的重中之重。因此,預測客戶流失的可能性與否,直接關係到運營商的客戶維護的重點正確與否。本文將基於”狗熊會“基礎案例:收集客戶流失,來演示基於C5.