原创 Tableau之數據可視化大屏/智慧大屏(成都大熊貓繁育研究基地,模擬旅遊相關數據)

目錄 本案例的可視化內容均爲模擬——以成都大熊貓繁育研究基地爲例 1、四川省市州/自治區地圖 2、詞雲展現遊客對於大熊貓基地的評價/印象(評論詞雲)  3、日客流量走勢 4、數據可視化大屏(藍色星空背景)  5、數據可視化大屏(墨藍背景)

原创 Hmisc包函數(數據變量名批量修改、變量標籤、變量描述性統計)

Hmisc包函數 1、upData(object, ...,subset, rename, drop, keep, labels, units, levels, force.single=TRUE,lowernames=FALSE, ca

原创 R語言爬蟲豆瓣高評分電影(喝最烈的酒,熬最深的夜,喫最好的胃藥,敷最貴的面膜)

豆瓣電影TOP250抓取 下了那麼多包沒用多少東西,看着黑人,反正prada   prada 的趕緊逃,趕緊的,你會炸的    這裏面主要用到R/Rstudio裏面的RCurl、XML、wordcloud、stringr、jiebaR勒幾

原创 R語言RCurl爬蟲(多線程爬蟲)-高評分豆瓣圖書

R語言爬蟲-高評分圖書(豆瓣)     # R語言爬蟲-高評分圖書(豆瓣) 本篇文章依然延續之前的爬蟲類型文章,多次實操有助於對於代碼的理解和技術的提升。此次爬取的是豆瓣上高評分的圖書,每一次爬取都會給大家提供一份有價值、有意義的東西 ,

原创 超文本標記語言HTML知識NOTES

目錄 ●靜態、動態網頁常見擴展名 1、HTML標記:單標記、雙標記 2、常用HTML標記和格式 3、字體標記 4、文字佈局 5、圖像和鏈接 6、表單 7、表格 8、框架 9、網頁中的動態圖文和多媒體 10、DIV佈局 ●靜態、動態網頁常見

原创 python爬蟲貓眼電影TOP100(爬蟲入門基礎,同步入庫)

小編輾轉了比較長的一段時間,現在終於提筆於python的運用,這次嘗試也是一個開端。 本篇文章所爬取的數據網上已經有了很多版本,並不是什麼新鮮的數據,僅僅作爲個人進階的參考。 python爬蟲進階第S190811期 python爬蟲將會進

原创 R中HIVE實戰

R連接hive報錯: R中報錯java.lang.NoClassDefFoundError: com/google/protobuf/ProtocolMessageEnum hiveserver2端報錯java.lang.Runtime

原创 R語言RSelenium包爬取動態網頁數據前期準備(環境配置)-連載NO.01

生而爲人,學無止境。   作爲爬蟲愛好者,最開始的時候多少都會遇到爬取的時候返回各種bug,抓頭撓耳吧; R語言爬蟲的包基礎的就是rvest和RCurl,解析的就是xml包,當然你還得有html、css、http協議; 但基本的包僅對於靜

原创 常用函數記小本本上

  mysql8新增了窗口函數,懵逼才知道,孤陋寡聞了,用數據庫用的少,都是R/python實現 四捨五入函數ROUND(x)、ROUND(x,y) 保留返回值小數位數TRUNCATE(x,y) 將數字格式化後保留小數位數FORMAT(

原创 python基於selenium自動化的股票歷史數據爬取,但是難產了

Bourne同志這次用python爬取數據發生了嚴重車禍,現場慘不忍睹,堪比近期紅遍網絡的高速岔口轎車爬上了指路牌,啊! python中selenium的環境搭建是極其簡單的,相比於R要簡單許多,同時在運行上相對穩定些。 圖片源自:澎湃

原创 Tableau可視化—複雜圖形繪製實戰updating

目錄 1、雷達圖  2、 箱線圖/盒須圖 3、 圓環圖 4、南丁格爾玫瑰圖  5、蝴蝶圖 6、帕累託圖 7、瀑布圖 1、雷達圖  前期準備:描述產品或者用戶多維度的數據 感覺Tableau畫雷達圖比其他可視化軟件相對要複雜些,雷達圖本身的

原创 R語言data.table包高效數據處理(大量數據分析/處理)

在數據處理量較大的時候,最爲頭痛的就是數據的讀寫、運算效率。        data.table處理大數據集(數據文件達到以1G爲單位)時相對於R語言的基本函數在數據讀寫、處理速度都不能與之相比可以對比基礎函數、dplyr包函數做同樣運算

原创 R語言tidyr包數據變換函數(dplyr包組合使用,完美)

日常的數據預處理中,不可避免的會遇到數據的各種變形、轉換,R語言中的tidyr包函數解決了數據變形上的問題,變量、列的轉換。 1、寬數據變長數據 gather(data, key = "key", value = "value", ..

原创 R語言Spark大數據分析/可視化環境配置/部署教程(sparklyr、hadoop)

R軟件本身軟件可以處理的數據量其實對於一些喜歡用R處理數據的有一些侷限性,但是R現在也可以部署大數據環境,過程雖然比較艱辛,但結果是安逸的。   最開始我們需要下載配置環境,配置環境小編把分爲兩部分: 1、外部環境配置文件(java、sp

原创 R語言purrr包函數(map函數族)

  R語言高效數據處理包purrr 參數說明:x:列表或者向量;.f:函數或者公式或者向量;                  .p:判斷函數;.else:若.p參數爲false則執行該參數的函數                 .at: