原创 R中使用foreach時清理內存

foreach能較大的提高計算速度,但是R不會自動清理內存,導致服務器內存經常佔用過高,因此使用時需要及時清理內存,以如下例子所示。 我需要讀取一批excel文件,在運行下面的代碼前,經過4次測試,Rstudio的內存情況是這樣的

原创 R的批處理——調用Rscripts及傳參

下面我通過不傳參和傳參的方式進行調用。 不傳參的方式 首先,新建一個R腳本(E:\test.R),目的是往E盤寫入一個文件。腳本內容如下: # test.R ​data = data.frame(x=c(1,2,3), y=c(4,

原创 UniAccess Agent 的刪除方法

偶爾一次惹上了這個流氓軟件,進程無法直接停止,服務無法停止,註冊表無法刪除,安裝目錄被隱藏。 UniAccess Agent是用來監視員工的, 是由LeagSoft開發的監控軟件,使用360卸載時會提示需要輸入管理員密碼,使用360的進程

原创 shiny包 學習(一)

shiny除了支持自帶的標籤,也可以像html一樣編輯網頁。 如下代碼所示: library(shiny) ui <- shinyUI(fluidPage( titlePanel("My Shiny App"), s

原创 使用MySQL處理億級數據

mysql在查詢上千萬級數據的時候,通過索引可以解決大部分查詢優化問題。但是在處理上億數據的時候,需要用到的東西就超出索引的範圍了。 數據表(日誌)是這樣的: 表大小:1T,約24億行; 表分區:按時間分區,每個月爲一個分區,一個分

原创 dplyr包官方文檔翻譯

dplyr包官方文檔翻譯1. 最基本的函數小結2. 分組(Grouped)操作3. select 操作4. Mutating 操作5. group_by()6. _at()7. 管道操作符8. data table總結 dplyr包可

原创 大宗交易數據挖掘(一)

思路 在網上可以看到很多關於股票的數據挖掘,其中也包括了一些大宗交易的數據挖掘和分析。本人之前也做過比較長時間的學習,所以出於好奇,嘗試對這類數據進行挖掘: 最開始的想法 來看下百度百科對於大宗交易的解釋: 百度百科的大宗交易介紹

原创 R的Parallel包學習

R的並行計算 一般簡單的例子都可以在百度上找到了,稍微深入點的就要多嘗試下了: 這裏用a,b兩個向量做測試,先定義兩個向量,計算b向量是不是在a向量裏,是的話就是1,否則就是0。主要是測試編寫函數和傳遞參數。 # 單線程 a <- 1:

原创 大宗交易數據挖掘(三)

計算維度 數據集字段如下: 1. [CurClose],當前收盤價; 2. [TradePrice],大宗交易成交價; 3. [FluctRange3],近3日波動幅度(中途發現波動幅度太大,止損點不好定,所以把最近3天波動幅度超過

原创 大宗交易數據挖掘(二)

獲取數據 上一篇的流程圖中介紹了大致思路,實際實現的時候,數據需要分成2個部分,歷史數據和每日更新的數據。其中每日更新的數據量較小,直接從第三方數據網站獲取,單線程爬蟲即可搞定;歷史數據用來做模型訓練,所涉及的體量較大。 本篇着重解決歷

原创 大宗交易數據挖掘(四)

數據分析 維度初步整理好以後,可以嘗試用R去做一些相關性分析,不過效果太差,因爲實際情況中,線性迴歸的效果是很差的。 這裏我定義了1個CHANCE的列(Factor),當買入天數(BuyRK)和賣出天數(SellRK)都存在時,則機會爲

原创 處理更新R3.5.1時,Rstutio報錯“libatk-1.0-0.dll”缺失的錯誤

提示Rterm運行失敗,在R的bin目錄下打開Rterm,結果發現Rterm是可以正常daka打開的。 此時按錯誤提示安裝"libatk-1.0-0.dll"即可,不過在網上搜到的方法有錯誤,所以稍微整理下。 第一,下載這個dll文件,放

原创 R語言中文分詞Rwordseg的安裝

詳細步驟 裝起來有點複雜。 需要安裝jdk,Rtools,rJava才能安裝Rwordseg,具體步驟如下: 第一步,安裝jdk,過程略。 第二步,安裝Rtools: 下載地址:https://cran.r-project.org/bi