原创 maxcompute中dataframe轉換爲pandas中dataframe方法

首先python加載訪問maxcompute包,在這之前需要運維給你開通python訪問maxcompute的白名單,否則是要被拒絕的。 from odps import ODPS from odps.df import Data

原创 R語言關於時間格式轉化爲數值的解決方案

好了,在前一篇文章中,我們將數據集轉化爲numeric格式,以便於在實際工作中預測投資者是否再次投資。 不過上次的數據集轉化,將時間格式全部轉化爲了NA,導致預測準確率下降了約5%(因爲失去了時間早晚這個維度),我們今天就來講一下如何將數

原创 關於R語言字符型數據清洗問題

最近做一個預測關於投資者是否再次投資的項目,需要針對客戶導出的數據進行清洗後建模分析,我目前選擇的模型是xgboost,貌似數據必須全是numeric。 數據結構如下: 在這個裏面,我們需要做的是將第一列裏面的‘是’替換爲1,第四列

原创 R語言使用協同過濾算法(usercf)解決投資推薦問題

針對投資者智能推薦金融產品是不是一個好主意?實際上許多互聯網金融公司已經開始了這方面的嘗試,陸金所的用戶中心界面下方的‘爲您推薦’欄目就是這方面的嘗試,具體如下圖: 這個就是典型的基於用戶相似度做智能推薦的產品,現在我們就來揭開一種

原创 Xshell6 中文版下載(免密匙)及SSH配置

免費百度雲下載:https://pan.baidu.com/s/1zkEGIYj6UTvJ8ZYXMJXYRQ ssh配置需要配置兩個頁面: 1、配置連接屬性:需要配置的是名稱、協議、主機IP、端口號   2、配置用戶身份驗證屬性:需要

原创 爬取微博評論並提取主要關鍵詞(二)

    在實現了微博評論爬取之後,可以對微博評論提取關鍵詞了。    具體思路是找自然語言處理包,在網上查了半天,中文包目前就看到推薦的snownlp以及jieba。看了一下它們各自的案例介紹,感覺snownlp裏面的功能還是沒有jieb

原创 python使用selenium自動訪問網站運行hivesql並取數(版本一)

      最近接了一個日報的自動化項目,主要是需要我們自動訪問數據庫,運行查詢語句取數,並根據下載結果生成昨日日報,最終發送給領導們昨日一些主要數據指標。      需求方給了我們日報模板和hivesql代碼,我們就吭哧吭哧的準備開幹,

原创 使用R創建多個有重複字符的系列變量

    最近一段時間需要對公司投資人羣多個時間點是否流失進行預測,需要針對未來20天該用戶羣是否流失進行預測,於是需要至少建立20個數據集,做20個模型,進行20個預測,這要我重複寫20遍代碼,這種重複敲代碼的感覺可不好(關鍵是一個模型可

原创 虛擬機系統下安裝centos7及桌面系統

      最近想學習python的自然語言處理,並且向在linux系統下嘗試下是否相比windows系統下運行更有效率,於是就開始嘗試安裝linux系統。       在嘗試了多次雙系統安裝後,最終還是選擇了虛擬機安裝,一頓操作之後居然

原创 爬取微博評論並提取主要關鍵詞(一)

    接到一個自然語言處理的任務,主要是爬取醫療行業微博評論並提取關鍵詞,順便分類。最終是要對這些評論進行自動回覆,給我的不過是初級任務,那麼我就拆解任務目標,一步一步來實現。     一、首先實現的是爬蟲,實際上微博自己有提供api接

原创 用R做一個完整的數據挖掘項目

       最近運營部門希望我們幫助他們找出合適的短信營銷對象,通過短信營銷能夠提高他們的投資者再次投資轉化率,那麼如何找到這個精準人羣就是我們部門必須出手做的事情了?但是從幾百萬投資者中找出最近要復投的用戶,這數據挖掘工作究竟該如何入

原创 python簡單獲取兩個日期之間的年度、月度、天數差的方法

    最近因爲要做一些簡單的結算工作,裏面有一些規則需要對年度、月份、天數進行比較,在網上查了半天,忽然發現python進行年度、月份、日期處理這麼難?!居然只是要計算兩個時間之間的月份差,還要數十行代碼!     有點不敢相信,所以自

原创 關於weget “無法建立SSL連接”的解決方法

   昨天在centos下安裝了R之後,想安裝一個Rstudio方便寫代碼,結果使用wget下載的時候,使用的如下命令:    wget https://download1.rstudio.org/rstudio-1.1.456-x86_

原创 使用python做簡單的中文自然語言處理

      最近在學習NLP(自然語言處理),於是先看了看都有神馬包可以使用,查了一遍網上說是NLTK包,下載瞭然後纔想到我是要學中文的自然語言處理,於是就想看看專門處理中文的包有哪些。       又是一番搜索,我找到了網絡大神們目前比

原创 python發送含有多個變量的網頁正文郵件

    接上文,我們在接到自動化需求後,需要把hivesql語句跑出,然後把結果下載下來做成日報併發送給領導,這裏就有領導們要求的格式,我們需要用網頁語言模仿表格格式,將每日報表呈現出來。    因爲上次是直接導出到csv格式,所以需要使