原创 推薦算法(三)基於標籤的算法--CTR預估
1、在工業界,數據量非常大,如果用pandas讀入,雖然方便後續數據操作,但佔用內存過多。工業界一般存儲稀疏數據用LIBSVM。 2、在進行建模前,先進行探索,刪除髒數據,分析下各個特徵的初步效果;對不均衡的樣本,下采樣,然後有多個分類器
原创 推薦算法(一) GBDT+LR
推薦算法(一) GBDT+LR
原创 推薦算法 (二) 微軟開源項目
推薦算法 (二) 微軟開源項目
原创 推薦算法(三)基於標籤的算法
推薦算法(三)基於標籤的算法
原创 pandas隨機抽樣
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None) n是要抽取的行數。(例如n=20000時,抽取其
原创 電商精細化運營的五大關鍵指標和三個關鍵思路——筆記
1、品類及SKU多,用戶覆蓋廣,運營難度大; 2、客單價偏低,強調留存和復購,強化運營; 3、產品設計相對成熟,優化運營時重中之重; 4、競爭激烈。 要想實現精細化運營,數據分析是必不可少的一個環節。電商網站要提高運營效率,至少需要五大關
原创 互聯網金融的客戶增長--筆記
一 、互聯網金融用戶四大行爲特徵 第一,流量轉化率低; 第二,雖然轉化率低,但是客單價卻很高; 第三,用戶購買行爲有很強週期性; 第四,購買行爲的強特徵,包括購買偏好和購買週期,其中購買週期包含決策期(有大量交互行爲)、觀察期(購買後查看
原创 python 合併數據表
讀取列表 import pandas as pd unames=['user_id','gender','age','occupation','zip'] users=pd.read_table('E:/DataAnalysi
原创 【Hi Elsa,java is coming】Error:(57, 21) java: 不兼容的類型: java.lang.String無法轉換爲com.sun.org.apa
原代碼: import com.sun.org.apache.xpath.internal.operations.String; public class hello{ static String s="htf"; i
原创 python爬蟲框架scrapy安裝
安裝scrapy的時候報錯: 首先用pip安裝: pip install scrapy報錯:忘記截圖了,簡而言之是要C++環境,要我下載 查了網上的攻略,用whl安裝twisted包,再安裝scrapy。 (1)安裝twisted ht
原创 python爬蟲scrapy框架基礎知識
基礎知識 1、爬取網頁時要分析網頁結構 如:https://www.cnblogs.com/#p2,p2是靈活的每一頁 2、xpath支持正則表達式,可以選擇兩個方式,一是通過chrome選擇Xpath,二是選擇class
原创 python 學習基礎筆記
一、 運行selenium自動化爬取內容 安裝Chrome driver 需要權限 http://blog.csdn.net/u012359618/article/details/52556127 二、Scrapy框架 安裝scra
原创 sql選取隨機的記錄
SELECT * FROM (SELECT * FROM login WHERE logintime >=to_date('2018-03-01 00:00:00','yyyy-mm-dd hh24:mi:ss') and logi
原创 python爬蟲scrapy之貸聯盟黑名單爬取
1、創建項目 scrapy startproject ppd 2,爬取單頁,主要用xpath spider裏面的源碼 from scrapy.spiders import Spider from scrapy.selector im
原创 scrapy安裝win32api,找不到包解決方法
首次運行scrapy,報錯:ModuleNotFoundError: No module named 'win32api' 我是64位win,要下載這個module,選擇適合型號的win32apihttp