原创 推薦算法(三)基於標籤的算法--CTR預估

1、在工業界,數據量非常大,如果用pandas讀入,雖然方便後續數據操作,但佔用內存過多。工業界一般存儲稀疏數據用LIBSVM。 2、在進行建模前,先進行探索,刪除髒數據,分析下各個特徵的初步效果;對不均衡的樣本,下采樣,然後有多個分類器

原创 推薦算法(一) GBDT+LR

推薦算法(一) GBDT+LR

原创 推薦算法 (二) 微軟開源項目

推薦算法 (二) 微軟開源項目

原创 推薦算法(三)基於標籤的算法

推薦算法(三)基於標籤的算法

原创 pandas隨機抽樣

DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None) n是要抽取的行數。(例如n=20000時,抽取其

原创 電商精細化運營的五大關鍵指標和三個關鍵思路——筆記

1、品類及SKU多,用戶覆蓋廣,運營難度大; 2、客單價偏低,強調留存和復購,強化運營; 3、產品設計相對成熟,優化運營時重中之重; 4、競爭激烈。 要想實現精細化運營,數據分析是必不可少的一個環節。電商網站要提高運營效率,至少需要五大關

原创 互聯網金融的客戶增長--筆記

一 、互聯網金融用戶四大行爲特徵 第一,流量轉化率低; 第二,雖然轉化率低,但是客單價卻很高; 第三,用戶購買行爲有很強週期性; 第四,購買行爲的強特徵,包括購買偏好和購買週期,其中購買週期包含決策期(有大量交互行爲)、觀察期(購買後查看

原创 python 合併數據表

  讀取列表   import pandas as pd unames=['user_id','gender','age','occupation','zip'] users=pd.read_table('E:/DataAnalysi

原创 【Hi Elsa,java is coming】Error:(57, 21) java: 不兼容的類型: java.lang.String無法轉換爲com.sun.org.apa

原代碼: import com.sun.org.apache.xpath.internal.operations.String; public class hello{ static String s="htf"; i

原创 python爬蟲框架scrapy安裝

安裝scrapy的時候報錯: 首先用pip安裝: pip install scrapy報錯:忘記截圖了,簡而言之是要C++環境,要我下載 查了網上的攻略,用whl安裝twisted包,再安裝scrapy。 (1)安裝twisted ht

原创 python爬蟲scrapy框架基礎知識

基礎知識 1、爬取網頁時要分析網頁結構 如:https://www.cnblogs.com/#p2,p2是靈活的每一頁 2、xpath支持正則表達式,可以選擇兩個方式,一是通過chrome選擇Xpath,二是選擇class

原创 python 學習基礎筆記

一、  運行selenium自動化爬取內容 安裝Chrome driver 需要權限 http://blog.csdn.net/u012359618/article/details/52556127   二、Scrapy框架 安裝scra

原创 sql選取隨機的記錄

SELECT * FROM (SELECT * FROM login WHERE logintime >=to_date('2018-03-01 00:00:00','yyyy-mm-dd hh24:mi:ss') and logi

原创 python爬蟲scrapy之貸聯盟黑名單爬取

1、創建項目 scrapy startproject ppd 2,爬取單頁,主要用xpath spider裏面的源碼 from scrapy.spiders import Spider from scrapy.selector im

原创 scrapy安裝win32api,找不到包解決方法

首次運行scrapy,報錯:ModuleNotFoundError: No module named 'win32api' 我是64位win,要下載這個module,選擇適合型號的win32apihttp