原创 [Kaggle競賽] IEEE-CIS Fraud Detection

文章目錄0.寫在前面1.EDA1.1 觀察數據1.2 處理缺失值1.3 挖掘數據隱含信息以便模型利用2.Deep Feature Engineering3.特徵篩選+降維(實驗記錄)4.lightGBM+best_paramete

原创 [Python筆記] 劍指offer刷題記錄——進度25/75

劍指offer刷題記錄 LeetCode上的劍指offer題 刷題ing… 3.數組中重複的數字 #遇見了得先問面試官時間和空間複雜度的要求 #1.排序+一個下一個 #時間O(nlogn) 空間O(1) class Solutio

原创 [豆知識]分析遇到的業務名詞整理

持續更新中…… 1.utm パラメータ:URL に追加できるパラメータは次の 5 種類です。 utm_source: プロパティにトラフィックを誘導した広告主、サイト、出版物、その他を識別します(Google、ニュースレター 4、

原创 [Python筆記] 劍指offer刷題記錄——進度50/75

劍指offer刷題記錄 LeetCode上的劍指offer題 刷題ing 26.樹的子結構 #1.雙遞歸 class Solution: def isSubStructure(self, A: TreeNode, B: T

原创 [Python筆記] 劍指offer刷題記錄——進度75/75

劍指offer刷題記錄 LeetCode上的劍指offer題 刷題ing 49. 醜數 #1.dp_轉化成數組合並問題,用上個狀態的數 class Solution: def nthUglyNumber(self, n:

原创 [Kaggle競賽] Ames房價迴歸預測Part1:特徵工程+利用XGBoost進行房價預測

賽題原址:House Prices: Advanced Regression Techniques 賽題描述: Ask a home buyer to describe their dream house, and they pr

原创 [Python筆記] Keras-LSTM學習筆記

LSTM網絡是一種循環神經網絡。循環神經網絡是一種神經網絡,它試圖對依賴於時間或順序的行爲(如語言、股價、電力需求等)進行建模。這是通過將神經網絡層在t時刻的輸出反饋給同一網絡層在t + 1時刻的輸入來實現的。它是這樣的: van

原创 [Python筆記] 用LDA(隱含狄利克雷分佈)抽取主題分佈+用戶特徵生成

實習的時候有個任務,利用大樣本關聯多種特徵二分類預測,其中有部分特徵爲文本特徵,簡單處理過後可取得一定收益,便考慮使用gensim庫裏的lda抽取樣本在文本特徵上的主題分佈生成新的特徵,具體實現如下: gensim中lda包的使

原创 [Kaggle競賽] Ames房價迴歸預測Part2:多模型Stacking進行房價預測

Kaggle入門競賽——房價預測問題:House Prices: Advanced Regression Techniques Part1詳見:[Kaggle競賽] Part1:特徵工程+利用XGBoost進行房價預測 內含數據初

原创 [Matlab]2018國賽 A題思路以及Matlab代碼實現

CUMCM2018 A題解題思路以及代碼實現一些關於CUMCM的思考CUMCM2018 A題對於題目的分析第一問1.1 總體思路1.2 模型求解1.3 Matlab實現第二問2.1 總體思路2.2 模型求解2.3 Matlab實現

原创 [Python筆記] 開發中遇到的部分實用小問題

python 部分實用小問題 持續更新中…… 1.讀入列名csv轉df後,如何轉爲可hash的list給別的df當索引用? 適用於如下場合: 特徵工程中初步選取的top特徵集存在csv裏了,想大批pd.read_csv直接用,但是

原创 [Scala學習筆記] Spark開發小筆記

Spark開發小筆記:從0開始的Spark建圖生活 持續更新中…… 0.開發平臺Zeppelin 支持多種語言,默認是scala(背後是spark shell),SparkSQL, Markdown 和 Shell。 是一個基於w

原创 [Kaggle競賽]利用RandomForest進行Titanic乘客生存預測

參加了Kaggle的Getting Started Competition體驗一下參賽流程。在此記錄一下賽題思路和Python實現代碼。 題目信息 賽題原址:Titanic: Machine Learning from Disas

原创 [Python筆記]部分經典排序的實現

[Python筆記]部分經典排序的實現0、部分排序算法相關術語1、選擇排序 Selection sort2、插入排序 Insertion sort3、冒泡排序 Bubble sort4、快速排序 Quick sort5、歸併排序

原创 [貼貼板]快速Hive SQL語句

持續更新中,是用來應對ETL基本操作的貼貼板和一點筆記。 旨在把變量名改掉快速使用語句結構。 1.建表: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_na