原创 非常用心的好上手coding的MapReduce編程模型

文章目錄一、前言二、wordcount原理及分析1、如何統計單詞數?2、MapReduce數據處理邏輯3、MapReduce架構(可略過)三、wordcount codeWordcountMapper.javaWordcountR

原创 c++讀一行數字以換行結束,讀一行句子以換行結束,讀多行字符串

基礎 1、getchar() 頭文件#include<cstdio>中 從標準輸入讀下一個字符。原返回int(如輸入a,函數返回97)。 2、getline() 讀入一行字符串,以換行結束。 應用:實現輸入 1、讀一行整數,以換行

原创 java 字節數組byte[]轉爲double[]數組

讀二進制文件(文件裏面是double型二進制數據,共32個字節,對應的十進制數是1.0,2.0,3.0,4.0)。把32字節的byte[]數組,每8個字節轉一個double,轉成了一個double列表。代碼如下: import j

原创 談談分組:sql的group by+聚集函數 和 python的groupby+agg

直接舉例子+分析例子+總結來說,我先給幾個表: 學生表:student(學號,姓名,年齡,院系); 課程表:course(課程號,課程名,學分); 學生選課表:sc(學號,課程號,分數); 啥時候用分組呢? 我由簡至深來談。 1、

原创 python默認參數必須指向不變對象

1、一般情況下的默認參數 # coding=utf-8 def enroll(name, age, city="DaLi", country="China"): print("name:",name) print("age:

原创 c++重拾 STL vector使用

vector 標準庫vector表示對象的集合,其中所有的對象類型都相同。有了vector就儘量不要用數組了。我在oj上做編程題時,用數組時就可能出現一些無法理解的錯誤,而僅僅把定義改成vector就完全沒問題。 定義,初始化 v

原创 PartialDependencePlots

部分依賴圖是一個extract insights from complex models的好方法。 部分依賴圖顯示了目標相應和一組特徵之間的獨立性,排除了其他所有的特徵。直觀的,可將部分依賴解釋爲預期的目標響應,和目標特徵的函數。

原创 c++ STL重拾——stack使用

用法 #include <stack> 底層容器默認使用的是deque。 stack提供了以下操作:入棧、出棧、判斷棧空、訪問棧頂、棧大小。 stack s1; stack s2; 入棧:s.push(x) 默認是不預設棧大小

原创 pandas——很全的groupby、agg,對錶格數據分組與統計

我這篇groupby寫的不好。太複雜了。其實實際上經常用的就那麼幾個。舉個例子,把常用的往那一放就很容易理解和拿來用了。日後再寫一篇。 文章目錄DataFrame分組,並對分組進行迭代1. 按key1(一個列)分組,其實是按key

原创 分類中樣本類別不均衡問題及解決

先簡單總結一下,具體寫在筆記裏面了。 解決方法 欠採樣 過採樣 不處理樣本,分類閾值移動 代價敏感學習(先知道)

原创 處理DataFrame中的日期數據:普通字符串轉換爲datetime類型、並提取日期中的年份月份

普通字符串轉換爲datetime類型 原:字符串“01.12.2013”(日.月.年),類型顯示爲object 目標:將其轉換成日期, 類型顯示爲datetime 有兩種方式。 方式一: import pandas as pd

原创 sql重拾(一)——談談數據分析方面的sql與python之異曲同工之妙

本科學了sql,研究生常常用python。二者在做數據分析、做統計方面有異曲同工之妙。 sql中的、Excel裏的統計函數、python裏面的一些統計函數其實是一樣的,同一原理,同一東西,表現形式不同而已。下面來體會一下。 以下是

原创 c++優先隊列priority_queue,及其應用

頭文件#include<queue>。 其實就是堆,可以這麼說。對於有的問題需要用堆去實現的,就可以用優先隊列。 它允許用戶爲隊列中元素設置優先級,放置元素的時候不是直接放到隊尾,而是放置到比它優先級低的元素前面,標準庫默認使用

原创 c++重拾STL之 隊列:queue、deque

queue 頭文件#include<queue> queue模板類兩個模板參數:一個是元素類型,一個是容器類型,容器類型默認爲deque類型。 1、定義queue對象: queue<int> q1; queue<BTNode*>

原创 爲什麼在很多應用中常採用正態分佈/高斯分佈、中心極限定理

爲什麼在很多應用中常採用正態分佈/高斯分佈? 當我們由於缺乏關於某個實數上分佈的先驗知識而不知道該選擇怎麼樣的形式時,正態分佈是默認的比較好的選擇,有兩個原因: 一,我們想要建模的很多分佈的真實情況是比較接近正態分佈的。 中心極限