原创 Java NIO 第一版I/O模型概述

Java NIO(一)I/O模型概述 目錄 基本概念講述 基本概念講述 什麼是同步? 同步就是:如果有多個任務或者事件要發生,這些任務或者事件必須逐個地進行,一個事件或者任務的執行會導致整個流程的暫時等待,這些事件沒有辦法併發地執

原创 python的del 第四天(關鍵字和__del__()方法)

python的__del__()方法 創建對象後,Python解釋器默認調用__init__()方法。當刪除一個對象時,Python解釋器也會默認調用一個方法,這個方法爲__del__()方法。在Python中,對於開發者來說很少

原创 b樹和b+

其實二者最主要的區別是: (1) B+樹改進了B樹, 讓內結點只作索引使用, 去掉了其中指向data record的指針, 使得每個結點中能夠存放更多的key, 因此能有更大的出度. 這有什麼用? 這樣就意味着存放同樣多的key,

原创 練習題

1. 互斥量用於線程的互斥,信號量用於線程的同步。 這是互斥量和信號量的根本區別,也就是互斥和同步之間的區別。 互斥:是指某一資源同時只允許一個訪問者對其進行訪問,具有唯一性和排它性。但互斥無法限制訪問者對資源的訪問順序,即訪問

原创 ML binning

一、分箱 :數據分箱(也稱爲離散分箱或者分段)是一種數據預處理的方法,用於減少次要觀察誤差的影響,是一種將多個連續值分爲較少數量的分箱的方法。 1.1離散化: ,把無限空間中有限的個體映射到有限的空間中去,以此提高算法的時空效率。

原创 ML 9day 開始無監督學習 聚類算法 K-means clustering.

先看一個flush動畫 http://shabal.in/visuals/kmeans/6.html 如圖所示,數據樣本用圓點表示,每個簇的中心點用叉叉表示。(a)剛開始時是原始數據,雜亂無章,沒有label,看起來都一樣,都是

原创 降維

一、爲什麼要降維? 舉個例子 兩個特徵“千克”,“磅”。可以發現,雖然是兩個變量,但它們傳達的信息是一致的,即物體的重量。所以我們只需選用其中的一個就能保留原始意義,把2維數據壓縮到1維,這樣的好處減少矩陣大小,在集合中就是減少維

原创 python數據結構、numpy、pandas、matplotlib

與Python列表不同,NumPy受限於所有包含相同類型的數組。如果類型不匹配,NumPy將儘可能向上轉換(此處,整數向上轉換爲浮點數) 網址 https://github.com/jakevdp/PythonDataScien

原创 數據傾斜問題

一、數據傾斜的原因:核心原因是reduce段數據分佈不均勻,導致少量reduce子任務未完成 二、解決方案: 2.1調節參數hive.map.aggr = true 在map端部分聚合,相當於combiner hive.group

原创 ML 100day eightday(random forest)

隨機森林是有監督的集成學習模型(ensemble—learning model)主要用於分類和迴歸。隨機森林算法分爲兩步。第一步是創建決策樹,第二步是根據第一步中決策樹的分類器結果做出決策, 隨機森林預測過程: 1、使用一個隨機創

原创 迴歸和分類的區別

迴歸是定值 分類是定性 Q:分類與迴歸的區別就是離散和連續的區別嗎? A:這兩者的區別完全不在於連續與否啊,而在於損失函數的形式不同啊! https://www.zhihu.com/question/21329754

原创 100-Days-Of-ML twoday

import pandas as pd import numpy as np import matplotlib.pyplot as plt dataset = pd.read_csv(‘C:\Users\Administrat

原创 啥是迴歸?

今天突然想搞清楚這個問題,遂搜索了一下,現總結如下。 這一概念的英文是“regression”,是由高爾頓(Galton)在1886年的論文Regression towards Mediocrity in Hereditary

原创 ML 100Day sixday KNN算法

1、KNN算法:k最近鄰(K-NearestNeighbor,KNN)分類算法的核心思想是如果一個樣本在特徵空間中的k個最相似(即特徵空間中的最臨近)的樣本中大多數屬於某一個類別,則該樣本也屬於這個類別。KNN算法不僅可以用於分類