原创 mysql數據庫基礎知識和操作,筆記1,權亮

一、對數據庫的理解 數據庫: 數據庫是一些關聯表的集合。 數據表: 表是數據的矩陣。在一個數據庫中的表看起來像一個簡單的電子表格。 列: 一列(數據元素) 包含了相同類型的數據, 例如郵政編碼的數據。 行:一行(=元組,或記錄)是

原创 Jupyter Notebook更改Windows默認啓動目錄,儲存目錄

之前很難受,網上查了好多方法,這個最快,省事,靠譜。 第一步:打開Jupyter快捷方式 右鍵notebook快捷方式,屬性。 將目標的參數默認是%USERPROFILE%和起始位置替換成你想要的文件夾路徑(我的是E:\CDA

原创 excel的數據收集與清洗,筆記2,權亮

1 數據的快速輸入 將鼠標放置在單元格右下角,鼠標變爲黑色十字,之後按住向下拉,變回自動填充。 同時我們可以根據自己的實際需要,自定義序列的內容。 2 填充柄+右鍵 解答:將鼠標放在第一個數據的單元格的右下角,使得鼠標變爲

原创 hadoop的hdfs讀寫文件流程

一 讀取文件流程 打開分佈式文件-調用分佈式文件 DistributedFileSystem.open()方法 從Namenode獲得Datanode地址-DistributedFileSystem 使用RPC調用Namenod

原创 excel 經典面試題,筆記7,權亮

歡迎留言 求各省份2017全年進貨金額(全部產品)Top1的醫院 關鍵點,是各個省份,2017年,第一名的,醫院. 數據如下: 銷售表: 醫院表: 價格表: 解答: 我們要根據價格表在產品表裏填充每次購買藥品的價格,從而生成

原创 Hive工作原理

Hive工作原理,如上圖,我們不講右邊的hadoop階段,我們只講左邊hive階段的流程: . 用戶提交查詢等任務給Driver。 編譯器獲得該用戶的任務Plan。 編譯器Compiler根據用戶任務去MetaStore中

原创 Hive查詢,客服電話練習

如圖片,我自己建了兩個表格模擬數據庫內容, 如下: table:call table:sep create table call(case_id int, create_time date,deal_name string,

原创 numpy.put ()理解

這個函數非常有用,更換需要的值,可以操作. 參數 ---------- a:ndarray 目標數組。 ind:array_like 目標索引,解釋爲整數。 v:array_like 在目標數組的“a”中放置的值。 如果v比ind

原创 Hive 螞蟻森林面試題訓練

背景說明: 以下表記錄了用戶每天的螞蟻森林低碳生活領取的記錄流水。 table_name:user_carbon user_id data_dt low_carbon 用戶 日期

原创 pandas多級索引的一點小總結

這裏有一個 pop1的多級索引的 Series.對他們的索引和切片進行操作,得到以下情形,作爲回顧的筆記

原创 PCA 算法幾何理解

PCA(Principal component analysis) PCA 是一種基於多變量的降維技術,主要用於降維、可視化、去相關、分類、確定潛在因子、壓縮和去噪音等方面。是特徵工程中不可缺少的一部分,有利於我們構建更加適合模型

原创 sql 面試題 客源量 帶看量

需要原題練習,請聯繫我 SQL題目 一、請獲取2019年3月31日錄入的城市的客源量,客源狀態爲有效客源或者共享池客源,取出信息包括城市名稱,客源量(電話號碼去重)。 create table custdel_all_info_

原创 統計學:方差分析和相關分析的區別和聯繫

區別:方差分析目的是檢驗因素是否對總體起作用,方法是不同的分組施加不同的因素水平,然後看組間差距是否明顯大於組內差距,若明顯大於則認爲因素對總體起作用。具體過程中,方差分析只讀取因變量數據,而不讀取自變量數值。 相關分析是檢驗變量

原创 numpy.mean,sum,max,min (keepdims=True)的理解

np.mean() 函數定義: numpy.mean(a, axis, dtype, out,keepdims ) 當 keepidms=True,保持其二維或者三維的特性,(結果保持其原來維數) 默認爲 False,不保持其二維