原创 大數據學習框架及指南

Hadoop生態圈 一 ,採集,數據從哪裏來?主要包括flume等; 一 ,存儲,海量的數據怎樣有效的存儲?主要包括hdfs、Kafka; 二,計算,海量的數據怎樣快速計算?主要包括MapReduce、Spark、storm等; 三

原创 docker學習系列—windows下安裝docker

一、windows安裝docker的基本要求 (1) 64爲操作系統,win7或者更高 (2) 支持“ Hardware Virtualization Technology”,並且,“virtualization ”可用 二、安

原创 Python數據操作—單詞標記化

單詞標記是將大量文本樣本分解爲單詞的過程。 這是自然語言處理任務中的一項要求,每個單詞需要被捕獲並進行進一步的分析,如對特定情感進行分類和計數等。自然語言工具包(NLTK)是用於實現這一目的的庫。 在繼續使用python程序進行字詞標記之

原创 使用tensorflow構建電影推薦系統

1、蒐集數據集 https://grouplens.org/datasets/movielens/ 2、準備數據 import pandas as pd import numpy as np import tensorflow a

原创 Python數據操作—處理Excel數據

Microsoft Excel是一個使用非常廣泛的電子表格程序。 它的用戶友好性和吸引人的功能使其成爲數據科學中常用的工具。 Pandas庫提供了一些功能,我們可以使用該功能完整地讀取Excel文件,也可以只讀取選定的一組數據。 還可以讀

原创 Python數據操作—數據清理

數據丟失在現實生活中是一個問題。 機器學習和數據挖掘等領域由於數據缺失導致數據質量差,因此在模型預測的準確性方面面臨嚴峻的問題。 在這些領域,缺失值處理是使模型更加準確和有效的關鍵。 什麼情況下,以及什麼時候數據會丟失? 讓我們考慮一個

原创 特徵縮減技術(shrinkage): lasso和嶺迴歸

1、概述 通過對損失函數(即優化目標)加入懲罰項,使得訓練求解參數過程中會考慮到係數的大小,通過設置縮減係數(懲罰係數),會使得影響較小的特徵的係數衰減到0,只保留重要的特徵。常用的縮減係數方法有lasso(L1正則化),嶺迴歸(L2正則

原创 梯度下降算法與隨機梯度下降

1、相關符號說明 M 訓練樣本的數量 x 輸入變量,又稱特徵 y 輸出變量,又稱目標 (x, y) 訓練樣本,對應監督學習的輸入和輸出 表示第i組的x 表示第i組的y h(x)表示對應算法的函數 θ是算法中的重要參數(向量)

原创 Oracle分組統計查詢-統計函數

統計函數: 統計個數count(*|[distinct]字段); max(字段), min(字段); sum(數字字段), avg(數字字段); 示例1:查詢所有僱員的最高工資和最低工資。 select max(sal),min(

原创 Oracle之複雜查詢

實例1:列出薪資高於在部門30工作的所有員工的薪資的員工姓名和薪資,部門名稱,部門人數。 -emp 表:姓名,薪資,部門人數; -dept 表:部門名稱; 第一步:找出30部門的所有僱員的工資,返回多行單列; select sal

原创 Oracle多表查詢-基本概念

select * from emp,dept where emp.deptno=dept.deptno; 以上代碼只是消除了顯示的笛卡爾積,而在數據庫的多表查詢中,笛卡爾積就一直存在。 多表查詢中的問題: (1) 若表中的數據量很大,

原创 Oracle多表查詢-數據集合操作

1、UION操作 select empno, ename, job, deptno from emp where deptno=10 union select empno, ename, job, deptno from emp;

原创 Oracle分組統計查詢-分組查詢

【⑤確定要使用的數據列】SELECT [DISTINCT] 字段 [別名] 【①確定要查詢的數據來源】FROM 【②針對數據進行的篩選】WHERE 過濾條件 【③針對數據實現分組】GROUP BY 分組字段,分組字段,… 【④針對

原创 Python數據操作—處理CSV數據

從CSV讀取數據(逗號分隔值)是數據科學的基本需求。 通常,我們從各種來源獲取數據,這些數據可以導出爲CSV格式,以便其他系統可以使用這些數據。 Pandas庫提供了一些功能函數,我們可以使用該功能完整地讀取CSV文件,也可以只讀取選定的

原创 Python數據操作—處理非結構數據

已經以行和列格式存在的數據或者可以很容易地轉換爲行和列的數據,以便之後它可以很好地適合數據庫,這被稱爲結構化數據。 例如CSV,TXT,XLS文件等。這些文件有一個分隔符,固定寬度或可變寬度,其中缺失值在分隔符之間表示爲空白。 但有時候我