原创 HDFS 文件操作基礎命令

bin/hadoop dfs–cmd <args> 1. cat 格式:hadoop dfs-cat URI [URI …]作用:將參數所指示的文件的內容輸出到stdout。 示例: hadoop dfs -cat hdfs://

原创 JAVA中Properties類的操作

java中的properties文件是一種配置文件,主要用於表達配置信息,文件類型爲*.properties,格式爲文本文件,文件的內容是格式是"鍵=值"的格式,在properties文件中,可以用"#"來作註釋,properties文件

原创 在Ubuntu下搭建Python以及相關組件

在Ubuntu14.04上安裝Python研究環境軟件包 在Linux當中,默認root的提示符爲#,而一般身份用戶的提示符爲$。 點擊左上角的搜索按鈕,在輸入框裏輸入“Terminal”,彈出命令行界面。

原创 Numpy中矩陣對象(matrix)

>>> a = np.matrix('1 2 7; 3 4 8; 5 6 9') >>> a #矩陣的換行必須是用分號(;)隔開,內部數據必須爲字符串形式(‘ ’),矩 matrix([[1, 2, 7],

原创 Ubuntu 14.04 安裝搜狗輸入法

今天安裝Linux 搜狗輸入法 先添加以下源 sudo add-apt-repository ppa:fcitx-team/nightly 添加源之後需要更新一下系統sudo apt-get update 然後就可以開始安裝fcit

原创 百度2014筆試算法題

給定一個如下格式的字符串(1,(2,3),(4,(5,6),7))括號內的元素可以是數字,也可以是另一個括號,請實現一個算法消除嵌套的括號,比如把上面的表達式變成:(1,2,3,4,5,6,7),如果表達式有誤請報錯。 public cl

原创 信息檢索的評價指標(Precision, Recall, F-score, MAP、ROC、AUC)

一:Precision, Recall, F-score          信息檢索、分類、識別、翻譯等領域兩個最基本指標是召回率(Recall Rate)和準確率(Precision Rate------注意統計學習方法中prece

原创 Hibernate 的三種狀態

學過hibernate的人都可能都知道hibernate有三種狀態,transient(瞬時狀態),persistent(持久化狀態)以及detached(離線狀態),大傢伙也許也知道這三者之間的區別,比如瞬時狀態就是剛new出來一個對

原创 SQL學習資料01

1、用一條SQL 語句 查詢出每門課都大於80 分的學生姓名。(表結構如下圖) 這裏寫圖片描述 答案可以有如下兩種: select distinct student_name from table_test_one where stu

原创 Hadoop 提取KPI 進行海量Web日誌分析

Hadoop 提取KPI 進行海量Web日誌分析 Web日誌包含着網站最重要的信息,通過日誌分析,我們可以知道網站的訪問量,哪個網頁訪問人數最多,哪個網頁最有價值等。一般中型的網站(10W的PV以上),每天會產生1G以上Web日誌文件。大

原创 深入對比數據科學工具箱:Python和R 非結構化數據的結構化

概述 在現實場景中,由於數據來源的異構,數據源的格式往往是難以統一的,這就導致大量具有價值的數據通常是以非結構化的形式聚合在一起的。對於這些非結構化數據,最常見的數據結構就是JSON,而對應的數據庫就是MongoDB。 利用MongoD

原创 Java中的IO流系統詳解

Java中的IO流系統詳解 Java 流在處理上分爲字符流和字節流。字符流處理的單元爲 2 個字節的 Unicode 字符,分爲操作字符、字符數組或字符串,而字節流處理單元爲 1 個字節,操作字節和字節數組。 Java 內用 Unicod

原创 歸併排序

歸併排序 package com.buaa.algorithm.sort; /** * 歸併排序 * @author lzxyzq * */ public class d2mergesorted { static int

原创 Hadoop HDFS Tools

Hadoop HDFS Tools package cn.buaa; import java.io.ByteArrayOutputStream; import java.io.IOException; import java.io.I

原创 Hadoop集羣WordCount詳解(二)

Hadoop集羣WordCount詳解(二) 源代碼程序 WordCount處理過程 具體代碼講解 1、源代碼程序 package org.apache.hadoop.examples; import java.io.IOExce