原创 Mysql主從同步(1)-主從/主主環境部署梳理(親測可用)

原文轉載與:http://www.cnblogs.com/kevingrace/p/6256603.html   Mysql複製概念說明 Mysql內建的複製功能是構建大型,高性能應用程序的基礎。將Mysql的數據分佈到多個系統上去,這種

原创 spark大數據計算引擎原理深剖(優缺點)-spark簡介

用spark,你僅僅只是調用spark的API肯定是很low的。今天來講講spark的原理,並且會針對部分源碼進行講解,如有不同意見請聯繫本人交流探討。目前大數據生態主要部分是Hadoop軟件框架和Spark內存級計算引擎。Hadoop包

原创 python用Levenshtein計算文本相似度(附帶所有個人對函數的理解)

 安裝 Levenshtein 報錯問題點擊:解決安裝python-Levenshtein時出現“Unable to find vcvarsall.bat”錯誤 #! /usr/bin/python # -*- coding: utf8

原创 深入淺出帶你理解靜態方法和類方法的區別

class A(): x1 = 3 def __init__(self): self.num = 1 @ staticmethod def test1(): prin

原创 快速上手結巴分詞

一.特點 1、支持三種分詞模式     精確模式,試圖將句子最精確的切開;     全模式,把句子中所有的可以成詞的詞語都掃描出來,速度非常快,但是不能解決歧義;     搜索引擎模式,在精確模式的基礎上,對長詞再次切分,提高召回率,適合

原创 探索TextRank提取文本關鍵詞

TextRank算法介紹   先說一下自動文摘的方法。自動文摘(Automatic Summarization)的方法主要有兩種:Extraction和Abstraction。其中Extraction是抽取式自動文摘方法,通過提取文檔中已

原创 linux(服務器)下安裝python3

由於centos7原本就安裝了Python2,而且這個Python2不能被刪除,因爲有很多系統命令,比如yum都要用到。 [root@iZuf6ititjgl7x9tgf1cyiZ ~]# python Python 2.6.6 (r2

原创 探索tf-idf提取文本關鍵詞

TF-IDF(term frequency–inverse document frequency)是一種用於信息檢索與數據挖掘的常用加權技術。TF意思是詞頻(Term Frequency),IDF意思是逆文本頻率指數(Inverse Do

原创 最全面的Hadoop框架以及整個大數據生態介紹

1. hadoop 生態概況Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構。用戶可以在不瞭解分佈式底層細節的情況下,開發分佈式程序。充分利用集羣的威力進行高速運算和存儲。具有可靠、高效、可伸縮的特點。Hadoop的核心是

原创 RecursionError: maximum recursion depth exceeded while calling a Python object

RecursionError: maximum recursion depth exceeded while calling a Python object爬蟲的朋友一般分頁或者回調的時候就經常會遇到這個錯誤,英文意思很明白,超過了Pyt

原创 sklearn如何做好特徵工程

以下內容相關包信息:Python3 相關下載 主要包:sklearn(scikit-learn),numpy ,scipy 安裝:pip install 包名 ,建議安裝順序numpy,scipy,sklearn(scikit-learn

原创 初學go語言開發第一個爬蟲項目

package main import ( "fmt" "net/http" "os" "regexp" "strconv" "strings" ) func HttpGet(url string) (result

原创 Windows7-8-10安裝部署hadoop-2.7.5(最詳細的步驟,不需要cygwin)

如果你不想在linux上搭建,又不想安裝cygwin。那就繼續往下看啦~目前大數據生態主要部分是Hadoop軟件框架和Spark內存級計算引擎。Hadoop包含四個項目:Hadoop common,HDFS,YARN和MapReduce。

原创 Exception: Java gateway process exited before sending the driver its port number(以解決)附源碼

代碼如下:#! /usr/bin/python # -*- coding: utf8 -*- #author:yukang import pyspark from pyspark import SparkContext as sc fro

原创 簡述ES(ElasticSearch入門簡介)

根據ES的官方文檔,可以簡單定義以下3點: 1 .一個分佈式的實施文檔存儲,每個字段可以被索引與搜索 2 .一個分佈式實時分析搜索引擎 3 .可以勝任上百個服務節點的擴展,並支持PB級別的結構化或者非結構化數據。   Elasticsea