原创 Apache Kafka---(1)

初識kafka Apache Kafka是一種分佈式發佈-訂閱消息系統。具有分佈式,可劃分的特點,提供冗餘備份的持久性日誌服務。用於處理活躍的流式數據。 那麼Apache Kafka因何而生的呢? 由於一個大系統由各個小的子系統

原创 Spark機器學習算法實操——LinearRegression

任務要求如下: 實現Spark和HIVE與HDFS之間的通信 利用Spark.sql從HIVE中獲取數據,並進行預處理以符合Spark機器學習庫中輸入文件的libsvm格式 LinearRegression線性迴歸模型建模 將得到的預測結

原创 排序算法總結(Python實現)——(二)

上一篇總結了冒泡、選擇、插入和希爾排序,這篇來總結歸併排序、快速排序和堆排序。 歸併排序 歸併排序是建立在歸併操作上的一種有效的排序算法。該算法是採用分治法(Divide and Conquer)的一個非常典型的應用。歸併排序是一種穩定的

原创 排序算法總結(Python實現)——(一)

整個排序算法分兩部分來總結,這篇總結第一部分一些相對簡單和常用的排序算法,包括冒泡排序、選擇排序、插入排序和希爾排序。 冒泡排序 冒泡排序應該是大家接觸的最早的排序方法了,理解起來也十分簡單。冒泡排序是一種簡單的排序算法。它重複地走訪過要

原创 二叉樹最強總結(python實現)

這篇文章總結了關於二叉樹的創建和各種遍歷方式。 二叉樹的創建方式 通過層次遍歷順序創建 先序遍歷順序(帶上葉子結點標識符)創建 先序順序+中序順序 中序順序+後序順序 二叉樹的遞歸方式 先序遍歷(遞歸+非遞歸) 中序遍歷(遞歸+非遞歸)

原创 Python---正則表達式彙總

一、正則表達式概述 正則表達式使用單個字符串描述匹配符合某個規則的字符串 它是對字符串操作的一種邏輯公式 它的應用場景:處理文本和數據 匹配過程:依次拿出表達式和文本中字符比較,如果每個字符串都能匹配,則成功 二、re模塊 講

原创 關於Python安裝模塊出現error: command 'gcc' failed with exit status 1錯誤的解決方法

當使用pip install ###時,有時會出現如標題上的問題,我遇到的問題如下: _posixsubprocess.c:3:20: fatal error: Python.h: No such file or director

原创 Spark之核心---RDDs(2)

前言 在第一章,已經介紹過了RDDs的基本概念,創建方法和特性。那麼在本章將介紹RDD的基本操作方法。如果沒看過第一篇的點擊鏈接:Spark之核心—RDDs(1) RDD基本操作方法之Transformation 顧名思義,Tra

原创 Python爬蟲---理論基礎

其實爬蟲沒有大家想象的那麼複雜,有時候也就是幾行代碼的事兒,千萬不要把自己嚇倒了。這篇就清晰地講解一下利用Python爬蟲的理論基礎。 首先說明爬蟲分爲三個步驟,也就需要用到三個工具。 利用網頁下載器將網頁的源碼等資源下載。

原创 淺談Redis---(2)

本篇文章將會繼續介紹Redis緩存數據庫,將從redis命令、事務和發佈訂閱等方面來介紹。 Redis命令 Redis 命令用於在 redis 服務上執行操作。 要在 redis 服務上執行命令需要一個 redis 客戶端。Red

原创 淺談Redis---(1)

本文爲Redis系列的第一部分,將從Redis的簡介、安裝配置和數據類型三個方面進行介紹。 現在越來越多的場景開始廣泛使用Redis緩存數據庫,除了衆所周知的速度極快這個優點,還有其他的特性嗎?答案是肯定的。前幾天在一個微信公衆

原创 NLP————目標情感分析(TSA任務)

TSA任務介紹 目標情感分析任務(Targeted Sentiment Analysis, TSA)旨在提取目標實體並對其進行情感分類。因此可以理解爲命名實體識別(NER)和情感分析(SA)兩個任務的聯合學習。例如,給出一句“ESPN調查

原创 三種常用數據標準化方法

什麼是數據標準化(Normalization)? 數據的標準化(normalization)是將數據按比例縮放,使之落入一個小的特定區間。在某些比較和評價的指標處理中經常會用到,去除數據的單位限制,將其轉化爲無量綱的純數值,便於不同單位或

原创 知識圖譜發展報告2018————實體關係學習

關係定義爲兩個或多個實體之間的某種聯繫,實體關係學習就是自動從文本中檢測和識別出實體之間具有某種語義的關係,也稱爲關係抽取。關係抽取的結果通常是一個三元組(實體1,關係,實體2)。例如:句子“北京是中國的首都、政治中心和文化中心”中的表述

原创 知識圖譜發展報告2018————總結(1)

知識圖譜技術是知識圖譜構建和應用的技術,是語義web、自然語言處理和機器學習的交叉學科。我們將知識圖譜技術分爲三個部分:知識圖譜構建技術、知識圖譜查詢和推理技術和知識圖譜應用。 知識圖譜構建 知識表示與構建 知識表示將現實世界中的各類知識