原创 floyed 算法計算最短路徑

在某些應用中,需要計算兩個節點之間的最短路徑,比較有名的是Dijkstra算法和floyed算法,都是基於節點的鄰接關係求解任意兩點的可達性和最短可達路徑。 Dijkstra算法比較容易理解,無論是廣度優先還是深度優先都可以根據具體應用

原创 python 通過cmd 檢查 SVN 配置庫同步

背景簡介: 目前對SVN配置庫已經部署了svn sync同步機制,通過定時任務定期對主備配置庫進行同步。但同步結果需要到服務器上去檢查執行情況,或者連接到配置庫查看最新的更新,在配置庫比較大的情況下也不方便。 思路:svn info命令可

原创 python使用 sparkSQL集羣

python使用 sparkSQL集羣python在一臺windows PC上,思路是通過這臺PC 遠程連接sparksql執行任務。與此前使用jupyter notebook 不同,jupyter notebook實際上是通過瀏覽器遠程

原创 sparksql 連接讀取MySQL數據庫

1. 從oracle 官方網站  https://dev.mysql.com/downloads/connector/j/ 下載mysql-connector 驅動,一般是一個rpm包。2.  部署mysql-connector 驅動  

原创 sparkSQL 連接讀取Oracle數據庫

類似於mysql的連接方式,不過稍有細節差別。1. Oracle數據庫在安裝後一般會在$ORACLE_HOME/jdbc/lib目錄中放置ojdbc*.jar等jar文件,將這些文件複製到spark集羣服務器上,比如$SPARK_HOME

原创 使用python telnetlib批量備份交換機配置

使用了telnetlib模塊,首先登錄到交換機,列出並獲取配置文件的名稱,然後通過tftp協議將配置文件傳輸到文件服務器上,爲避免配置文件覆蓋,將備份的配置文件名稱統一加入日期以作區分。1. 登錄方式和口令有好幾種,比較懶惰,通過不同列表

原创 jupyter notebook on spark 遠程配置

環境: server : centos7 + annaconda2 + python2 + jupyter + spark+ hadoop      client :  windows 10 + 瀏覽器在服務器上安裝spark + had

原创 excel中列值不同時使用條件格式進行顏色標註

有一個excel表格文件是通過兩個數據源獲取拼接得到的,其中有兩列的值大部分是相同的,小部分不同。對兩個列值不同的行進行顏色標識,做法是:首先選中所有的行列。其次,點擊“條件格式”,然後選擇“新建規則”——“使用公式確定要使用格式的單元格

原创 sparkSQL 訪問HDFS on jupyter notebook

在jupyter notebook 交互式界面中,使用sparksql  訪問hdfs的數據,並轉換爲臨時視圖,通過sql進行查詢。在此過程中遇到的問題。源碼如下:from pyspark.sql import SparkSessiont

原创 使用beautifulsoup 處理抓取的網頁內容

一、爬取網頁新聞標題及鏈接一般網頁的內容先是看到標題及其鏈接,點擊鏈接後纔看到新聞內容。因此首先要爬取網頁新聞標題。import requestsfrom bs4 import BeautifulSoupnewsurl="http://w