原创 -bash: ll: 未找到命令的原因和解決方法

轉自:http://blog.jues.org.cn/post/bash-ll-wei-zhao-dao-ming-ling-de-yuan-yin-he-jie-jue-fang-fa.html 在Linux的終端上輸入”ll”命令,然

原创 wind10系統如何安裝Chocolatey

1.最近在利用win10 PowerShell使用choco命令安裝軟件時報錯: 2.安裝Chocolatey 管理員方式運行cmd命令提示符工具安裝Chocolatey,輸入以下命令: @"%SystemRoot%\Syste

原创 git commit 、CHANGELOG 和版本發佈的標準自動化

一直以來,因爲團隊項目迭代節奏很快,每次發佈的更新日誌和版本更新都是通過人肉來完成的。有時候實在忙的團團轉,對於手動的寫這些更新信息就顯得力不從心了。對於團隊新來的小夥伴,有時候遇到些緊急情況,就更顯的亂糟糟,還是得麻煩團隊資深的

原创 PyTricks:Functions are first-class citizens in Python

函數在python中是first-class citizens: 1.能作爲其他函數的參數被傳遞 2.能從其他函數中作爲值返回 3.能夠分配成變量且存儲在數據結構中 示例: Python 3.6.0 (default, Oct 2

原创 VS Code 玩轉 Jupyter Notebook 份完整教程

  儘管許多程序員選擇使用 IDE(Integrated Development Environment,集成開發環境)工作,但也有一些程序員(包括我)喜歡探索 IDE 中不同的可能性。這種探索並不只是因爲酷,還是因爲每個流行的 IDE

原创 win10美化PowerShell

1.安裝ConEmu(windows終端增強版) choco install ConEmu choco命令安裝參見 2.安裝PowerShell字體 git clone https://github.com/powerli

原创 Java 增強型的for循環 for each

For-Each循環   For-Each循環也叫增強型的for循環,或者叫foreach循環。 For-Each循環是JDK5.0的新特性(其他新特性比如泛型、自動裝箱等)。 For-Each循環的加入簡化了集合的遍歷。 其語法

原创 最近很火的武漢櫻花開放程序代碼

特殊時期火爆公衆號的python小程序,週末閒着無聊照寫了一遍… 原作者:武漢大學朱永春同學 cv_2.py import cv2 vidcap = cv2.VideoCapture('video/video.avi') cou

原创 在 Apache Hive 中輕鬆生存的12個技巧

Hive 可以讓你在 Hadoop 上使用 SQL,但是在分佈式系統上優化 SQL 則有所不同。這裏是讓你可以輕鬆駕馭 Hive 的12個技巧。 Hive 並不是關係型數據庫(RDBMS),但是它大多數時候都表現得像是一個關係型數

原创 CNCC 2016 | 南京大學黃宜華教授 50 張 PPT 剖析 Alluxio 及其應用

Alluxio 簡介 Alluxio(之前名爲 Tachyon)是世界上第一個以內存爲中心的虛擬的分佈式存儲系統。它統一了數據訪問的方式,爲上層計算框架和底層存儲系統構建了橋樑。 應用只需要連接Alluxio即可訪問存儲在底層

原创 教程 | 寫給Python程序員的Scala入門教程

統計網導讀 本文從安裝、基礎數據類型、運算符、函數等七個方面系統介紹了Scala的語言特性。不僅是Python程序員,任何有編程經驗或者希望入門的人都可以看看,對Scala做一個基礎的認識。 隨着業務和數據的需要,我們引入了Spark。

原创 Spark性能優化指南——基礎篇

前言 在大數據計算領域,Spark已經成爲了越來越流行、越來越受歡迎的計算平臺之一。Spark的功能涵蓋了大數據領域的離線批處理、SQL類處理、流式/實時計算、機器學習、圖計算等各種不同類型的計算操作,應用範圍與前景非常廣泛。在美團•

原创 看spark示例代碼如何求的PI

以前也知道蒙特卡洛投針求PI,今天安裝spark,安完先要試試他自帶的幾個小程序看看能不能用,我主要會用python寫程序,也就是pyspark所以在spark裏的examples目錄深處找python的文件夾,裏面的pi.py就是。看

原创 kafka 的offset的重置

最近在spark讀取kafka消息時,每次讀取都會從kafka最新的offset讀取。但是如果數據丟失,如果在使用Kafka來分發消息,在數據處理的過程中可能會出現處理程序出異常或者是其它的錯誤,會造成數據丟失或不一致。這個時候你也許會想

原创 快速開始使用Spark和Alluxio

摘要: Spark在大數據處理領域正獲得快速增長,其核心的RDD極大地提升了處理性能並且支持迭代運算。目前Spark DataFrame和Spark SQL更加成熟,而作爲普通文件存儲方案的Tachyon升級成爲Alluxio,在成熟度