原创 利用bs模塊抓取數據

剛剛用bs模塊抓取了一些數據,發現其中真的有好多問題,覺得對自己很有用,有的甚至是困擾自己很長時間的。 接下來就說說吧 抓取的是豆瓣電影的網站http://movie.douban.com/top250

原创 Python運行時的常見錯誤

這些常見錯誤,也是我有時會遇到的,說到底還是不細心的緣故,所以,在這裏跟大家說, 無論自己在幹什麼,一定要細心對待。 1.忘記在if,elif,else等後面忘記加:導致“SyntaxError :invalid syntax” 2.符號

原创 sum,range

時間一長,東西就愛忘記,也是因爲自己不紮實的緣故吧。再記一下sum和range的使用。 sum是Python中一個很實用的函數,sum()的參數是一個列表形式。 例如:sum(1,2,3) 就會出錯,而sum([1,2,3]) 就會出現結

原创 將照片以base64形式寫到文件中

將目錄下每一個照片都寫成base64的形式,並存到相應的文件中,接下來就上代碼吧。#coding=utf-8 import base64 import time import os def create_file(path):

原创 Python一些函數的筆記

以下是我在一個網址上看到的,自己就在這總結了一下,算是在學習過程中的筆記吧! enumerate(list) 迭代列表時,應該同時迭代其中的元素及其索引。 mylist = ["It's","only","a","model"] for

原创 抓取今日頭條標題和鏈接

最近又把之前的東西撿撿,想想之前的那些代碼,並照着之前的看了看,感覺自己已經什麼都不會了,既然想着撿撿,那就必須要搞點事情了,想着爬一下網站的內容,然後就好巧不巧的選了今日頭條,然而今日頭條的問題看起來還不小,接下來就隨我一起去看看吧~_

原创 sql中between and 和< > 的區別

最近比較在用sql語句,我的數據庫是mysql啦~ 自己感受很深的是between and的用法根據數據庫的不同可以包含兩頭的數據,也可以只包含一頭的數據,還可以兩頭數據都不包含,但是<  >等符號,可以根據具體需求來具體定義,若想都包含

原创 filter的使用

filter(function,iterable)使用function的規則濾除iterable對象中不滿足規則的元素。 def is_odd(n): return n%2==1 result = filter(is_odd,

原创 kettle版本的區別

最近搜了搜kettle,發現其版本有很大的區別,無論是從哪方面來說,我現在正在用的是4.x版本,發現其中就有很多 沒有涉及到的東西,而5.x中就有很多4中沒有的東西,比如,5.x中就有鏈接hadoop的控件,可以和hadoop實現對接,

原创 python中Matplotlib的座標軸的座標區間的設定

<span style="font-family: Arial, Helvetica, sans-serif;">>>> import numpy as np</span>>>> import matplotlib.pyplot as p

原创 Windows下安裝Scrapy框架

網上關於Scrapy的安裝已經一大片了,但是爲了自己看着自己的能明白,也爲了做一個筆記,所以說,還是要寫一寫的 首先第一步:你的確認自己已經安裝好了Python,我安裝的是Python2.7(32位)(稍後會把包給大家傳上來) 包的位置:

原创 Python中的shape計算矩陣

看到機器學習算法時,注意到了shape計算矩陣的方法接下來就講講我的理解吧 >>> from numpy import * >>> import operator >>> a =mat([[1,2,3],[5,6,9]]) >>> a m

原创 用kettle處理重複值和空缺值

原來的文檔是這樣的 此處是重複 此處爲空缺值 接下來是處理步驟: 過濾記錄爲除去空缺值,而Unique rows則是除去重複值 處理完成後爲 重複的值自然也沒有啦 此方法只是我自己的想法,如果有好的想法,還希望彼此交流下

原创 kettle中行扁平化使用

行扁平化也是自己摸索着進行的,有不足的地方還奇怪大神指教。 原來的excel表格是這樣的 現在我們把它轉換一下,我做的流程是這樣的 其中行扁平化是這樣的 所以,處理之後就變成了 所以行扁平化可以用作做表頭。並且如果數據沒有什麼缺陷