原创 Scrapy爬取大衆點評

內容: 美食品類750個商家: 商家的頁面url 商家的主要信息 商家所有的促銷信息(1200+條) 商家所有的評論信息(沒爬完,14w+條) 發表這些評論的所有用戶的信息(沒爬完,5w+條) 代碼:https://gi

原创 神經網絡筆記(BP)

BackPropagation: http://www.cnblogs.com/charlotte77/p/5629865.html 作者結合ufldl講的十分透徹,以致於我不知道該寫些什麼好… 相信這是一個很好的入門教程。

原创 特徵選取relief算法

摘錄的一個特徵選取relief算法的一段java代碼,還是講的很清晰的 樣本點之間的距離用歐氏距離來實現 原文鏈接: http://blog.csdn.net/nma_123456/article/details/51490

原创 Word2vec 入門(skip-gram部分)

Skip-gram 給定句子中一個特定的詞(input word),隨機選它附近的一個詞。網絡的目標是預測 我們選到這個附近詞的概率。 輸入,輸出 取窗口大小爲2(前後兩個詞):得到一些詞對: 如之中的(quick, brow

原创 【論文筆記】Convolutional Neural Networks for Sentence Classification

paper鏈接 https://arxiv.org/abs/1408.5882 閱讀這篇paper的一些筆記: Abstract 本文將CNN和NLP結合; 介紹了一系列的對比實驗,實驗結果說明了: 一個簡單的(單層神經網絡

原创 【nowcoder】9.4 C++評估測試總結

遇到讓補全代碼的選擇題,實在沒思路,但是時間又很充裕,可以代進去嘗試。 enum在函數外聲明變量,初始化的時候,變量默認爲0 整個數組作爲參數,會退化爲指針 sizeof()返回的是字節數(Bytes) 對字符串取sizeof(

原创 【機器學習】樸素貝葉斯

好的,回去看完了Andrew Ng的關於這一節的公開課,還有中文的課堂筆記 然後參照了一下《集體智慧編程》這本書,現在對這個算法有一個全面的理解了 貝葉斯決策,基本上,從直觀理解就是做了這樣的事情: 給定歷史的數據和類別,然後

原创 python dict的一些簡單用法

我以爲我dict用的很熟了,但是真正再去用的時候發現還是底子太薄,太多地方容易出錯了; dict的創建: d = dict() # or 更簡單 d = {} 這樣創建了一個新的dict,不包含任何key,value dic

原创 【劍指offer】面試題25:二叉樹中和爲某一值的路徑

題目:輸入一棵二叉樹和一個整數,打印出二叉樹中結點值的和爲輸入整數的所有路徑。從樹的根結點開始往下一直到葉結點所經過的結點形成一條路徑。二叉樹結點的定義如下: struct BinaryTreeNode{ int valu

原创 【nowcoder】9.5 阿里巴巴2017實習生筆試題(一)

http://www.nowcoder.com/questionTerminal/0cd6af2fd4374df597b49e09302b1a5a - 使用 inline 關鍵字的函數只是用戶希望它成爲內聯函數,但編譯器有權忽

原创 python 讀取 json文件

本文是碎片知識 本文用的是python 2.7 如果我又一個文件1.json內容如下: { "_id" : "318071578", "avg_cost" : "", "user_id" : "108

原创 python修改文件(fileinput)

上網查了好多方法都是將文件一行一行都進來,然後新開一個文件指針,將文件再一行行寫進新文件裏。 感覺不是太好,看到這個fileinput的庫,發現大同小異,不過有一點就是可以在原文件上修改,不用新開文件。 舉個簡單的例子:

原创 【機器學習筆記】SVM part1: 線性SVM

前言 先說我對線性SVM的整體理解吧: 其實就是一個最優間隔的二分類器(如下圖) 目標就是找到中間那個最優的分類超平面,而如圖在虛線上的點,就是所謂的支持向量(support vectors) 。在求解這一問題的時候用到了對

原创 Python 數據處理的 Some tips --- 索引

《利用Python進行數據分析》筆記 我個人覺得有些東西是需要用到的時候查一下就行的,比如矩陣求逆,矩陣轉置,但是一些更加常用的東西還是要掃一遍書的,記錄下來一些印象深刻的點,以後查着方便。 蛋疼,其實就是簡單學一下索引,不然

原创 NumPy筆記

發現一個好玩的: http://jingyan.baidu.com/season/35662 01: mat() matrix = mat(array) 將一個多維數組轉化成NumPy矩陣 02: * 兩個NumPy ar