原创 [Golang] 指針類型和非指針類型的一個比較有意思的案例

從指針類型和非指針類型引發的一個比較有意思的案例前景提要:案例介紹總結 前景提要: 在用golang開發的時候難免會碰到併發的情況,要控制數據的一致性的時候就得用到鎖這個對象。我定義的一個結構體裏面聲明sync.Map或者sync

原创 [Linux] awk命令筆記 入門

AWK是一門處理文本文件的語言。它把文件看作一串記錄(record),缺省情況下一行即爲一個記錄。每一行又被拆成若干域(field)。我們可以把一行中的第一個詞看作第一域,第二個詞看作第二域,以此類推 AWK 在1977年被Alfred

原创 開源機器學習工具scikit-learn入門

轉自 開源機器學習工具scikit-learn入門 Scikit-Learn是基於python的機器學習模塊,基於BSD開源許可證。這個項目最早由DavidCournapeau 在2007 年發起的,目前也是由社區自願者進行維護。 S

原创 [數據競賽] 基於人工智能的分子篩選競賽思路,a榜十一,b榜第十

任務: 2014年,一種未知的疾病在全球肆虐,讓人類束手無策。致病蛋白質很多,它們的結構序列都藏在df_protein.csv 數據集中(Sequence特徵)。經過科學家的不懈努力,能與這些致病蛋白相結合的小分子(d

原创 [Leetcode] [Database] Second Highest Salary解題

題目如下 Write a SQL query to get the second highest salary from the Employee table. Id Salary 1 100 2 200 3 300

原创 ROC曲線判別線性迴歸,java實現。

WIki上面的ROC曲線說明的很詳細了。 因爲要寫連續值的roc曲線。需要確定閾值,wiki上面的說明如下。 當訊號偵測(或變數測量)的結果是一個連續值時,類與類的邊界必須用一個閾值(英語:threshold)來界定。 Java代碼如下:

原创 [spark] mllib決策樹通過Strategy修改內存,java實現

spark的官方demo中並沒有告訴我們修改決策樹的內存,所以自己琢磨了一下,把那個配置文件的demo用java給弄了出來,代碼如下: 導入的包 import org.apache.spark.SparkConf; import org

原创 用Python開始機器學習(5:文本特徵抽取與向量化)

原文鏈接: http://blog.csdn.net/lsldd/article/details/41520953 在原文的基礎上增加點筆記,stop_word的增加方法。 stop_words : string {‘engli

原创 微信自動跳轉領支付寶紅包JS實踐

實踐過之後,該代碼只能在小遊戲之前版本成功跳轉,最新版本支付寶不會跳轉自動領紅包,如果失敗的話請看看自己的版本,我在ios測試成功;) 整個操作流程非常簡單,這次我們主要就構建一個免費的服務器,並且把代碼部署上去。 騰訊雲搭建,安裝

原创 [Leetcode] [Database] Customers Who Never Order解題

題目如下 Suppose that a website contains two tables, the Customers table and the Orders table. Write a SQL query to find a

原创 [機器學習] 聚類算法的輪廓係數,java實現

這次實現一個輪廓係數(wiki , baidu)。目的是爲了評估聚類效果的好壞。 我比較推薦大家觀看wiki的說法,百度裏面的有些說的不是很明白,比如百度百科中的這句話就很費勁 (計算 b(i) = min (i向量到所有非本身所在簇的

原创 [Linux] Sed命令筆記

Sed是用來處理流字串的命令 sed介紹: sed -- stream editor 對文件或者某種輸入字串進行處理。 根據我使用sed和awk這兩個命令,個人感覺sed是專門用來處理文本行的,awk的話可以對sed做不到的地方進行擴

原创 [Leetcode] Valid Phone Numbers的筆記

Valid Phone Numbers 題目如下,大體就是給的電話號碼的格式只符合(xxx) xxx-xxxx or xxx-xxx-xxxx. (x爲數字) Given a text file file.txt that contai

原创 [Leetcode] Word Frequency的筆記

單詞出現的頻率 題目如下 Write a bash script to calculate the frequency of each word in a text file words.txt. For simplicity sak

原创 [工作] 用excel導出文件數據量和代碼讀取文件數據量不一樣

前景提要: 客戶發來starwar的文件,讓我們對數據進行處理,注意好文件的前後順序,然後對文件和文件之間進行de-duplication操作。 客戶的要求那就做唄。文件下載下來之後解壓,發現是兩個csv文件和一個excel文件。然後問