原创 SpringBoot 通過註解封裝API

包裝前: {"name":"王月","age":0} 包裝後: {"status":{"code":0,"name":"OK","msg":"succeed"},"result":{"name":"王月","age":0}} 實現思路

原创 一個案例弄懂ElasticSearch分詞匹配原理和同義詞

基礎:ES支持兩種同義方式。一種是單向同義詞,一種是雙向同義詞。 臀部,臀,屁股 斑=>斑,雀斑 i-pod,i pod,i pad =>ipod 說明:對於臀部,臀,屁股。我們可以理解成相互完全等價。對於“斑”“雀斑”,如果文章

原创 [mysql]分組取Top n、最近一條

一直沒有時間寫分享,終於等到雙十一,任何需求都不準上,這才抽出時間整理一下蒐集了好幾天的SQL。   需求:查出用戶最近一條登錄記錄。(110w條) 前提:默認時間和id都是遞增。(求時間最大->求id最大) 第一種:select *

原创 Word2Vec計算相似文章

第一步:得到用戶帖子的點擊日誌。 from pyspark.sql.types import BooleanType,LongType from scipy.stats import norm, t from pyspark.sql i

原创 TF-IDF計算相似文章

%spark_recommend.pyspark from pyspark.sql.types import BooleanType,LongType from scipy.stats import norm, t from pyspa

原创 ItemCF-jaccard相似度計算相似item

from pyspark.sql import SparkSession, functions as F import heapq from pyspark.sql.types import StructType, StructFiel

原创 合併兩個有序鏈表

非遞歸: /** * 用一個遍歷來裝排好序的鏈表,和一個遍歷記錄最其實的位置。 * @param l1 * @param l2 * @return */ public

原创 ElasticSearch-對象類型和嵌套(nested)對象

一、對象類型 使用json、json數組作爲字段值,動態映射會默認使用對象類型(type object)。 1.1字段值爲json對象 POST users/users/1 { "name":"王月", "descrip

原创 中心極限定理實踐

呈任意分佈的樣本,進行m次抽樣,每次取n個。這m次抽樣的平均值接近正態分佈。 下面我們驗證一下: 數據:用戶粉絲數  我們有約100w用戶的信息,我們只關注用戶的粉絲數這個字段。毫無疑問用戶的粉絲數都是長尾分佈,如圖:   imp

原创 商品搜索-特徵處理(實例)

這是在排序時拿到的所有數據 {"sort_feature_u_":"{\"u_uid\":25872428,\"u_age\":0,\"vip_status\":1,\"u_r_gender\":2,\"u_f_ml_rt\":1.0,

原创 ElasticSearch-分組取top n(TopHits)

需求搜索“雙眼皮”的所有商品,按照機構聚合降序min_price降序,每個機構顯示按取價格高的Top 3。 查詢語句:  { "query":{ "match":{ "title":"雙眼

原创 ElasticSearch-別名用法

別名的意義:索引的別名就像域名域名一樣,例如百度的域名是www.baidu.com,但是你並不知道這個域名對應的是哪個ip,能翻遍我們切換索引。 查看索引:GET _cat/indices(查看所有索引) 查看別名:GET _cat/

原创 機器學習-LR模型

LR模型,理解成一個線性方程:如果只有一個特徵:也就是y=ax+b,如果有兩個特徵也就是y=ax1+bx2+c 這裏我們根據 距海邊的距離 預測 城市的最高溫度。 from sklearn.linear_model import L

原创 棧排序-O(1)空間複雜度(獵聘網)

有兩個棧a和b。棧a中數據是無序,棧b無數據。現在需要把a中的數據移動到b,並且最後b是有序的(棧頂最小)。要求:空間複雜度爲O(1). private static void fun(Stack<Integer> a, Stack<I

原创 [SQL]取每個用戶最近一條記錄(分組取Top n)

一直沒有時間寫分享,終於等到雙十一,任何需求都不準上,這才抽出時間整理一下蒐集了好幾天的SQL。   需求:查出用戶最近一條登錄記錄。(110w條) 前提:默認時間和id都是遞增。(求時間最大->求id最大) 第一種:select *