原创 遞歸遍歷子目錄改後綴名(批量文本改名rename)

#!/bin/sh oldsuffix="txt" newsuffix="sql" dir=$(eval pwd) function getdir(){ for element in `ls $1` do

原创 讀取txt中的字段key,然後編號再輸出

import pandas as pd sep="|" def read_key(dict_key, arr_fileld, idx=[]): if len(idx) == 0: return for

原创 tensorflow 通過TextLineDataset dataset.map 讀取數據

這樣讀取數據比較麻煩,因爲map是一行行讀取,需要自己把數據整理成列的方式。處理起來還是比較麻煩,用decode_csv可以直接把數據處理成列的方式,簡單很多。   import tensorflow as tf from tensor

原创 阿里雲endpoint

oss的endpoint:https://help.aliyun.com/document_detail/31837.html?spm=5176.11065259.1996646101.searchclickresult.3c7e7a0d

原创 tensorflow 的 hashtable 和index table 讀取,求均值向量,缺失值處理

import tensorflow as tf print(tf.__version__) list_arr = [9, 8, 6, 5] value_arr = [0, 1, 2, 3] tf_look_up = tf.consta

原创 python pip 設置阿里雲的源,更新速度超級快

  根目錄上設置一個文件 myhome$ cat .pip/pip.conf [global] trusted-host = mirrors.aliyun.com index-url = https://mirrors.aliyun

原创 復旦中文文本分類語料庫 結構化解析版本

復旦中文文本分類語料庫沒有整理爲好用的格式,花了點時間修改爲\u0001 分割的數據 create table fudan_text (     id bigint,     cate string,     wenxian string

原创 搜索引擎算法之 Query Analysis

    在搜索引擎的算法優化中,Query分析有相當多的論文,其中主題包括: Query的類目預測。例如搜索“運動鞋”,可能包括:男士運動鞋、女士運動鞋、兒童運動鞋等類目,預測Query所在的類目對提高搜索結果的相關性非常重要。如果能夠識

原创 搜索引擎算法之 Query Tagging

  《Using Search-Logs to Improve Query Tagging》,google論文https://static.googleusercontent.com/media/research.google.com/z

原创 搜索引擎算法之關鍵詞類目預測

在搜索算法中,關鍵詞類目是非常重要的一個話題,是搜索排序中的一個重要模塊。搜索排序可以可以簡單的分成幾個模塊:文本相關性、質量分、轉化率。文本相關性可以由粗到細分解爲類目相關性、屬性相關性、語義相關性幾個部分。本文重點解析一下類目相關性。

原创 深度學習 tensorflow 三維矩陣乘法(batch 迭代必須搞懂的矩陣乘法,維度增加)

import tensorflow as tf # 2 * 2 * 2 的embedding 矩陣 , 一個batch,每個樣本有f個字段,每個字段有k維 # 那麼矩陣的大小就是batch * f * k embedding_inde

原创 pandas 對一列做變換,手工版的labelEncoder 和 labelEncoder

import pandas as pd df = pd.DataFrame({"key": ["aa", "bb", "cc"]}) dict = {"aa": 1, "bb": 3, "cc": 2} df_map = df["ke

原创 樣本查詢embedding向量

import tensorflow as tf #生成10*5的張量 p=tf.Variable(tf.random_normal([10,5])) # 模擬兩個樣本中的2個稀疏字段的embedding,有4個元素1,3,2,4

原创 阿里雲提交spark 任務找不到 project,是因爲endpoint不對

阿里雲提交spark 任務找不到 project,發現是因爲spark -odps 的endpoint 不正確,從阿里雲project 的配置(https://setting-cn-beijing.data.aliyun.com/#/da

原创 keras的自定義 layer和Model

  本文對https://www.cnblogs.com/zdm-code/p/12245906.html  裏面的一些細節做了修改,model裏面增加了一層softmax。   import tensorflow as tf from