台部落袁一白

最近搞數據挖掘，在前期的ETL部分，是pig來寫的，大約有4283+行據說運行非常慢，所以，準備TEZ一下，這裏先貼個tez的頁面： https://tez.apache.org/ tez化 #注意-x tez的位置 # 臨時處

2020-06-21 15:16:00

https://henix.github.io/feeds/yinwang/2013-03-08-on-syntax.html

2020-06-21 15:16:00

「劉穎: 問你個問題，看你這scala老手多長時間給出答案? List(Some(3), None).flatMap(e => e) 的結果是什麼? 爲什麼? 」今天走在路上，忽然想到上次你說的這個問題可以從語言上層的理論

2020-06-21 15:16:00

問題引入今天CDH的管理，報130失去連接，ssh也連不上，但是能ping通查看系統日誌 echo 0 > /proc/sys/kernel/hung_task_timeout_secs disables this messa

2020-06-21 15:16:00

問題引入今天，在做基於統計的SVM文本分類到Bert的語言模型分類轉換的時候，發現閾值從原來0.3飆到0.99 因此，考慮到svm的多分類和FC的softmax不同，做了些測試，看了一下SVM的處理首先，先看結果，SVM內部矛

2020-05-15 03:25:26

參考文檔鏈接長方形圓圓角長方形菱形

2020-05-12 15:18:05

IO密集型使用異步；CPU密集型使用同步。所以這裏使用同步，這裏給兩個程序 # -*- coding: utf-8 -*- """ ====================== @author:YuanYihan @time:2

2020-05-12 15:18:05

1概要模式概要模式其實就是數據的全貌信息的獲取，主要分爲3種：1.1數值概要#HSQL SELECT MIN(num),MAX(num),COUNT(num) FROM table GROUP BY groupcol; #Pig b =

2020-02-23 16:39:09

package cn.yihanyuan.tyt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics2D; import java.awt.

2020-02-23 16:38:59

【轉載自我自己的blog：Phoenix三貼 https://my.oschina.net/u/3511143/blog/1808831】摘要: Phoenix二級索引系統1 二級索引之— —Global Indexin

2020-02-23 16:38:59

首先 CDH顯示swap持續的居高不下，長期1.7G 其次查使用swap最多的進程最後 #!/bin/bash function killswap { for pid in `ps -ef | grep "wechat_m

2019-05-01 18:13:41

package com.wby.fans.incre import java.util.Date import com.wby.annotation.Workflow import com.wby.data.common.Commo

2019-03-16 04:16:38

首先我們先貼一下同事的UDAF函數 package com.wby.fans.common import org.apache.spark.sql.Row import org.apache.spark.sql.expressions

2019-03-15 03:32:46

背景在做spark重構代碼的時候，賬號的二期的有些計算，使用了sparkSQL，這個時候，發現要進行多次的left join，考慮效率問題，提出重分區： val price = s""" |selec

2019-01-25 19:00:01

背景今天寫了一個UDF函數，算粉絲互動率的參數 def getInteractionProportion(platform_type:String, follower_count:Long,media_count:Long,inte

2019-01-25 19:00:01