原创 舊項目的TEZ優化

最近搞數據挖掘,在前期的ETL部分,是pig來寫的,大約有4283+行 據說運行非常慢,所以,準備TEZ一下,這裏先貼個tez的頁面: https://tez.apache.org/ tez化 #注意-x tez的位置 # 臨時處

原创 scheme-談語法

https://henix.github.io/feeds/yinwang/2013-03-08-on-syntax.html

原创 教科書級別的完美回答-感謝大神

「 劉穎: 問你個問題,看你這scala老手多長時間給出答案? List(Some(3), None).flatMap(e => e) 的結果是什麼? 爲什麼? 」 今天走在路上,忽然想到上次你說的這個問題可以從語言上層的理論

原创 【spark程序第一次把磁盤IO作爲瓶頸了】今天寫個博客,關於運維(但是,我TM是開發)

問題引入 今天CDH的管理,報130失去連接,ssh也連不上,但是能ping通 查看系統日誌 echo 0 > /proc/sys/kernel/hung_task_timeout_secs disables this messa

原创 SVM的預測部分不一致的問題

問題引入 今天,在做基於統計的SVM文本分類到Bert的語言模型分類轉換的時候,發現閾值從原來0.3飆到0.99 因此,考慮到svm的多分類和FC的softmax不同,做了些測試,看了一下SVM的處理 首先,先看結果,SVM內部矛

原创 NLP整理(臨時文稿)-

參考文檔 鏈接長方形圓圓角長方形菱形

原创 IO密集型使用異步;CPU密集型使用同步

IO密集型使用異步;CPU密集型使用同步。 所以這裏使用同步,這裏給兩個程序 # -*- coding: utf-8 -*- """ ====================== @author:YuanYihan @time:2

原创 Pig設計模式概要以及與SQL的設計模式的對比

1概要模式概要模式其實就是數據的全貌信息的獲取,主要分爲3種:1.1數值概要#HSQL SELECT MIN(num),MAX(num),COUNT(num) FROM table GROUP BY groupcol; #Pig b =

原创 java外掛-adb操作跳一跳

package cn.yihanyuan.tyt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics2D; import java.awt.

原创 Phoenix四貼之二:二級索引系統

【轉載自我自己的blog:Phoenix三貼          https://my.oschina.net/u/3511143/blog/1808831】摘要: Phoenix二級索引系統1 二級索引之— —Global Indexin

原创 python一堆殭屍進程!殺!一個開發殺423個進程的感覺真爽

首先 CDH顯示swap持續的居高不下,長期1.7G 其次 查使用swap最多的進程 最後 #!/bin/bash function killswap { for pid in `ps -ef | grep "wechat_m

原创 一個有意思的spark代碼,今天閒的蛋疼了

package com.wby.fans.incre import java.util.Date import com.wby.annotation.Workflow import com.wby.data.common.Commo

原创 關於SparkSQL中UDAF的一次設計失誤

首先我們先貼一下同事的UDAF函數 package com.wby.fans.common import org.apache.spark.sql.Row import org.apache.spark.sql.expressions

原创 記spark2.3.x的一個bug

背景 在做spark重構代碼的時候,賬號的二期的有些計算,使用了sparkSQL,這個時候,發現要進行多次的left join,考慮效率問題,提出重分區: val price = s""" |selec

原创 UDF非預期返回null

背景 今天寫了一個UDF函數,算粉絲互動率的參數 def getInteractionProportion(platform_type:String, follower_count:Long,media_count:Long,inte