Hive、MapReduce、Spark分佈式生成唯一數值型ID

在實際業務場景下,經常會遇到在Hive、MapReduce、Spark中需要生成唯一的數值型ID。

一般常用的做法有:

  1. MapReduce中使用1個Reduce來生成;
  2. Hive中使用row_number分析函數來生成,其實也是1個Reduce;
  3. 藉助HBase或Redis或Zookeeper等其它框架的計數器來生成;

數據量不大的情況下,可以直接使用1和2方法來生成,但如果數據量巨大,1個Reduce處理起來就非常慢。

在數據量非常大的情況下,如果你僅僅需要唯一的數值型ID,注意:不是需要”連續的唯一的數值型ID”,那麼可以考慮採用本文中介紹的方法,否則,請使用第3種方法來完成。

Spark中生成這樣的非連續唯一數值型ID,非常簡單,直接使用zipWithUniqueId()即可。

關於zipWithUniqueId,更多精彩內容 點我學

 

參考zipWithUniqueId()的方法,在MapReduce和Hive中,實現如下:

lxw1234

在Spark中,zipWithUniqueId是通過使用分區Index作爲每個分區ID的開始值,在每個分區內,ID增長的步長爲該RDD的分區數,那麼在MapReduce和Hive中,也可以照此思路實現,Spark中的分區數,即爲MapReduce中的Map數,Spark分區的Index,即爲Map Task的ID。Map數,可以通過JobConf的getNumMapTasks(),而Map Task ID,可以通過參數mapred.task.id獲取,格式如:attempt_1478926768563_0537_m_000004_0,截取m_000004_0中的4,再加1,作爲該Map Task的ID起始值。注意:這兩個只均需要在Job運行時才能獲取。另外,從圖中也可以看出,每個分區/Map Task中的數據量不是絕對一致的,因此,生成的ID不是連續的。

更多精彩內容 點我學

下面的UDF可以在Hive中直接使用:

  1. package com.lxw1234.hive.udf;
  2.  
  3. import org.apache.hadoop.hive.ql.exec.MapredContext;
  4. import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
  5. import org.apache.hadoop.hive.ql.metadata.HiveException;
  6. import org.apache.hadoop.hive.ql.udf.UDFType;
  7. import org.apache.hadoop.hive.ql.udf.generic.GenericUDF;
  8. import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
  9. importorg.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;
  10. import org.apache.hadoop.io.LongWritable;
  11.  
  12. @UDFType(deterministic = false, stateful = true)
  13. public class RowSeq2 extends GenericUDF {
  14.  
  15. private static LongWritable result = new LongWritable();
  16. private static final char SEPARATOR = ‘_’;
  17. private static final String ATTEMPT = “attempt”;
  18. private long initID = 0l;
  19. private int increment = 0;
  20.  
  21.  
  22. @Override
  23. public void configure(MapredContext context) {
  24. increment = context.getJobConf().getNumMapTasks();
  25. if(increment == 0) {
  26. throw new IllegalArgumentException(“mapred.map.tasks is zero”);
  27. }
  28.  
  29. initID = getInitId(context.getJobConf().get(“mapred.task.id”),increment);
  30. if(initID == 0l) {
  31. throw new IllegalArgumentException(“mapred.task.id”);
  32. }
  33.  
  34. System.out.println(“initID : “ + initID + ” increment : “ + increment);
  35. }
  36.  
  37. @Override
  38. public ObjectInspector initialize(ObjectInspector[] arguments)
  39. throws UDFArgumentException {
  40. return PrimitiveObjectInspectorFactory.writableLongObjectInspector;
  41. }
  42.  
  43. @Override
  44. public Object evaluate(DeferredObject[] arguments) throws HiveException {
  45. result.set(getValue());
  46. increment(increment);
  47. return result;
  48. }
  49.  
  50. @Override
  51. public String getDisplayString(String[] children) {
  52. return “RowSeq-func()”;
  53. }
  54.  
  55. private synchronized void increment(int incr) {
  56. initID += incr;
  57. }
  58.  
  59. private synchronized long getValue() {
  60. return initID;
  61. }
  62.  
  63. //attempt_1478926768563_0537_m_000004_0 // return 0+1
  64. private long getInitId (String taskAttemptIDstr,int numTasks)
  65. throws IllegalArgumentException {
  66. try {
  67. String[] parts = taskAttemptIDstr.split(Character.toString(SEPARATOR));
  68. if(parts.length == 6) {
  69. if(parts[0].equals(ATTEMPT)) {
  70. if(!parts[3].equals(“m”) && !parts[3].equals(“r”)) {
  71. throw new Exception();
  72. }
  73. long result = Long.parseLong(parts[4]);
  74. if(result >= numTasks) { //if taskid >= numtasks
  75. throw new Exception(“TaskAttemptId string : “ + taskAttemptIDstr
  76. + ” parse ID [“ + result + “] >= numTasks[“ + numTasks + “] ..”);
  77. }
  78. return result + 1;
  79. }
  80. }
  81. } catch (Exception e) {}
  82. throw new IllegalArgumentException(“TaskAttemptId string : “ + taskAttemptIDstr
  83. + ” is not properly formed”);
  84. }
  85.  
  86. }
  87.  

有一張去重後的用戶id(字符串類型)表,需要位每個用戶id生成一個唯一的數值型seq:

  1. ADD jar file:///tmp/udf.jar;
  2. CREATE temporary function seq2 as ‘com.lxw1234.hive.udf.RowSeq2’;
  3.  
  4. hive>> desc lxw_all_ids;
  5. OK
  6. id string
  7. Time taken: 0.074 seconds, Fetched: 1 row(s)
  8. hive> select * from lxw_all_ids limit 5;
  9. OK
  10. 01779E7A06ABF5565A4982_cookie
  11. 031E2D2408C29556420255_cookie
  12. 03371ADA0B6E405806FFCD_cookie
  13. 0517C4B701BC1256BFF6EC_cookie
  14. 05F12ADE0E880455931C1A_cookie
  15. Time taken: 0.215 seconds, Fetched: 5 row(s)
  16. hive> select count(1) from lxw_all_ids;
  17. 253402337
  18.  
  19. hive> create table lxw_all_ids2 as select id,seq2() as seq from lxw_all_ids;
  20. Hadoop job information for Stage–1: number of mappers: 27; number of reducers: 0
  21.  
  22.  

更多精彩內容 點我學​​​​​​​

​​​​​​​

該Job使用了27個Map Task,沒有使用Reduce,那麼將會產生27個結果文件。

再看結果表中的數據:

  1. hive> select * from lxw_all_ids2 limit 10;
  2. OK
  3. 766CA2770527B257D332AA_cookie 1
  4. 5A0492DB0000C557A81383_cookie 28
  5. 8C06A5770F176E58301EEF_cookie 55
  6. 6498F47B0BCAFE5842B83A_cookie 82
  7. 6DA33CB709A23758428A44_cookie 109
  8. B766347B0D27925842AC2D_cookie 136
  9. 5794357B050C99584251AC_cookie 163
  10. 81D67A7B011BEA5842776C_cookie 190
  11. 9D2F8EB40AEA525792347D_cookie 217
  12. BD21077B09F9E25844D2C1_cookie 244
  13.  
  14. hive> select count(1),count(distinct seq) from lxw_all_ids2;
  15. 253402337 253402337
  16.  

limit 10只從第一個結果文件,即MapTaskId爲0的結果文件中拿了10條,這個Map中,start=1,increment=27,因此生成的ID如上所示。

count(1),count(distinct seq)的值相同,說明seq沒有重複值,你可以試試max(seq),結果必然大於253402337,說明seq是”非連續唯一數值型ID“.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章