.gz文件上載到hdfs中

原創

lingzhiwangcn

2020-06-25 03:39

.gz文件上載到hdfs中

用 dfs -copyFormLocal的方式，上載後的文件正常，可以用mapreduce直接讀取；

終於找到原因了：一個配置問題,

HdfsSink中默認的serializer會每寫一行在行尾添加一個換行符，這樣會導致每條日誌後面多一個空行，修改配置不要自動添加換行符；

agentb2.sinks.hdfs_sink2.serializer.appendNewline = false

用flume的方式，datastream類型，上載後mapreduce操作異常，爲何呢？

Error: java.io.EOFException: Unexpected end of input stream
   at org.apache.hadoop.io.compress.DecompressorStream.decompress(DecompressorStream.java:145)
   at org.apache.hadoop.io.compress.DecompressorStream.read(DecompressorStream.java:85)
   at java.io.InputStream.read(InputStream.java:101)
   at org.apache.hadoop.util.LineReader.fillBuffer(LineReader.java:180)
   at org.apache.hadoop.util.LineReader.readDefaultLine(LineReader.java:216)
   at org.apache.hadoop.util.LineReader.readLine(LineReader.java:174)
   at org.apache.hadoop.mapreduce.lib.input.LineRecordReader.nextKeyValue(LineRecordReader.java:185)
   at org.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.nextKeyValue(MapTask.java:556)
   at org.apache.hadoop.mapreduce.task.MapContextImpl.nextKeyValue(MapContextImpl.java:80)
   at org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.nextKeyValue(WrappedMapper.java:91)
   at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145)
   at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:787)
   at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)
   at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)
   at java.security.AccessController.doPrivileged(Native Method)
   at javax.security.auth.Subject.doAs(Subject.java:422)
   at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1657)
   at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)

設定爲hdfs.filetype爲sequencefile，然後mr中用sequencefile的文件輸入方式也不行：

job.setInputFormatClass(SequenceFileInputFormat.class);

Error: java.lang.ClassCastException: org.apache.hadoop.io.BytesWritable cannot be cast to org.apache.hadoop.io.Text
   at com.gzmrdemo.GzFileMapper.map(GzFileMapper.java:1)
   at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:146)
   at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:787)
   at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)
   at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)
   at java.security.AccessController.doPrivileged(Native Method)
   at javax.security.auth.Subject.doAs(Subject.java:422)
   at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1657)
   at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

.gz文件上載到hdfs中

ASIWebPageRequest問題

spooldir source header 攔截器

用flume提交文件到hdfs系統，並保持原來的文件名信息

多sink

.gz文件上載到hdfs中

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結