Python：this version of libhadoop was built without snappy support

原創

2020-06-15 08:01

問題如下：項目中有hadoop集羣，有的模塊在寫數據的時候，啓用了spark的壓縮格式：snappy，在讀取的時候，程序解析不了snappy壓縮格式的文件。this version of libhadoop was built without snappy support
解決方案：查閱了很多方式，都是說需要裝hadoop，因爲hadoop中是有snappy支持的。但是這個程序是在一個docker容器中，只爲了解壓一個文件而去裝一個hadoop，顯然是不明智的。

對於這個格式的壓縮文件，理想情況是找到一種可以解壓縮的程序，單獨安裝這個程序即可。

這裏是借用了一個python模塊，當然也需要系統模塊的支持。

安裝步驟：

# 系統依賴
yum -y install snappy-devel gcc-c++

# python庫
pip3 install python-snappy

這樣就可以裝好snappy庫了。

這個模塊可以直接在命令行去解壓：

# 解壓縮
python -m snappy -d compress.snappy uncompress_file
# 壓縮
python -m snappy -c uncompress_file compress.snappy

代碼方式：

path = r"D:\test\test\part.snappy"
with open(path, 'rb')as fi, open(path.rstrip(".snappy"), 'wb')as fo:
    snappy.hadoop_stream_decompress(fi, fo)

由於我的實際場景是，文件在寫入hdfs的時候被壓縮，所以要調用hadoop_stream,如果本地操作，可以直接調用stream

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Linux中的tty和pts

一、幾個基本概念 tty（Teletypewriter）來源於“電傳打印機”，Linux系統中則是終端設備的統稱，同時也代指操作系統中支持終端設備的tty子系統。 console（控制檯）

2024-05-18 00:45:13

個人開發者如何入門 Java 異步編程

標題：《從零開始：一份詳盡的Linux安裝教程》引言：在數字化的世界裏，Linux操作系統以其開源的特性、高度的安全性和穩定性，成爲了服務器和個人電腦的熱門選擇。無論是開發者、系統管理員還是技術愛好者，掌握Linux的安裝與配置都是一項

2024-05-17 01:49:09

在Linux操作系統的安裝過程中，如何選擇合適的發行版

【關鍵詞】{{linux安裝}} 【提問】{{question}} 在Linux操作系統的安裝過程中，如何選擇合適的發行版，並確保安裝過程順利進行？此外，對於不同硬件配置的用戶，有哪些特定的安裝注意事項和優化策略？【文章】{{Linux操

2024-05-17 01:49:06

流水線 YAML 高級用法來了！大幅降低重複代碼、靈活編排多任務

作者：木煙在 YAML 化配置流水線時，你是否會遇到以下問題？單流水線中批量執行類似任務場景時，YAML 中需要定義多個類似邏輯的 Job，Job 越多，流水線 YAML 配置的越長，YAML 中的重複代碼越多，代碼複用性低，可讀性差

2024-05-16 21:13:44

高效調度新篇章：詳解DolphinScheduler 3.2.0生產級集羣搭建

轉載自tuoluzhe8521 導讀：通過簡化複雜的任務依賴關係， DolphinScheduler爲數據工程師提供了強大的工作流程管理和調度能力。在3.2.0版本中，DolphinScheduler帶來了一系列新功能和改進，使其在生產環

2024-05-15 21:22:54

Spring 按條件裝配使用方法

條件註冊 Spring 4.0 引入條件註冊機制，暴露給用戶的API是@Conditional和Condition接口，把@Conditional聲明在一個 @Component類上，並接受一組條件（Condition實現），容器初始化期間

2024-05-15 11:50:12

界面組件DevExpress Reporting v24.1預覽版 - 擁有原生Angular報表查看器

DevExpress Reporting是.NET Framework下功能完善的報表平臺，它附帶了易於使用的Visual Studio報表設計器和豐富的報表控件集，包括數據透視表、圖表，因此您可以構建無與倫比、信息清晰的報表。下一個主要

2024-05-14 12:21:34

利用pyinstaller打包Python程序爲一個可執行文件

有時，Python發佈的程序需要被打包爲一個文件夾、甚至一個文件發佈。目前（2020）最佳的策略是使用pyinstaller。 pyinstaller不僅支持打包整個運行環境到一個可執行文件，而且還支持加密。但唯一的問題是，必須依賴

2024-05-14 02:04:34

FA的linux基礎01

vim常用功能 set nu :200 set nonu G 最後一行 gg跳到第一行 dd 刪除光標所在行 5dd 從光標所在行開始，刪除5行 p粘貼 yy 複製光標所在行 p粘貼 5yy u 撤銷之前的操

2024-05-14 01:40:14

Android內存管理機制官方詳解文檔

很早之前寫過一篇《Android內存管理機制詳解》點擊量已7萬+，現把Google官方文檔整理輸出一下，供各位參考。一、內存管理概覽 Android 運行時 (ART) 和 Dalvik 虛擬機使用分頁和內存映射來管理內存。這意味着應用

2024-05-14 00:37:42

raid添加新的硬盤問題

linux平臺下: 在raid5已經做好的時候，不能添加新硬盤的raid5的陣列組裏，添加的只能變爲spare盤。比如：用4塊磁盤做的raid5，再往這麼陣列組中添加硬盤變成5塊硬盤的陣列是錯誤的做法，原因是raid是橫向條帶化的。

2024-05-13 22:58:18

BlackHat ASIA 議題解讀 | 安卓Netlink內核模塊中隱藏的“傳送門”

作者：百度安全-AIoT安全團隊 Chao Ma, Han Yan, Tim Xia 隨着安卓系統的流行，Netlink作爲Linux內核與用戶態進程之間的一種通信機制，被廣泛應用在安卓操作系統內核模塊中，但其使用的安全性卻未得到足夠

2024-05-13 21:42:48

Linux下BMP圖片添加水印

Linux下BMP圖片添加水印 BMP是英文Bitmap（位圖）的簡寫，它是Windows操作系統中的標準圖像文件格式，能夠被多種Windows應用程序所支持。隨着Windows操作系統的流行與豐富的Windows應用程序的開發，BM

2024-05-13 21:33:54

linux-vim編輯器、條件表達式

2024-05-13 21:17:32

Linux 服務器配置-安裝portainer-ce社區版

操作系統Debian12 1. portainer 簡介 Portainer 是一個開源的輕量級容器管理工具，主要用於 Docker 和 Swarm 環境的可視化管理和操作。通過 Portainer，用戶可以通過簡潔易用的 Web UI

2024-05-13 13:22:00

24小時熱門文章

最新文章

最新評論文章