命令行編輯XML的最佳實踐(修改版xmlstarlet)

背景介紹

最近搭建hadoop分佈式環境時,參考了網上很多資料併成功搭建起來。爲了將搭建步驟記錄下來且方便以後再次使用,嘗試將所有配置信息通過腳本的方式進行自動化(主要也是爲了日後使用Docker)。因此遇到了在shell中配置XML(如 $HADOOP_HOME/etc/hadoop/core-site.xml)的需求。

初步調查

通過搜索,發現很多網頁都是推薦 xmlstarlet 命令,其有 ed(edit) 命令,可以編輯 xml 文件,並通過 -i/-a/-s 等命令即可在指定 xpath 下 插入/追加/建立子節點 。 不過測試發現,當要添加的節點信息比較複雜時,保存的節點信息會被轉碼。如想生成如下xml信息時:

    <configuration>  
        <property>  
            <name>fs.defaultFS</name>  
            <value>hdfs://localhost:9000</value>  
        </property>  
        <property>  
            <name>hadoop.tmp.dir</name>  
            <value>/usr/hadoop/tmp</value>  
        </property>  
    </configuration>  

嘗試了多種命令組合(如):

xmlstarlet ed -s /configuration -t elem -n ""  \
  -v "<property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property> \
      <property><name>hadoop.tmp.dir</name><value>/usr/hadoop/tmp</value></property>" \
  hadoop/core-site.xml

結果卻如下所示(進行了轉碼,根本不是我想要的結果):

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<>&lt;property&gt;&lt;name&gt;fs.defaultFS&lt;/name&gt;&lt;value&gt;hdfs://localhost:9000&lt;/value&gt;&lt;/property&gt;&lt;property&gt;&lt;name&gt;hadoop.tmp.dir&lt;/name&gt;&lt;value&gt;/usr/hadoop/tmp&lt;/value&gt;&lt;/property&gt;</></configuration>

更改xmlstarlet源碼

考慮到xmlstarlet是開源的,因此決定下載並分析其源碼,進行改造,從而滿足我的要求。
經過兩天的分析和修改,總算完成了改動,並將代碼共享到 github 上。

使用方式

下載源碼後,執行以下命令即可編譯,安裝和使用(示例即是修改 hadoop/core-site.xml)。

  ./configure && make && make install

注意:

  1. 在 make install 時根據你的系統和賬號,可能需要 sudo;
  2. 我在 Ubuntu 16.4 上編譯安裝的後的 可執行文件名是 xml 而不是 xmlstarlet
  3. 通過 make check 可以執行其單元測試,由於更改了 ed 命令的執行效果,有些以前能通過的測試現在無法通過。通過分析,已經更改了幾個,但有些示例沒有看懂作者的意圖,暫未更改。通過比較 ed-backref2 等文件的修改,就可以發現當採用修改版本的 xmlstarlet 來加入複雜節點信息時將會變得多麼簡單。
  4. 如果發現問題或需求,可以在 github 上提出issue,有時間的話我會盡量更改。並聯系原作者,希望將該功能合併進官方版本。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章