使用 Office Excel 分列功能兩步將程序生成的複雜文本數據處理成工整的信息
髒數據示例(由 AntEpiSeeker 生成,此處已脫敏):
Epistatic interactions:
Loci Chi-square P value
93(rs10****1) 6111(rs2****5) 32.2****4 8.4****3e-005
6****5(rs1****7) 237(rs15****6) 32.5****4 7.2****5e-005
8****6(rs15****1) 88(rs6****91) 40.7****24 2.26e-006
35(rs1****73) 7****9(rs****6) 7.61 8.****7e-006
1037(rs1****28) 624(rs9****6) 0.1****3 3.8****9e-008
56(rs1****081) 37(rs2****1) 0.4 9.1****6e-006
9(rs2****9) 3****3(rs1****3) 9.7****7 1.****96e-005
數據特點:純txt文件,沒有分割,結構固定(Copyright © https://blog.csdn.net/s_gy_zetrov. All Rights Reserved)
提取目標:loci 列的節點對,以`rs``開頭,不需要前面的數字和左右括號
第一步
Excel打開txt數據,選擇第一列,得到的結果:
loci |
---|
93(rs10****1) 6111(rs2****5) |
6****5(rs1****7) 237(rs15****6) |
8****6(rs15****1) 88(rs6****91) |
35(rs1****73) 7****9(rs****6) |
1037(rs1****28) 624(rs9****6) |
56(rs1****81) 37(rs2****1) |
9(rs2****9) 3****3(rs1****3) |
第二步
連續使用三次分列功能,第一次劃分標準爲左括號,得到結果(Copyright © https://blog.csdn.net/s_gy_zetrov. All Rights Reserved):
93 | rs10****1) 6111 | rs2****5) |
6****5 | rs1****7) 237 | rs15****6) |
8****6 | rs15****1) 88 | rs6****91) |
35 | rs1****73) 7****9 | rs****6) |
1037 | rs1****28) 624 | rs9****6) |
56 | rs1****081) 37 | rs2****1) |
9 | rs2****9) 3****3 | rs1****3) |
第二次對2、3列劃分,標準爲右括號,得到結果:
93 | rs10****1 | 6111 | rs2****5 |
6****5 | rs1****7 | 237 | rs15****6 |
8****6 | rs15****1 | 88 | rs6****91 |
35 | rs1****73 | 7****9 | rs****6 |
1037 | rs1****28 | 624 | rs9****6 |
56 | rs1****081 | 37 | rs2****1 |
9 | rs2****9 | 3****3 | rs1****3 |
至此,節點對的from節點和to節點就都提取出來了,簡單處理一下,最終結果就是我們要的:
from | to |
---|---|
rs34323 | rs46351014 |
rs3234323 | rs 6659457 |
… | … |
拓展延伸
如何使用函數實現上面的功能:link
(Copyright © http://blog.csdn.net/s_gy_zetrov. All Rights Reserved)
visitor tracker