數學建模_巧用Excel的分列處理文本數據,提取有用信息

使用 Office Excel 分列功能兩步將程序生成的複雜文本數據處理成工整的信息

髒數據示例(由 AntEpiSeeker 生成,此處已脫敏):

Epistatic interactions:
Loci	Chi-square	P value
93(rs10****1) 6111(rs2****5) 	32.2****4	8.4****3e-005
6****5(rs1****7) 237(rs15****6) 	32.5****4	7.2****5e-005
8****6(rs15****1) 88(rs6****91) 	40.7****24	2.26e-006
35(rs1****73) 7****9(rs****6) 	7.61	8.****7e-006
1037(rs1****28) 624(rs9****6) 	0.1****3	3.8****9e-008
56(rs1****081) 37(rs2****1) 	0.4	9.1****6e-006
9(rs2****9) 3****3(rs1****3) 	9.7****7	1.****96e-005

數據特點:純txt文件,沒有分割,結構固定(Copyright © https://blog.csdn.net/s_gy_zetrov. All Rights Reserved)
提取目標:loci 列的節點對,以`rs``開頭,不需要前面的數字和左右括號

第一步

Excel打開txt數據,選擇第一列,得到的結果:

loci
93(rs10****1) 6111(rs2****5)
6****5(rs1****7) 237(rs15****6)
8****6(rs15****1) 88(rs6****91)
35(rs1****73) 7****9(rs****6)
1037(rs1****28) 624(rs9****6)
56(rs1****81) 37(rs2****1)
9(rs2****9) 3****3(rs1****3)

第二步

連續使用三次分列功能,第一次劃分標準爲左括號,得到結果(Copyright © https://blog.csdn.net/s_gy_zetrov. All Rights Reserved):

93 rs10****1) 6111 rs2****5)
6****5 rs1****7) 237 rs15****6)
8****6 rs15****1) 88 rs6****91)
35 rs1****73) 7****9 rs****6)
1037 rs1****28) 624 rs9****6)
56 rs1****081) 37 rs2****1)
9 rs2****9) 3****3 rs1****3)

第二次對2、3列劃分,標準爲右括號,得到結果:

93 rs10****1 6111 rs2****5
6****5 rs1****7 237 rs15****6
8****6 rs15****1 88 rs6****91
35 rs1****73 7****9 rs****6
1037 rs1****28 624 rs9****6
56 rs1****081 37 rs2****1
9 rs2****9 3****3 rs1****3

至此,節點對的from節點和to節點就都提取出來了,簡單處理一下,最終結果就是我們要的:

from to
rs34323 rs46351014
rs3234323 rs 6659457

拓展延伸

如何使用函數實現上面的功能:link

(Copyright © http://blog.csdn.net/s_gy_zetrov. All Rights Reserved)


visitor tracker
訪客追蹤插件


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章