背景
通常我們處理文件都是用python+pandas,確實很香。但是今天突然有人找我用go寫一個合併兩個csv文件的,需要將兩個csv按id進行合併,大致如下圖
思路很簡單,先讀入兩個csv文件,然後遍歷比較id,如果相同就把另一個文件的內容加到第一個中。然後創建merge.csv,將上一步得到的數據寫入csv即可。
代碼部分
package main
import (
"encoding/csv"
"log"
"os"
"fmt"
)
func join(fileName1 string, fileName2 string) (row [][]string) {
fs1, _ := os.Open(fileName1)
r1 := csv.NewReader(fs1)
content1, err := r1.ReadAll()
if err != nil {
log.Fatalf("can not readall, err is %+v", err)
}
fs2, _ := os.Open(fileName2)
r2 := csv.NewReader(fs2)
content2, err := r2.ReadAll()
if err != nil {
log.Fatalf("can not readall, err is %+v", err)
}
row = make([][]string, len(content1[1:]))
for i, row1 := range content1[1:] {
for _, row2 := range content2[1:] {
if row1[0] == row2[0] {
row[i] = append(row[i], row1[0], row1[1], row1[2], row2[1], row2[2])
}
}
}
return
}
func edit(filename string, row [][]string) {
f, err := os.Create(filename)
if err != nil {
panic(err)
}
defer f.Close()
//防止亂碼
f.WriteString("\xEF\xBB\xBF")
w := csv.NewWriter(f)
w.Write([]string{"ID", "name", "gender", "course", "score"})
w.WriteAll(row)
w.Flush()
}
func main() {
row := join("1.csv", "2.csv")
fmt.Println(row)
edit("join.csv", row)
fmt.Println("合併已完成!")
}
優化
對於小數據量這樣是沒有問題,但是一旦數據量增大,不僅讀取的內存佔用增加,而且遍歷比較會很消耗時間。所以優化的話我們可以以行讀取,並且想辦法使用go的goroutine來增加速度。唉,太久沒怎麼寫go了,一開始切片都有點忘了。