背景

通常我們處理文件都是用python+pandas，確實很香。但是今天突然有人找我用go寫一個合併兩個csv文件的，需要將兩個csv按id進行合併，大致如下圖

思路很簡單，先讀入兩個csv文件，然後遍歷比較id，如果相同就把另一個文件的內容加到第一個中。然後創建merge.csv，將上一步得到的數據寫入csv即可。

代碼部分

package main

import (
	"encoding/csv"
	"log"
	"os"

	"fmt"
)

func join(fileName1 string, fileName2 string) (row [][]string) {
	fs1, _ := os.Open(fileName1)
	r1 := csv.NewReader(fs1)
	content1, err := r1.ReadAll()
	if err != nil {
		log.Fatalf("can not readall, err is %+v", err)
	}

	fs2, _ := os.Open(fileName2)
	r2 := csv.NewReader(fs2)
	content2, err := r2.ReadAll()
	if err != nil {
		log.Fatalf("can not readall, err is %+v", err)
	}
	row = make([][]string, len(content1[1:]))

	for i, row1 := range content1[1:] {
		for _, row2 := range content2[1:] {
			if row1[0] == row2[0] {
				row[i] = append(row[i], row1[0], row1[1], row1[2], row2[1], row2[2])
			}
		}
	}
	return
}

func edit(filename string, row [][]string) {
	f, err := os.Create(filename)
	if err != nil {
		panic(err)
	}
	defer f.Close()

	//防止亂碼
	f.WriteString("\xEF\xBB\xBF")
	w := csv.NewWriter(f)
	w.Write([]string{"ID", "name", "gender", "course", "score"})
	w.WriteAll(row)
	w.Flush()
}

func main() {
	row := join("1.csv", "2.csv")
	fmt.Println(row)
	edit("join.csv", row)
	fmt.Println("合併已完成！")
}

優化

對於小數據量這樣是沒有問題，但是一旦數據量增大，不僅讀取的內存佔用增加，而且遍歷比較會很消耗時間。所以優化的話我們可以以行讀取，並且想辦法使用go的goroutine來增加速度。唉，太久沒怎麼寫go了，一開始切片都有點忘了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Go來合併兩個csv

文章目錄

背景

代碼部分

優化

2024年DataOps趨勢預測：AI不會取代數據工程師

雲原生週刊：K8s 中的服務和網絡｜ 2024.4.29

[轉帖]cpupower

今天，昨天，近七天，近30天，近90天，js封裝

華爲云云原生FinOps解決方案，釋放雲原生最大價值

docker+scrapy+scrapy_splash爬取大麥網

Go來合併兩個csv

tensorflow-gpu以及jupyter kernel添加新創建虛擬環境的安裝配置

程序猿的長壽指南？

前端基礎一些關於html基本的介紹

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結