【問題描述】
近日需要做一些數據倉庫的內容,發現數據庫搭好了以後,所有的數據文件都是Excel存儲的。然而數據又是及其繁雜,所以在創建好了事實表和維度表以後,準備自己寫一個代碼將Excel中多維的數據導入到數據庫中。Excel表的部分數據如下圖所示
所以需要對數據進行處理,處理之後添加到數據庫中。
【準備工作】
首先需要找到從Excel讀取數據的代碼。參考網址:http://www.jb51.net/article/34096.htm。代碼如下:
(1)頁面上的代碼
<div> <%-- 文件上傳控件 用於將要讀取的文件上傳 並通過此控件獲取文件的信息--%>
<asp:FileUpload ID="fileSelect" runat="server" />
<%-- 點擊此按鈕執行讀取方法--%>
<asp:Button ID="btnRead" runat="server" Text="ReadStart" />
</div>
(2)後臺處理代碼
//聲明變量(屬性)
string currFilePath = string.Empty; //待讀取文件的全路徑
string currFileExtension = string.Empty; //文件的擴展名
//Page_Load事件 註冊按鈕單擊事件
protected void Page_Load(object sender,EventArgs e)
{
}
//按鈕單擊事件 //裏面的3個方法將在下面給出
protected void btnRead_Click(object sender,EventArgs e)
{
Upload(); //上傳文件方法
if(this.currFileExtension ==".xlsx" || this.currFileExtension ==".xls")
{
DataTable dt = ReadExcelToTable(currFilePath); //讀取Excel文件(.xls和.xlsx格式)
}
else if(this.currFileExtension == ".csv")
{
DataTable dt = ReadExcelWidthStream(currFilePath); //讀取.csv格式文件
}
}
///<summary>
///上傳文件到臨時目錄中
///</ummary>
private void Upload()
{
HttpPostedFile file = this.fileSelect.PostedFile;
string fileName = file.FileName;
string tempPath = System.IO.Path.GetTempPath(); //獲取系統臨時文件路徑
fileName = System.IO.Path.GetFileName(fileName); //獲取文件名(不帶路徑)
this.currFileExtension = System.IO.Path.GetExtension(fileName); //獲取文件的擴展名
this.currFilePath = tempPath + fileName; //獲取上傳後的文件路徑 記錄到前面聲明的全局變量
file.SaveAs(this.currFilePath); //上傳
}
///<summary>
///讀取xls\xlsx格式的Excel文件的方法
///</ummary>
///<param name="path">待讀取Excel的全路徑</param>
///<returns></returns>
private DataTable ReadExcelToTable(string path)
{
//連接字符串
string connstring = "Provider=Microsoft.ACE.OLEDB.12.0;Data Source=" + path + ";Extended Properties='Excel 8.0;HDR=NO;IMEX=1';"; // Office 07及以上版本 不能出現多餘的空格 而且分號注意
//string connstring = Provider=Microsoft.JET.OLEDB.4.0;Data Source=" + path + ";Extended Properties='Excel 8.0;HDR=NO;IMEX=1';"; //Office 07以下版本 因爲本人用Office2010 所以沒有用到這個連接字符串 可根據自己的情況選擇 或者程序判斷要用哪一個連接字符串
using(OleDbConnection conn = new OleDbConnection(connstring))
{
conn.Open();
DataTable sheetsName = conn.GetOleDbSchemaTable(OleDbSchemaGuid.Tables,new object[]{null,null,null,"Table"}); //得到所有sheet的名字
string firstSheetName = sheetsName.Rows[0][2].ToString(); //得到第一個sheet的名字
string sql = string.Format("SELECT * FROM [{0}],firstSheetName); //查詢字符串
OleDbDataAdapter ada =new OleDbDataAdapter(sql,connstring);
DataSet set = new DataSet();
ada.Fill(set);
return set.Tables[0];
}
}
///<summary>
///讀取csv格式的Excel文件的方法
///</ummary>
///<param name="path">待讀取Excel的全路徑</param>
///<returns></returns>
private DataTable ReadExcelWithStream(string path)
{
DataTable dt = new DataTable();
bool isDtHasColumn = false; //標記DataTable 是否已經生成了列
StreamReader reader = new StreamReader(path,System.Text.Encoding.Default); //數據流
while(!reader.EndOfStream)
{
string meaage = reader.ReadLine();
string[] splitResult = message.Split(new char[]{','},StringSplitOption.None); //讀取一行 以逗號分隔 存入數組
DataRow row = dt.NewRow();
for(int i = 0;i<splitResult.Length;i++)
{
if(!isDtHasColumn) //如果還沒有生成列
{
dt.Columns.Add("column" + i,typeof(string));
}
row[i] = splitResult[i];
}
dt.Rows.Add(row); //添加行
isDtHasColumn = true; //讀取第一行後 就標記已經存在列 再讀取以後的行時,就不再生成列
}
return dt;
}
【後續工作】
將Excel表存入到DataTable對象中,可以將讀取到的表格數據轉存到數據庫的事實表中。將所需要的時間、地域以及品種的ID值讀取以後,開始與Excel表中的數據一起存放到數據庫中。部分代碼如下所示
int i, j;
int region = 0;
//獲取作物ID值
cropnumber = int.Parse(CropID.Text.ToString());
//獲得更新數據庫類型
if (mianji.Checked == true) //遇到播種面積時新增數據庫條目
{
for(i=2;i<40;i++) //省份
{
if (i == 3 || i == 9 || i == 13 || i == 21 || i == 28 || i == 34) //跳過空白區域
continue;
//讀取地域ID值
string proname = exceldt.Rows[i][0].ToString().Replace(" ", "");
string sqlstr = "select Region_ID from [DimRegion] where Province_Name='" + proname + "'";
DataTable dt = new DataTable();
dt = BaseClass1.ReadTable(sqlstr);
region = int.Parse(dt.Rows[0][0].ToString());
for(j=1;j<60;j++) //時間
{
float area = float.Parse(exceldt.Rows[i][j].ToString());
string str = "insert into[FactCropProducts](Time_ID,Region_ID,Croptype_ID,Area) values(" + j + "," + region + "," + cropnumber + "," + area + ")";
BaseClass1.execsql(str);
}
}
}
【後記】
這樣寫一個程序讀取Excel中的數據,大大節省了時間。但是還有幾個未解決的問題:
(1)如果Excel表第一個sheet的名字爲中文名,第二個sheet爲Sheet1。則使用上面的代碼雖然是讀取第一個sheet的名稱,但是實際卻讀到的是Sheet1的內容。
(2)如果數據量巨大,需要的品種又多,這個代碼就會有很大缺陷。就要一個一個輸入品種ID,然後一個一個Excel表進行導入。浪費了人力也浪費了時間,所以這個代碼的改進點還是不少的。