by WebSurfer
28. October 2010 12:18
CSV ファイルをパースして DataTable を作るような場合、ファイルを一行ずつ読んで文字列を作り、String.Split メソッドでその文字列を区切るといった方法を考えると思います。
ところが、改行コードやデリミタ(コンマのような区切り文字)がフィールド値の中にあったり、改行コードが異なったり(例: Windows は CR + LF、Unix は LF)するのに対応する場合、上記ような単純な方法は使えません。
改行コードやデリミタがフィールド値の中にある場合、フィールド値をダブルクォート (") で囲むと言った約束を設けて対応しますが、そのような CSV ファイルの処置が可能なパーサーを自力で作るのは簡単ではありません。
という訳で、いつものように他力本願で(笑)、既存のパーサーを使うのがよさそうです。既存のパーサーにはいろいろなものがあります。詳しくは、CSV 形式のファイルを DataTable や配列等として取得する が参考になると思います。
なので、わざわざここに書く必要もないかもしれませんが、自分でも 2, 3 試してみましたので、使ってみた感想と、CSV ファイルを読んで DataTable を作るサンプルを書いておきます。
使ってみたのは Jet Provider, A Fast CSV Reader, TextFieldParser の 3 つです。感想は以下のとおりです。
-
Jet Provider を使うのが最も簡単な方法です。ただし、文字コードが Shift_JIS 以外はダメです。UTF-8 なら日本語が文字化けする程度ですが、Unicode は全く処置できません。
2014/5/26 追記:下にコメントいただいたとおり、schema.ini というファイルを作り、それに文字コードを指定して CSV ファイルと同じディレクトリに配置することにより UTF-8 他の文字コードに対応できます。
また、JET プロバイダはデフォルトで最初の 8 行のデータをスキャンして各列のデータ型を推測しますが、その際、予期しない型に推測されてしまうことも schema.ini で型を指定することとにより防ぐことができます。
-
A Fast CSV Reader は The Code Project のサイトで MIT License にて提供されているものです。解析のスピードの速さがウリのようです。使い方も簡単ですし、Shift_JIS, UTF-8, Unicode いずれも対応できるので、自分的にはこれが気に入っています。ただし、dll をダウンロードしてこなければならない点と、日本語の説明がない点が問題かも。
-
TextFieldParser は Microsoft が提供している Visual Basic .NET 用のクラスライブラリです。これも使い方は簡単で、Shift_JIS, UTF-8, Unicode いずれも対応できます。C# でも Microsoft.VisualBasic.dll を参照に追加してやれば使えます。何といっても Microsoft のライブラリなので、これを使うのが一番無難そうな気がします。
CSV ファイルをパースして DataTable を作り、それを GridView にバインドして表示するサンプルをアップしておきます。検証用なので、ユーザーインターフェイスはかなり省略して書いてます。すみません。(汗)
A Fast CSV Reader を使用するには LumenWorks.Framework.IO.dll を The Code Project のサイト A Fast CSV Reader からダウンロードしてきて、それを Bin フォルダに置く必要があります。test.csv は検証用のテキストファイルです。
<%@ Page Language="C#" %>
<%@ Import Namespace="LumenWorks.Framework.IO.Csv" %>
<%@ Import Namespace="System.IO" %>
<%@ Import Namespace="System.Data" %>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<script runat="server">
// CSV パーサーの選択
int select = 0;
// CSVファイルのあるフォルダ、ファイル名
string csvDir = @"C:\WebSites\MsdnTestNew\App_Data\";
string csvFileName = "test.csv";
DataTable dt;
protected void Page_Load(object sender, EventArgs e)
{
if (!Page.IsPostBack)
{
if (select == 0)
{
// A Fast CSV Reader を使う場合
// ストリームの最初の 3 バイトを参照して、エン
// コーディングの検出を試みます。
// ファイルが該当する BOM で開始される場合は、UTF-8、
// リトルエンディアン Unicode、ビッグエンディアン
// Unicode の各テキストが自動的に認識されます。
// それ以外の場合は、ユーザー指定のエンコーディング
// (以下の例では Shift_JIS)が使用されます。
using (CsvReader csv =
new CsvReader(
new StreamReader(
csvDir + csvFileName,
Encoding.GetEncoding("Shift_JIS")
),
true
)
)
{
int fieldCount = csv.FieldCount;
string[] headers = csv.GetFieldHeaders();
dt = new DataTable();
DataRow dr;
DataColumn dc;
for (int i = 0; i < fieldCount; i++)
{
dc = new DataColumn(headers[i], typeof(String));
dt.Columns.Add(dc);
}
while (csv.ReadNextRecord())
{
dr = dt.NewRow();
for (int i = 0; i < fieldCount; i++)
{
dr[headers[i]] = csv[i];
}
dt.Rows.Add(dr);
}
}
}
else if (select == 1)
{
// Jet Provider を使う場合
// 接続文字列。HDR=Yes で一行目をヘッダーとして扱う
string conString =
"Provider=Microsoft.Jet.OLEDB.4.0;Data Source=" +
csvDir +
";Extended Properties=\"text;HDR=Yes;FMT=Delimited\"";
System.Data.OleDb.OleDbConnection con =
new System.Data.OleDb.OleDbConnection(conString);
string commText = "SELECT * FROM [" + csvFileName + "]";
System.Data.OleDb.OleDbDataAdapter da =
new System.Data.OleDb.OleDbDataAdapter(commText, con);
dt = new DataTable();
da.Fill(dt);
}
else
{
// TextFieldParser を使う場合
using (Microsoft.VisualBasic.FileIO.TextFieldParser tfp =
new Microsoft.VisualBasic.FileIO.TextFieldParser(
csvDir + csvFileName,
Encoding.GetEncoding("Shift_JIS")
)
)
{
//フィールドがデリミタで区切られている
tfp.TextFieldType =
Microsoft.VisualBasic.FileIO.FieldType.Delimited;
// デリミタを , とする
tfp.Delimiters = new string[] { "," };
// フィールドを " で囲み、改行文字、デリミタを
// 含めることができるか
tfp.HasFieldsEnclosedInQuotes = true;
// フィールドの前後からスペースを削除
tfp.TrimWhiteSpace = true;
string[] headers = tfp.ReadFields();
int fieldCount = headers.Length;
dt = new DataTable();
DataRow dr;
DataColumn dc;
for (int i = 0; i < fieldCount; i++)
{
dc = new DataColumn(headers[i], typeof(String));
dt.Columns.Add(dc);
}
while (!tfp.EndOfData)
{
string[] fields = tfp.ReadFields();
dr = dt.NewRow();
for (int i = 0; i < fieldCount; i++)
{
dr[headers[i]] = fields[i];
}
dt.Rows.Add(dr);
}
}
}
GridView1.DataSource = dt;
GridView1.DataBind();
}
}
</script>
<html xmlns="http://www.w3.org/1999/xhtml">
<head runat="server">
<title></title>
</head>
<body>
<form id="form1" runat="server">
<div>
<asp:GridView ID="GridView1" runat="server">
</asp:GridView>
</div>
</form>
</body>
</html>