WebSurfer's Home

トップ > Blog 1   |   Login
Filter by APML

CSV パーサー

by WebSurfer 28. October 2010 12:18

CSV ファイルをパースして DataTable を作るような場合、ファイルを一行ずつ読んで文字列を作り、String.Split メソッドでその文字列を区切るといった方法を考えると思います。

ところが、改行コードやデリミタ(コンマのような区切り文字)がフィールド値の中にあったり、改行コードが異なったり(例: Windows は CR + LF、Unix は LF)するのに対応する場合、上記ような単純な方法は使えません。

改行コードやデリミタがフィールド値の中にある場合、フィールド値をダブルクォート (") で囲むと言った約束を設けて対応しますが、そのような CSV ファイルの処置が可能なパーサーを自力で作るのは簡単ではありません。

という訳で、いつものように他力本願で(笑)、既存のパーサーを使うのがよさそうです。既存のパーサーにはいろいろなものがあります。詳しくは、CSV 形式のファイルを DataTable や配列等として取得する が参考になると思います。

なので、わざわざここに書く必要もないかもしれませんが、自分でも 2, 3 試してみましたので、使ってみた感想と、CSV ファイルを読んで DataTable を作るサンプルを書いておきます。

使ってみたのは Jet Provider, A Fast CSV Reader, TextFieldParser の 3 つです。感想は以下のとおりです。

  1. Jet Provider を使うのが最も簡単な方法です。ただし、文字コードが Shift_JIS 以外はダメです。UTF-8 なら日本語が文字化けする程度ですが、Unicode は全く処置できません。

    2014/5/26 追記:下にコメントいただいたとおり、schema.ini というファイルを作り、それに文字コードを指定して CSV ファイルと同じディレクトリに配置することにより UTF-8 他の文字コードに対応できます。

    また、JET プロバイダはデフォルトで最初の 8 行のデータをスキャンして各列のデータ型を推測しますが、その際、予期しない型に推測されてしまうことも schema.ini で型を指定することとにより防ぐことができます。
  2. A Fast CSV Reader は The Code Project のサイトで MIT License にて提供されているものです。解析のスピードの速さがウリのようです。使い方も簡単ですし、Shift_JIS, UTF-8, Unicode いずれも対応できるので、自分的にはこれが気に入っています。ただし、dll をダウンロードしてこなければならない点と、日本語の説明がない点が問題かも。
  3. TextFieldParser は Microsoft が提供している Visual Basic .NET 用のクラスライブラリです。これも使い方は簡単で、Shift_JIS, UTF-8, Unicode いずれも対応できます。C# でも Microsoft.VisualBasic.dll を参照に追加してやれば使えます。何といっても Microsoft のライブラリなので、これを使うのが一番無難そうな気がします。

CSV ファイルをパースして DataTable を作り、それを GridView にバインドして表示するサンプルをアップしておきます。検証用なので、ユーザーインターフェイスはかなり省略して書いてます。すみません。(汗)

A Fast CSV Reader を使用するには LumenWorks.Framework.IO.dll を The Code Project のサイト A Fast CSV Reader からダウンロードしてきて、それを Bin フォルダに置く必要があります。test.csv は検証用のテキストファイルです。

<%@ Page Language="C#" %>
<%@ Import Namespace="LumenWorks.Framework.IO.Csv" %>
<%@ Import Namespace="System.IO" %>
<%@ Import Namespace="System.Data" %>

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" 
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<script runat="server">
  // CSV パーサーの選択
  int select = 0;
    
  // CSVファイルのあるフォルダ、ファイル名
  string csvDir = @"C:\WebSites\MsdnTestNew\App_Data\";
  string csvFileName = "test.csv";

  DataTable dt;
    
  protected void Page_Load(object sender, EventArgs e)
  {
    if (!Page.IsPostBack)
    {
      if (select == 0)
      {
        // A Fast CSV Reader を使う場合

        // ストリームの最初の 3 バイトを参照して、エン
        // コーディングの検出を試みます。
        // ファイルが該当する BOM で開始される場合は、UTF-8、
        // リトルエンディアン Unicode、ビッグエンディアン
        // Unicode の各テキストが自動的に認識されます。
        // それ以外の場合は、ユーザー指定のエンコーディング
        // (以下の例では Shift_JIS)が使用されます。
        using (CsvReader csv = 
          new CsvReader(
            new StreamReader(
              csvDir + csvFileName, 
              Encoding.GetEncoding("Shift_JIS")
            ), 
            true
          )
        )
        {
          int fieldCount = csv.FieldCount;
          string[] headers = csv.GetFieldHeaders();

          dt = new DataTable();
          DataRow dr;
          DataColumn dc;

          for (int i = 0; i < fieldCount; i++)
          {
            dc = new DataColumn(headers[i], typeof(String));
            dt.Columns.Add(dc);
          }

          while (csv.ReadNextRecord())
          {
            dr = dt.NewRow();
            for (int i = 0; i < fieldCount; i++)
            {
              dr[headers[i]] = csv[i];
            }
            dt.Rows.Add(dr);
          }
        }
      }
      else if (select == 1)
      {
        // Jet Provider を使う場合

        // 接続文字列。HDR=Yes で一行目をヘッダーとして扱う
        string conString = 
          "Provider=Microsoft.Jet.OLEDB.4.0;Data Source=" +
          csvDir + 
          ";Extended Properties=\"text;HDR=Yes;FMT=Delimited\"";

        System.Data.OleDb.OleDbConnection con = 
          new System.Data.OleDb.OleDbConnection(conString);
        string commText = "SELECT * FROM [" + csvFileName + "]";
        System.Data.OleDb.OleDbDataAdapter da = 
          new System.Data.OleDb.OleDbDataAdapter(commText, con);

        dt = new DataTable();
        da.Fill(dt);
      }
      else
      {
        // TextFieldParser を使う場合
        using (Microsoft.VisualBasic.FileIO.TextFieldParser tfp =
          new Microsoft.VisualBasic.FileIO.TextFieldParser(
            csvDir + csvFileName,
            Encoding.GetEncoding("Shift_JIS")
          )
        )
        {
          //フィールドがデリミタで区切られている
          tfp.TextFieldType = 
            Microsoft.VisualBasic.FileIO.FieldType.Delimited;
          // デリミタを , とする
          tfp.Delimiters = new string[] { "," };
          // フィールドを " で囲み、改行文字、デリミタを
          // 含めることができるか
          tfp.HasFieldsEnclosedInQuotes = true;
          // フィールドの前後からスペースを削除
          tfp.TrimWhiteSpace = true;

          string[] headers = tfp.ReadFields();
          int fieldCount = headers.Length;
                    
          dt = new DataTable();
          DataRow dr;
          DataColumn dc;

          for (int i = 0; i < fieldCount; i++)
          {
            dc = new DataColumn(headers[i], typeof(String));
            dt.Columns.Add(dc);
          }

          while (!tfp.EndOfData)
          {
            string[] fields = tfp.ReadFields();
                        
            dr = dt.NewRow();
            for (int i = 0; i < fieldCount; i++)
            {
              dr[headers[i]] = fields[i];
            }
            dt.Rows.Add(dr);                        
          }
        }
      }
      GridView1.DataSource = dt;
      GridView1.DataBind();
    }
  }
</script>

<html xmlns="http://www.w3.org/1999/xhtml">
<head runat="server">
    <title></title>
</head>
<body>
  <form id="form1" runat="server">
  <div>
    <asp:GridView ID="GridView1" runat="server">
    </asp:GridView>
  </div>
  </form>
</body>
</html>

Tags:

その他

Comments

2. November 2010 17:13   #

もりお

フォーラムではお世話になっています。
ブログでは、はじめまして。
Jet Provider についてなのですが。
schema.ini というファイルを csv ファイルと同じディレクトリに配置することにより文字コードを指定することができます。

schema.ini の内容はこんな感じです。
CharacterSet のところに文字コードのコードページを指定できます。

[test.csv]
ColNameHeader=True
Format=CSVDelimited
MaxScanRows=0
CharacterSet=51932
Col1=ID Integer
Col2=NAME LongChar
Col3=PRICE Currency

schema.ini はテキストエディタで作成することもできますし、管理ツールのデータ ソース (ODBC) で作成することもできます。

手元の環境で試してみた限りでは、ISO-2022-JP、EUC-JP、UTF-8、UTF-16、の文字コードで保存した csv ファイルを、文字化けせずに読み込むことができました。

schema.ini に列情報を明示しておくと、データ型も自動的に変換されます。csv ファイルを DataTable に読み込む際にはおすすめです。

DataTable を使用しないときには、私も TextFieldParser 派です。

もりお Japan

2. November 2010 21:38   #

websurfer

もりおさん>

こちらこそ MSDN フォーラムではお世話になっております。また、このブログ
でのコメントを有難うございました。

Jet Provider は Shift_JIS 以外にも対応できるのですね。ぜんぜん知りませ
んでした。

それなら、おっしゃるとおり、DataTable を作るには、Jet Provider を使うの
が一番簡単そうですね。

今後とも、よろしくお願いいたします。

websurfer Japan

About this blog

2010年5月にこのブログを立ち上げました。主に ASP.NET Web アプリ関係の記事です。

Calendar

<<  September 2024  >>
MoTuWeThFrSaSu
2627282930311
2345678
9101112131415
16171819202122
23242526272829
30123456

View posts in large calendar