データの直接入出力 - Direct I/O¶
Direct I/OはHadoopクラスターからバッチの入出力データを直接読み書きするための機構です。
主に以下のような特徴があります。
高速な入出力¶
Hadoopクラスターから直接データを分散して読み書きするため、WindGateなどの外部システム連携ツールを利用した場合に比べて高速な入出力を行えます。 また、入力及び出力データの分割をサポートし、Hadoopクラスターと連携した効率的な入出力が可能です。
柔軟なデータソースの設定¶
バッチアプリケーションの開発と、運用時に利用するデータソースや入出力位置の指定を分離して行えます。 また、データソースや入出力位置は複数を組み合わせて利用可能です。
柔軟な入出力ファイルパスの指定¶
入力パスにはバッチ引数やワイルドカード、サブディレクトリ検索などを指定できます。 出力パスにはバッチ引数のほかデータの内容などを指定でき、ファイルの内容も特定のプロパティでソートできます。
様々なファイル形式に対応¶
CSVやカラムナフォーマットファイルなどのファイル形式とデータモデルとのマッピングに対応しています。 Asakusa Frameworkの外部で作成されたシーケンスファイルを利用することも可能です。