データの直接入出力 - Direct I/O

Direct I/OはHadoopクラスターからバッチの入出力データを直接読み書きするための機構です。

主に以下のような特徴があります。

高速な入出力

Hadoopクラスターから直接データを分散して読み書きするため、WindGateなどの外部システム連携ツールを利用した場合に比べて高速な入出力を行えます。 また、入力及び出力データの分割をサポートし、Hadoopクラスターと連携した効率的な入出力が可能です。

柔軟なデータソースの設定

バッチアプリケーションの開発と、運用時に利用するデータソースや入出力位置の指定を分離して行えます。 また、データソースや入出力位置は複数を組み合わせて利用可能です。

柔軟な入出力ファイルパスの指定

入力パスにはバッチ引数やワイルドカード、サブディレクトリ検索などを指定できます。 出力パスにはバッチ引数のほかデータの内容などを指定でき、ファイルの内容も特定のプロパティでソートできます。

様々なファイル形式に対応

CSVやカラムナフォーマットファイルなどのファイル形式とデータモデルとのマッピングに対応しています。 Asakusa Frameworkの外部で作成されたシーケンスファイルを利用することも可能です。