=============================== データの直接入出力 - Direct I/O =============================== Direct I/OはHadoopクラスターからバッチの入出力データを直接読み書きするための機構です。 主に以下のような特徴があります。 高速な入出力 ============ Hadoopクラスターから直接データを分散して読み書きするため、WindGateなどの外部システム連携ツールを利用した場合に比べて高速な入出力を行えます。 また、入力及び出力データの分割をサポートし、Hadoopクラスターと連携した効率的な入出力が可能です。 柔軟なデータソースの設定 ======================== バッチアプリケーションの開発と、運用時に利用するデータソースや入出力位置の指定を分離して行えます。 また、データソースや入出力位置は複数を組み合わせて利用可能です。 柔軟な入出力ファイルパスの指定 ============================== 入力パスにはバッチ引数やワイルドカード、サブディレクトリ検索などを指定できます。 出力パスにはバッチ引数のほかデータの内容などを指定でき、ファイルの内容も特定のプロパティでソートできます。 様々なファイル形式に対応 ======================== CSVやカラムナフォーマットファイルなどのファイル形式とデータモデルとのマッピングに対応しています。 Asakusa Frameworkの外部で作成されたシーケンスファイルを利用することも可能です。 関連するドキュメント ==================== .. toctree:: :maxdepth: 1 start-guide user-guide csv-format formatted-text directio-line sequencefile-format using-hive tools-guide directio-cli