========================
Direct I/O sequence file
========================

ã“ã®æ–‡æ›¸ã§ã¯ã€Direct I/Oã‹ã‚‰Hadoopã®ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã‚’ã‚¤ãƒ³ãƒãƒ¼ãƒˆ/ã‚¨ã‚¯ã‚¹ãƒãƒ¼ãƒˆã™ã‚‹æ–¹æ³•ã«ã¤ã„ã¦èª¬æ˜Žã—ã¾ã™ã€‚

ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«å½¢å¼ã®DataFormatã®ä½œæˆ
========================================

Hadoopã®ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ« [#]_ ã‚’ç›´æŽ¥èªã¿æ›¸ãã™ã‚‹ã«ã¯ã€ ``SequenceFileFormat`` [#]_ ã®ã‚µãƒ–ã‚¯ãƒ©ã‚¹ã‚’ä½œæˆã—ã¾ã™ã€‚

..  hint::
    ä»¥é™ã®è¨˜è¿°ã¯ã€Asakusa Frameworkã®å¤–éƒ¨ã§ä½œæˆã•ã‚ŒãŸã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã‚’åˆ©ç”¨ã™ã‚‹éš›ã®æ–¹æ³•ã§ã™ã€‚
    ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã«Asakusa Frameworkã®ãƒ‡ãƒ¼ã‚¿ãƒ¢ãƒ‡ãƒ«å½¢å¼ã‚’ç›´æŽ¥åˆ©ç”¨ã™ã‚‹å ´åˆ `å†…éƒ¨ãƒ‡ãƒ¼ã‚¿å½¢å¼ã‚’åˆ©ç”¨ã—ãŸã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«å½¢å¼ã®DataFormatã®ä½œæˆ`_ ãªã©ã‚‚åˆ©ç”¨å¯èƒ½ã§ã™ã€‚

``SequenceFileFormat`` ã¯ ``HadoopFileFormat`` ã®ã‚µãƒ–ã‚¯ãƒ©ã‚¹ã§ã€ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã‚’èªã¿æ›¸ãã™ã‚‹ãŸã‚ã®éª¨æ ¼å®Ÿè£…ãŒæä¾›ã•ã‚Œã¦ã„ã¾ã™ã€‚

ã“ã®ã‚¯ãƒ©ã‚¹ã‚’ç¶™æ‰¿ã™ã‚‹éš›ã«ã¯ã€ä»¥ä¸‹ã®åž‹å¼•æ•°ã‚’ ``SequenceFileFormat<K, V, T>`` ã«ãã‚Œãžã‚ŒæŒ‡å®šã—ã¦ãã ã•ã„ã€‚

``K``
  å¯¾è±¡ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã®ã‚ãƒ¼ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã®åž‹

``V``
  å¯¾è±¡ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã®å€¤ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã®åž‹

``T``
  ã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã§åˆ©ç”¨ã™ã‚‹ãƒ‡ãƒ¼ã‚¿ãƒ¢ãƒ‡ãƒ«ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã®åž‹

ã“ã®ã‚¯ãƒ©ã‚¹ã§ã¯ã€ä¸‹è¨˜ã®ãƒ¡ã‚½ãƒƒãƒ‰ã‚’ã‚ªãƒ¼ãƒãƒ¼ãƒ©ã‚¤ãƒ‰ã—ã¾ã™ã€‚

``Class<T> getSupportedType()``
  å¯¾è±¡ã¨ãªã‚‹ãƒ‡ãƒ¼ã‚¿ãƒ¢ãƒ‡ãƒ«ã®ã‚¯ãƒ©ã‚¹ã‚’æˆ»ã‚Šå€¤ã«æŒ‡å®šã—ã¾ã™ã€‚

``K createKeyObject()``
  å¯¾è±¡ã®ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã®ã‚ãƒ¼ã¨åŒã˜ã‚¯ãƒ©ã‚¹ã®ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã‚’æˆ»ã‚Šå€¤ã«æŒ‡å®šã—ã¾ã™ã€‚

``V createValueObject()``
  å¯¾è±¡ã®ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã®å€¤ã¨åŒã˜ã‚¯ãƒ©ã‚¹ã®ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã‚’æˆ»ã‚Šå€¤ã«æŒ‡å®šã—ã¾ã™ã€‚

``void copyToModel(K key, V value, T model)``
  ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã‹ã‚‰èªã¿å‡ºã—ãŸã‚ãƒ¼ ( ``key`` ) ã¨ å€¤ ( ``value`` ) ã®å†…å®¹ã‚’ã€
  å¯¾è±¡ã®ãƒ‡ãƒ¼ã‚¿ãƒ¢ãƒ‡ãƒ«ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆ ( ``model`` ) ã«è¨å®šã—ã¾ã™ã€‚

  ã“ã®ãƒ¡ã‚½ãƒƒãƒ‰ã¯ã€ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã‹ã‚‰ãƒ‡ãƒ¼ã‚¿èªã¿å‡ºã™éš›ã«ã€ãƒ¬ã‚³ãƒ¼ãƒ‰ã”ã¨ã«èµ·å‹•ã•ã‚Œã¾ã™ã€‚
  ã“ã®ãƒ¡ã‚½ãƒƒãƒ‰ã«ã‚ˆã£ã¦å¤‰æ›´ã•ã‚ŒãŸãƒ‡ãƒ¼ã‚¿ãƒ¢ãƒ‡ãƒ«ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã¯ã€ä»¥é™ã®å‡¦ç†ã®å…¥åŠ›ã¨ã—ã¦åˆ©ç”¨ã•ã‚Œã¾ã™ã€‚

``void copyFromModel(T model, K key, V value)``
  çµæžœã‚’è¡¨ã™ãƒ‡ãƒ¼ã‚¿ãƒ¢ãƒ‡ãƒ«ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã®å†…å®¹ã‚’ã€ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã®ã‚ãƒ¼ ( ``key`` ) ã¨å€¤ ( ``value`` ) ã«è¨å®šã—ã¾ã™ã€‚

  ã“ã®ãƒ¡ã‚½ãƒƒãƒ‰ã¯ã€ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã«ãƒ‡ãƒ¼ã‚¿ã‚’æ›¸ãè¾¼ã‚€éš›ã«ã€ãƒ¬ã‚³ãƒ¼ãƒ‰ã”ã¨ã«èµ·å‹•ã•ã‚Œã¾ã™ã€‚
  ã“ã®ãƒ¡ã‚½ãƒƒãƒ‰ã«ã‚ˆã£ã¦å¤‰æ›´ã•ã‚ŒãŸã‚ãƒ¼ã¨å€¤ãŒãã®ã¾ã¾ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã«æ›¸ãå‡ºã•ã‚Œã¾ã™ã€‚

``CompressionCodec getCompressionCodec(Path path)``
  ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã®ä½œæˆæ™‚ã«åˆ©ç”¨ã™ã‚‹åœ§ç¸®ã‚³ãƒ¼ãƒ‡ãƒƒã‚¯ã‚’æŒ‡å®šã—ã¾ã™ã€‚

  ã‚ªãƒ¼ãƒãƒ¼ãƒ©ã‚¤ãƒ‰ã—ãªã„å ´åˆã€å…¨ä½“ã®è¨å®šæƒ…å ±ã‚’ã‚‚ã¨ã«åœ§ç¸®ã‚³ãƒ¼ãƒ‡ãƒƒã‚¯ã‚’æ±ºå®šã—ã¾ã™ã€‚
  è©³ã—ãã¯ `ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã®åœ§ç¸®`_ ã‚’å‚ç…§ã—ã¦ãã ã•ã„ã€‚

ä»¥ä¸‹ã¯ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«å½¢å¼ã®DataFormatã®å®Ÿè£…ä¾‹ã§ã™ã€‚

..  code-block:: java

    public class ExampleSequenceFormat extends SequenceFileFormat<LongWritable, Text, MyData> {

        @Override
        public Class<MyData> getSupportedType() {
            return MyData.class;
        }

        @Override
        protected LongWritable createKeyObject() {
            return new LongWritable();
        }

        @Override
        protected Text createValueObject() {
            return new Text();
        }

        @Override
        protected void copyToModel(LongWritable key, Text value, MyData model) {
            model.setPosition(key.get());
            model.setText(value);
        }

        @Override
        protected void copyFromModel(MyData model, LongWritable key, Text value) {
            key.set(model.getPositionOption().or(0L));
            value.set(model.getTextOption().or("(null)"));
        }
    }

..  hint::
    ã“ã®æ©Ÿèƒ½ã¯ã€ `Apache Sqoop`_ ç‰ã®ãƒ„ãƒ¼ãƒ«ã¨é€£æºã™ã‚‹ã“ã¨ã‚’æƒ³å®šã—ã¦æä¾›ã•ã‚Œã¦ã„ã¾ã™ã€‚

..  [#] ``org.apache.hadoop.io.SequenceFile``
..  [#] :asakusafw-javadoc:`com.asakusafw.runtime.directio.hadoop.SequenceFileFormat`

..  _`Apache Sqoop` : http://sqoop.apache.org/

ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã®åœ§ç¸®
------------------------

``SequenceFileFormat`` ã‚’åˆ©ç”¨ã—ã¦ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã‚’ä½œæˆã™ã‚‹å ´åˆã€ä»¥ä¸‹ã®ã„ãã¤ã‹ã®æ–¹æ³•ã§åœ§ç¸®å½¢å¼ã‚’æŒ‡å®šã§ãã¾ã™ã€‚
ä»¥ä¸‹ã€ä¸Šã‹ã‚‰é †ã«è©²å½“ã™ã‚‹é …ç›®ãŒã‚ã‚Œã°ã€ãã“ã§è¨å®šã•ã‚ŒãŸåœ§ç¸®å½¢å¼ã‚’åˆ©ç”¨ã—ã¾ã™ã€‚

``SequenceFileFormat.getCompressionCodec(Path path)`` ã‚’ã‚ªãƒ¼ãƒãƒ¼ãƒ©ã‚¤ãƒ‰
  ã‚ªãƒ¼ãƒãƒ¼ãƒ©ã‚¤ãƒ‰ã—ãŸãƒ¡ã‚½ãƒƒãƒ‰ãŒè¿”ã™åœ§ç¸®ã‚³ãƒ¼ãƒ‡ãƒƒã‚¯ã‚’åˆ©ç”¨ã—ã¾ã™ã€‚

  ``null`` ã‚’æŒ‡å®šã—ãŸå ´åˆã€åœ§ç¸®ã¯è¡Œã‚ã‚Œã¾ã›ã‚“ã€‚

è¨å®šãƒ•ã‚¡ã‚¤ãƒ«ã§ ``com.asakusafw.output.sequencefile.compression.codec`` ã‚’æŒ‡å®š
  ä¸Šè¨˜ã®è¨å®šå€¤ã« ``CompressionCodec`` [#]_ ã‚’å®Ÿè£…ã—ãŸã‚¯ãƒ©ã‚¹åã‚’æŒ‡å®šã™ã‚‹ã¨ã€ãã®åœ§ç¸®ã‚³ãƒ¼ãƒ‡ãƒƒã‚¯ã‚’åˆ©ç”¨ã—ã¾ã™ã€‚

  ãªãŠã€åˆ©ç”¨ã™ã‚‹åœ§ç¸®ã‚³ãƒ¼ãƒ‡ãƒƒã‚¯ã¯ã‚ã‚‰ã‹ã˜ã‚Hadoopã‚¯ãƒ©ã‚¹ã‚¿ãƒ¼ã®å…¨å°ã«å°Žå…¥ã•ã‚Œã¦ã„ã‚‹å¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚

ä¸Šè¨˜ã„ãšã‚Œã®æŒ‡å®šã‚‚ãªã„å ´åˆã€ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã®åœ§ç¸®ã‚’è¡Œã„ã¾ã›ã‚“ã€‚

..  note::
    ä¸Šè¨˜ã®è¨å®šã¯ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ä½œæˆæ™‚ã®ã¿æœ‰åŠ¹ã§ã™ã€‚
    ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã‚’èªã¿å‡ºã™éš›ã«ã¯ã€ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã®åœ§ç¸®å½¢å¼ã‚’è‡ªå‹•çš„ã«åˆ¤åˆ¥ã—ã¾ã™ã€‚

..  [#] ``org.apache.hadoop.io.compress.CompressionCodec``

å†…éƒ¨ãƒ‡ãƒ¼ã‚¿å½¢å¼ã‚’åˆ©ç”¨ã—ãŸã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«å½¢å¼ã®DataFormatã®ä½œæˆ
================================================================

ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«å¯¾ã—ã€Asakusa Frameworkã§åˆ©ç”¨ã™ã‚‹ãƒ‡ãƒ¼ã‚¿ãƒ¢ãƒ‡ãƒ«å½¢å¼ã‚’ç›´æŽ¥ä¿å˜ã—ãŸã‚Šå¾©å…ƒã—ãŸã‚Šã™ã‚‹ã‚ˆã†ãª ``DataFormat`` ã®å®Ÿè£…ã‚¯ãƒ©ã‚¹ã‚’è‡ªå‹•çš„ã«ç”Ÿæˆã™ã‚‹ã«ã¯ã€å¯¾è±¡ã®ãƒ‡ãƒ¼ã‚¿ãƒ¢ãƒ‡ãƒ«ã« ``@directio.sequence_file`` ã‚’æŒ‡å®šã—ã¾ã™ã€‚

..  code-block:: dmdl

    @directio.sequence_file
    document = {
        "the name of this document"
        name : TEXT;

        "the content of this document"
        content : TEXT;
    };

ä¸Šè¨˜ã®ã‚ˆã†ã«è¨˜è¿°ã—ã¦ãƒ‡ãƒ¼ã‚¿ãƒ¢ãƒ‡ãƒ«ã‚¯ãƒ©ã‚¹ã‚’ç”Ÿæˆã™ã‚‹ã¨ã€ ``<å‡ºåŠ›å…ˆãƒ‘ãƒƒã‚±ãƒ¼ã‚¸>.sequencefile.<ãƒ‡ãƒ¼ã‚¿ãƒ¢ãƒ‡ãƒ«å>SequenceFileFormat`` ã¨ã„ã†ã‚¯ãƒ©ã‚¹ãŒè‡ªå‹•ç”Ÿæˆã•ã‚Œã¾ã™ã€‚
ã“ã®ã‚¯ãƒ©ã‚¹ã¯ ``DataFormat`` ã‚’å®Ÿè£…ã—ã€å¯¾è±¡ã®ãƒ‡ãƒ¼ã‚¿ãƒ¢ãƒ‡ãƒ«ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã‚’Hadoopã®ç›´åˆ—åŒ–æ©Ÿæ§‹ã‚’ç›´æŽ¥åˆ©ç”¨ã—ãŸã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã‚’å–ã‚Šæ‰±ãˆã¾ã™ã€‚

ã¾ãŸã€ å˜ç´”ãª :ref:`directio-dsl-input-description` ã¨ :ref:`directio-dsl-output-description` ã®éª¨æ ¼ã‚‚è‡ªå‹•ç”Ÿæˆã—ã¾ã™ã€‚
å‰è€…ã¯ ``<å‡ºåŠ›å…ˆãƒ‘ãƒƒã‚±ãƒ¼ã‚¸>.sequencefile.Abstract<ãƒ‡ãƒ¼ã‚¿ãƒ¢ãƒ‡ãƒ«å>SequenceFileInputDescription`` ã€å¾Œè€…ã¯ ``<å‡ºåŠ›å…ˆãƒ‘ãƒƒã‚±ãƒ¼ã‚¸>.sequencefile.Abstract<ãƒ‡ãƒ¼ã‚¿ãƒ¢ãƒ‡ãƒ«å>SequenceFileOutputDescription`` ã¨ã„ã†ã‚¯ãƒ©ã‚¹åã§ç”Ÿæˆã—ã¾ã™ã€‚
å¿…è¦ã«å¿œã˜ã¦ç¶™æ‰¿ã—ã¦åˆ©ç”¨ã—ã¦ãã ã•ã„ã€‚

..  attention::
    ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã®å½¢å¼ã‚„ã€å†…éƒ¨ãƒ‡ãƒ¼ã‚¿ã®ãƒã‚¤ãƒŠãƒªè¡¨ç¾ã¯Hadoopã‚„Asakusa Frameworkã®ãƒ¡ã‚¸ãƒ£ãƒ¼ãƒãƒ¼ã‚¸ãƒ§ãƒ³ã‚¢ãƒƒãƒ—ã®éš›ã«å¤‰æ›´ã«ãªã‚‹å ´åˆãŒã‚ã‚Šã¾ã™ã€‚
    ãƒ‡ãƒ¼ã‚¿ã‚’é•·æœŸã«ã‚ãŸã£ã¦ä¿ç®¡ã™ã‚‹å ´åˆã€CSVãªã©ã®ãƒãƒ¼ã‚¿ãƒ–ãƒ«ãªå½¢å¼ã‚’åˆ©ç”¨ã™ã‚‹ã“ã¨ã‚’æŽ¨å¥¨ã—ã¾ã™ã€‚

..  hint::
    ã“ã®æ©Ÿèƒ½ã‚’åˆ©ç”¨ã™ã‚‹ã«ã¯ã€DMDLã‚³ãƒ³ãƒ‘ã‚¤ãƒ©ã®ãƒ—ãƒ©ã‚°ã‚¤ãƒ³ã« ``asakusa-directio-dmdl`` ã‚’è¿½åŠ ã™ã‚‹å¿…è¦ãŒã‚ã‚Šã¾ã™ãŒã€
    :doc:`../application/gradle-plugin` ã®æ‰‹é †ã«å¾“ã£ã¦ãƒ—ãƒã‚¸ã‚§ã‚¯ãƒˆãƒ†ãƒ³ãƒ—ãƒ¬ãƒ¼ãƒˆã‹ã‚‰ä½œæˆã—ãŸãƒ—ãƒã‚¸ã‚§ã‚¯ãƒˆã¯ã€ã“ã‚Œã‚‰ã®ãƒ©ã‚¤ãƒ–ãƒ©ãƒªã‚„ãƒ—ãƒ©ã‚°ã‚¤ãƒ³ãŒGradle Pluginã«ã‚ˆã£ã¦ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆã§åˆ©ç”¨å¯èƒ½ã«ãªã£ã¦ã„ã¾ã™ã€‚

..  hint::
    DMDLã®ãƒ‡ãƒ¼ã‚¿ãƒ¢ãƒ‡ãƒ«å®šç¾©ã§ã€åŒä¸€ã®ãƒ‡ãƒ¼ã‚¿ãƒ¢ãƒ‡ãƒ«ã« ``@directio.csv`` ã¨ ``@directio.sequence_file`` ã®ä¸¡æ–¹ã‚’æŒ‡å®šã™ã‚‹ã“ã¨ã‚‚ã§ãã¾ã™ã€‚

..  hint::
    ã‚·ãƒ¼ã‚±ãƒ³ã‚¹ãƒ•ã‚¡ã‚¤ãƒ«ã®ä¸èº«ã‚’ãƒ†ã‚ã‚¹ãƒˆå½¢å¼ã§ç¢ºèªã™ã‚‹å ´åˆã€ä»¥ä¸‹ã®ã‚³ãƒžãƒ³ãƒ‰ã‚’åˆ©ç”¨ã™ã‚‹ã¨ä¾¿åˆ©ã§ã™ã€‚

    ..  code-block:: sh

        hadoop fs -libjars "$ASAKUSA_HOME/core/lib/asakusa-runtime-all.jar,$ASAKUSA_HOME/batchapps/<ãƒãƒƒãƒID>/lib/jobflow-<ãƒ•ãƒãƒ¼ID>.jar" -text "<path/to/sequence-file>"