Resume機能

参考

開発者である古橋さんのブログが詳しかった。
Embulk 0.3 & 0.4 の新機能 - リジュームとJavaプラグイン

Resume機能について

バルクデータローダであるEmbulkは、大規模なデータを高速で処理するためにタスクを分割し平行で進めるということができる。
こういった大きなデータのロードの際、何らかの原因で一部データのロードが失敗してしまうということは十分考えられる。
こういった場合に、改めて全てのデータを再ロードするのは手間であるため、これを回避できるのがResume機能である。

$ embulk run config.yml -r resume.yml  

-rオプションを付けてembulk runを実行すると、ロードが一部失敗した場合にはresume.ymlに実行状態が保存できる。
全て失敗した場合には何も保存されない、とのこと。
中間データの破棄には、cleanオプションを付ける。