Hadoop Conferernce Japan 2014に初参加

2014.7.8にベルサール汐留で開催されたHadoop Conference Japan 2014に行ってきました! 今年に入ってから本格的にHadoop周りを触り始めたので、勉強になることばかりでした。 (参加者の65%が初参加ということでしたが、その中の一人です。)

登壇者、運営者の皆様、スポンサーのリクルートテクノロジーズ様、ありがとうございました :)

以下はイベント情報と参加したセッションのメモです。


Keynotes

  • Hadoopを取り巻く環境 : 濱野 賢一朗 氏 (日本Hadoopユーザー会、NTTデータ)
    • YARNで複数の並列分散処理エンジンを使い分ける時代。
    • Hadoop Conference Japan 2014の約65%が初参加。裾野が広がっている。
  • The Future of Data : Doug Cutting 氏 (Hadoop生みの親、Apache Software Foundation, Cloudera)
  • The Future of Spark : Patrick Wendell 氏 (Apache Spark主要開発者, Databricks)
  • Hadoopエコシステムの変遷と、見えてきた使いどころ : 太田 一樹 氏 (Treasure Data CTO)

マルチテナント化に向けたHadoopの最新セキュリティ事情

小林 大輔 氏 (Cloudera)

  • 部門単位の利用から、1つのクラスタを共有(マルチテナント)する形に変わってきた。
  • 権限管理が課題となる。
  • Hadoopの認証
    • Kerberos
  • Hadoopの認可
  • SentryのPolicy file管理を各部門の責任者に委譲できる。
    • 今後、Policy fileのtoolが準備されてくる予定。

HDFSとHive/Impalaなど個別の権限を設定しないといけない。セキュリティはまだ技術的に過渡期な印象。

Hadoop用の標準GUI、Hueの最新事情

川崎 達夫 氏 (Cloudera)

  • Hueの概要と歴史の紹介
  • 新しいHueはVisualizationができるように!
  • ディストリビューションは、Conferenceに来る人はもちろんGitHubから直接buildですよね。
  • HueはClusterの外ではなく、内側に設置するべき。(意外)
    • Network I/Oを結構使うらしい。
  • 認証はDBやLDAP, OpenID, SAMLなどが使える。
  • Demoなど。
  • 今後、Sparkも統合していく。

HueがSolrを統合してDashboardを作れるようになっていたのは意外だった。

SQLによるバッチ処理とストリーム処理

田籠 聡 氏 (LINE)

  • Streaming processingについて
  • EsperによるStream処理の話。
  • Norikraの紹介など
  • Lambda architecture
  • Hybrid processing

Stream processingのfault-torelanceや速報・確定値の為のHybrid processingの考え方が勉強になった。

Taming YARN: how can we tune it?

小沢 健史 氏 (NTT)

  • YARNの構成要素
    • Resouce Manager
    • Node Manager
    • Application Manager (MRv2, Impala, Presto, etc...)
  • OOM-killerのようなContainer Killerとの戦いがある。
  • Health check機能がある
  • Tuning pointはたくさんある。

YARNはあまり知らなかったので、概要の説明などがありがたかった。YARNならではのノウハウが結構ありそう。

Apache Drill: Building Highly Flexible, High Performance Query Engines

M.C. Srivas 氏 (MapR)

  • 自己表現型のデータが一般的になってきている。
  • Queryの中でDataSourceを指定。
  • 複数のformatをSQLで結合可能。
  • いずれかのNodeのDrillbitにqueryを投げてそこから分散。
  • 4値セマンティックス
    • repeatable?

他にもたくさんの内容があったが、英語のsessionで追い切れず。これからのProductという印象。

Evolution of Impala - Hadoop上の高速SQLエンジン、最新情報

嶋内 翔 氏 (Cloudera)

  • C++で書かれた高速なMPP SQLエンジン
  • ImpalaのArchitecture紹介
    • catalogdはmetadateの変更を通知する。Hiveの変更は対応できない。
  • COMPUTE STATSはETL処理の最後に実行するといい。
    • 統計情報を収集して、実行計画などを改善。
  • Impalaは多数のQueryの並列実行に強い
    • 他のSQLエンジンに比べて、性能劣化が少ない。

スライドに詳しくかかれているので、実際の運用にも役立ちそう。Impala 2.0が待ち遠しい。

並列SQLエンジンPresto - 大規模データセットを高速にグラフ化する方法

古橋 貞之 氏 (Treasure Data)

  • Prestoがあれば、HDFSのデータをRealtimeでVisualizationできる。
  • Hiveを置き換えるものではなく、使い分ける。
  • CassandraやMySQLにもqueryを投げられる。
  • ArchitectureにはHA構成できるCordinatorがWorkerを起動して、Connector Pluginを通じてStorageからDataを持ってくる。
    • 全体がPlugableな構成
  • BI toolと連携するにはODBC or JDBCのsupportが必須
    • PostgreSQLを経由してPrestoにアクセスする方法
  • Monitoringがよく考えられていて、WebUIやHTTP APIなど。
  • Impalaと比べると、速度はImpalaの方が早いが、プロセス自体が落ちるようなことはない。
  • 運用がよく考えられている。

Prestoの概要を知ったのはこの場が初めてだったが、Impalaと合わせて使ってみたいProductだと感じた。