Hadoop Conferernce Japan 2014に初参加
2014.7.8にベルサール汐留で開催されたHadoop Conference Japan 2014に行ってきました! 今年に入ってから本格的にHadoop周りを触り始めたので、勉強になることばかりでした。 (参加者の65%が初参加ということでしたが、その中の一人です。)
登壇者、運営者の皆様、スポンサーのリクルートテクノロジーズ様、ありがとうございました :)
以下はイベント情報と参加したセッションのメモです。
- Hadoop Conference Japan 2014のevent page
- 公式Twitterアカウント @hadoopconf
Keynotes
- Hadoopを取り巻く環境 : 濱野 賢一朗 氏 (日本Hadoopユーザー会、NTTデータ)
- The Future of Data : Doug Cutting 氏 (Hadoop生みの親、Apache Software Foundation, Cloudera)
- The Future of Spark : Patrick Wendell 氏 (Apache Spark主要開発者, Databricks)
- Hadoopエコシステムの変遷と、見えてきた使いどころ : 太田 一樹 氏 (Treasure Data CTO)
マルチテナント化に向けたHadoopの最新セキュリティ事情
小林 大輔 氏 (Cloudera)
- 部門単位の利用から、1つのクラスタを共有(マルチテナント)する形に変わってきた。
- 権限管理が課題となる。
- Hadoopの認証
- Kerberos
- Hadoopの認可
- SentryのPolicy file管理を各部門の責任者に委譲できる。
- 今後、Policy fileのtoolが準備されてくる予定。
HDFSとHive/Impalaなど個別の権限を設定しないといけない。セキュリティはまだ技術的に過渡期な印象。
Hadoop用の標準GUI、Hueの最新事情
川崎 達夫 氏 (Cloudera)
- Hueの概要と歴史の紹介
- 新しいHueはVisualizationができるように!
- ディストリビューションは、Conferenceに来る人はもちろんGitHubから直接buildですよね。
- HueはClusterの外ではなく、内側に設置するべき。(意外)
- Network I/Oを結構使うらしい。
- 認証はDBやLDAP, OpenID, SAMLなどが使える。
- Demoなど。
- 今後、Sparkも統合していく。
HueがSolrを統合してDashboardを作れるようになっていたのは意外だった。
SQLによるバッチ処理とストリーム処理
田籠 聡 氏 (LINE)
- Streaming processingについて
- EsperによるStream処理の話。
- Norikraの紹介など
- Lambda architecture
- Hybrid processing
Stream processingのfault-torelanceや速報・確定値の為のHybrid processingの考え方が勉強になった。
Taming YARN: how can we tune it?
小沢 健史 氏 (NTT)
- YARNの構成要素
- Resouce Manager
- Node Manager
- Application Manager (MRv2, Impala, Presto, etc...)
- OOM-killerのようなContainer Killerとの戦いがある。
- Health check機能がある
- Tuning pointはたくさんある。
YARNはあまり知らなかったので、概要の説明などがありがたかった。YARNならではのノウハウが結構ありそう。
Apache Drill: Building Highly Flexible, High Performance Query Engines
M.C. Srivas 氏 (MapR)
- 自己表現型のデータが一般的になってきている。
- スキーマレス?
- Queryの中でDataSourceを指定。
- 複数のformatをSQLで結合可能。
- いずれかのNodeのDrillbitにqueryを投げてそこから分散。
- 4値セマンティックス
- repeatable?
他にもたくさんの内容があったが、英語のsessionで追い切れず。これからのProductという印象。
Evolution of Impala - Hadoop上の高速SQLエンジン、最新情報
嶋内 翔 氏 (Cloudera)
- C++で書かれた高速なMPP SQLエンジン
- ImpalaのArchitecture紹介
- catalogdはmetadateの変更を通知する。Hiveの変更は対応できない。
- COMPUTE STATSはETL処理の最後に実行するといい。
- 統計情報を収集して、実行計画などを改善。
- Impalaは多数のQueryの並列実行に強い
- 他のSQLエンジンに比べて、性能劣化が少ない。
スライドに詳しくかかれているので、実際の運用にも役立ちそう。Impala 2.0が待ち遠しい。
並列SQLエンジンPresto - 大規模データセットを高速にグラフ化する方法
古橋 貞之 氏 (Treasure Data)
- Prestoがあれば、HDFSのデータをRealtimeでVisualizationできる。
- Hiveを置き換えるものではなく、使い分ける。
- CassandraやMySQLにもqueryを投げられる。
- ArchitectureにはHA構成できるCordinatorがWorkerを起動して、Connector Pluginを通じてStorageからDataを持ってくる。
- 全体がPlugableな構成
- BI toolと連携するにはODBC or JDBCのsupportが必須
- PostgreSQLを経由してPrestoにアクセスする方法
- Monitoringがよく考えられていて、WebUIやHTTP APIなど。
- Impalaと比べると、速度はImpalaの方が早いが、プロセス自体が落ちるようなことはない。
- 運用がよく考えられている。
Prestoの概要を知ったのはこの場が初めてだったが、Impalaと合わせて使ってみたいProductだと感じた。