- Top
- > キーワード
- > AWS
- > Amazon EMR
Amazon EMRについて
一言で言うと、AWSの内部でHadoopを動かせる環境を提供してくれるサービスです。ここで出てきたHadoopとは「大規模データの分散処理を支えるJavaソフトウェアフレームワーク」です。AWSでビックデータフレームワーク(ApacheHadoopやApacheSpack)の実行を簡単にし、大量のデータを処理及び分析するマネージド型クラスタープラットフォームです。これを使用することにより、大量のデータを変換し、AmazonS3やAmazonDynamoDBなどのAWSデータストア及びデータベースに移動することが可能です。
メリット
AmazonEMRのメリットとして、使いやすさが挙げられます、アナリスト、データエンジニア、データサイエンティストは、EMRNotebooksを使用して個人やチームで簡単に共同開発しデータの処理や探索を対話しながら進めれます。また低コストでもあり、1秒ごとに課金され最小課金時間は1分、10ノードのEMRクラスターの運用をわずか0.15/USD時間で開始できます。その他にも信頼性やセキュリティの面でもメリットが多々あります。
使い所
大規模なデータ(ビックデータ)などに対して、ある条件にそって抽出や集計をしたいとき、処理に時間が膨大にかかってしまう場合などでしょう。またはDBに直接負担をかけたくない時、抽出するデータに繊細な加工を行う場合などです。
特徴
分散処理基盤
EMRはHadoopクラスタの構築と運用を行ってくれます。Hadoopクラスタに利用するEC2インスタンスのノード数(接続数)とインスタンスタイプを指定すると、10分ほどでHadoopクラスタを構築してくれます。Hadoopクラスタで構成するEC2インスタンスに異常があれば、異常のあったインスタンスは破棄して新規にインスタンスを起動してくれます
分散アプリケーション
Hadoopクラスタ上で分散アプリケーションを実行することができます。EMRを利用することで前述のような分散アプリケーションを対話的に利用することもできますし、バッチジョブとして実行することもできます。バッチジョブの場合はStepという形でEMRのAPIを利用することでジョブの登録と実行を行うことができるようになっています。