レック・テクノロジー・コンサルティング株式会社TECH BLOG

【AWS re:Invent 2025参加レポート】個別セッションレポート「AWSデータ処理最新事情」

IMG_3096.JPG

AWS re:Invent 2025の個別セッション「Innovations in AWS analytics: Data processing (ANT305)」で、AWSのデータ処理サービスのアップデートが紹介されていました。データエンジニアリング部の一員として気になる内容が多かった本セッションについて、主要なアップデートを中心にご紹介します。

本セッションでは、AWSのデータ分析サービス(Glue、EMR、Athena、Redshift)における最新の技術革新に焦点が当てられていました。主なテーマとして、Amazon EMRおよびEMR Serverlessの機能強化、AIエージェント機能、データレイクの新しい標準であるIceberg v3のサポート、利便性向上とガバナンスの強化が挙げられています。

圧倒的な価格性能とEMR Serverlessの進化

AWS Sparkのパフォーマンスは、オープンソースのSparkのパフォーマンスを大きく上回っています。全体で4.5倍、書き込みにおいては2倍優れており、最新のイノベーションであるSpark 4.0を使用した場合、5.4倍優れているとのことです。Sparkエンジンが高速になることで、SLA目標をより達成しやすくなり、コンピューティングジョブが早く完了するため、コスト削減も実現できます。

また、EMR Serverlessでは、業界初の試みとして、Sparkワークロードのためのローカルディスクプロビジョニングを完全に不要にするサーバーレスストレージが導入されました。主な特徴は以下の通りです。

  • シャッフルのオフロード:シャッフルデータを高性能ストレージレイヤーにオフロード
  • 効率性向上:ディスク容量不足によるジョブの失敗や、ディスクI/Oによるジョブの速度低下解消
  • コスト削減:ローカルストレージの費用が不要に

AIエージェントによるエンジニアリングの自動化

IMG_3106.JPG

データエンジニアにとって最も困難な問題の1つであるSparkランタイムのアップグレードを解決するためのツールとして、Sparkアップグレード用AIエージェントが登場しました。

Sparkランタイムのバージョンアップグレードは、データエンジニアにとって非常に難しい課題です。最新のデータレイクのイノベーションは最新のSparkランタイムに依存していますが、アップグレードにはコードの互換性だけでなく、データの一貫性の問題も伴いうため、通常はデータエンジニアがエラーメッセージを確認しながらコード編集を繰り返す必要があります。

Sparkアップグレード用AIエージェントは、このSparkアップグレード作業を自動化します。プロジェクトの構造を理解してアップグレード計画を作成し、計画を実行し、エラーのトラブルシューティングも自分で行います。アップグレードに成功した場合、データ品質のチェック(スキーマ、カラム、データサイズなどが一致するか)も行います。

※自動化はされていますが、ガードレールが機能しており、プロセス全体をコントロールすることが可能です。一部を自分で実行することも、完全に任せることもできるようになっています。

このAIエージェントを利用することで、通常は数か月かかる作業が数週間で完了できるようになります。

データレイクの標準化:Icebergとマテリアライズドビュー

Apache Icebergはデータレイクを構築するための標準として台頭しています。Icebergの主な利点は、Icebergでデータレイクを構築すれば、どのエンジンからでもそのデータレイクをクエリできる点です。

EMR Sparkランタイム7.12で最新のIceberg v3がサポートされました。これにより、削除ベクトル(削除対象データに印を付け、実ファイルは上書きしないことで更新処理を最適化する機能)や行リネージ(テーブルの行レベルの変更追跡機能)といった機能が利用可能となっており、データレイクの構築と保守が効率化されます。

また、新たに発表されたIcebergマテリアライズドビューは、SQLの実行結果をIcebergテーブルとして定義します。これはクエリを自動的に高速化するだけでなく、ETLパイプラインやスケジューリングの設定を必要とせず、定義された頻度またはデータが利用可能になったタイミングで増分リフレッシュが可能です。

各種サービスの利便性向上

データ処理における各種サービスの利便性が大幅に向上されました。

SageMaker Notebooks

SageMaker Notebooksは、Glue、EMR、Athenaのユーザーにとっての新しい最新のUIフロントエンドです。ここではSQL、Python、Sparkといった言語を選択でき、Spark Connectを利用して、Pythonから大規模なSparkワークロードにシームレスにスケーリングできます。

SageMaker Data Agent

このノートブックインターフェースに埋め込まれたAIエージェントは、データカタログとビジネスメタデータを理解し、適切なSpark SQLやPySparkコードを生成できます。さらに、自然言語の質問に対して、データ可視化のためのPythonコードや、特定の成果を達成するためのノートブック全体(セルが埋まった状態)を生成することも可能です。

MWAA Serverless

データオーケストレーションで広く利用されるManaged Workflows for Apache Airflow (MWAA)も完全にサーバーレスデプロイメントで提供され、無制限のキャパシティと従量課金制を実現しています。

エンタープライズ向けのガバナンスとセキュリティ強化

エンタープライズの顧客にとって重要なセキュリティとガバナンスに関して、アクセス制御のイノベーションが進んでいます。

きめ細かなアクセス制御(Fine-Grain Access Control)の強化

Lake Formationを通じて設定される、カラム、行、セルレベルのきめ細かなアクセス制御が、EMR 7.12およびGlue 5.1以降でIceberg、Delta、Hoodieテーブルに対する書き込み操作もサポートするようになりました。

IDの信頼性伝播

IAM Identity Centerを通じて、ユーザーがActive DirectoryやOktaなどの確立されたIDプロバイダで認証したIDを、SageMaker Unified StudioからEMRやGlueジョブまでエンドツーエンドで追跡・伝播できるようになりました。これにより、ユーザーのIDに基づいたアクセス制御が可能になり、コンプライアンス要件を満たしやすくなります。

まとめ

価格性能、AI機能、利便性、セキュリティなど多方面でのアップデートがありました。全面的な機能アップデートにより、EMR等を中心としたデータ処理ワークロードの移行や新規構築のハードルがさらに下がっているように思います。

個人的に、最後に紹介されたNetflixのEMR移行事例も印象的な内容となっていました。Netflixは、EMRが隔離性、改善されたセキュリティ、頻繁なリリース、運用オーバーヘッドの削減、そしてS3やIAMなどのAWSサービスとの優れた統合を提供していることから、7年以上にわたり自社で最適化したSparkプラットフォームからEMRへの移行を決定したそうです。

世界最大規模のデータをもつ企業のニーズさえも満たす価値を提供する、AWSのデータ処理サービス。今後のさらなる進化が期待されます。

Careersキャリア採用

ページトップへ戻る