DATA MANAGEMENT
予期せぬコストが発生しない最新のAI対応データレイク
AIは今や、単にデータ量を増やすだけではありません。チーム内の既存データをいかに迅速に活用できるかという期待も高める存在となっています。現代のワークロードでは、データは整理されたエクスポート形式で届くことも、300ページのPDFで届くこともあります。また、もともと分析用途に設計されていない素材(ログ、クリックストリーム、文字起こし、画像、動画、ドキュメント、社内ナレッジなど)も含めて、全データにオンデマンドでアクセスできることが求められます。
この現状に対応すべく、多くの組織がデータレイクをストレージ基盤として採用しています。データレイクとは、構造化データ、半構造化データ、非構造化データといったさまざまな形式のデータを、そのままの形で大量に保存できる中央集約型のリポジトリです。従来のメリットとしては、低コストである点や、柔軟性を維持し、処理方法を後から決められるという点が挙げられます。
しかし、AI時代が到来し、このモデルは変化しています。データレイクは単なる保管場所ではなく、分析・機械学習・RAG(検索拡張生成)に活用するための共通データ基盤へと進化しました。現在、データはより頻繁に再利用され、より多くのワークロードからアクセスされ、モデルに文脈を提供するために小さな単位で取り出されています。このとき、ストレージ層で摩擦(読み取りの遅さ、階層化による遅延、予測できない料金)があると、下流のすべてのワークフローに影響が及びます。データにアクセスしにくければ、活用も難しくなります。
本ブログでは、AI対応のデータレイクについて考察し、ストレージとコンピューティングを単一のシステムとして機能させる連携方法と、実際の本番環境におけるこのアプローチの活用について解説します。
AI対応のデータレイクに求められるものとは?
AI対応のデータレイクには、10年前のデータレイクとは異なる基準が求められます。つまり、単にデータを保存するだけでなく、クエリや変換が可能であり、大規模環境でもコスト効率よく利用できることが求められます。これにより、コストや遅延の問題に悩まされたりすることなく、データの探索、トレーニング、取得を行うことができるようになります。
AI対応のデータレイクを本当の意味で実現するには、いくつかのポイントを押さえる必要があります。
あらゆるデータタイプに対応する単一の記録システム:構造化データ、半構造化データ、非構造化データを一箇所に保存できること。これにより、個別のストレージサイロを維持する必要がなくなります。
利便性を確保するメタデータとガバナンス層:データが検索や追跡ができる状態で、適切に管理されること。チームやワークフローを横断してデータを活用するためには、適切なメタデータ管理が不可欠です。
その場でアクセスし、分析およびAIワークフローに活用できる状態:データのコピーや移動の際に遅延を発生させず、データに対して直接クエリや変換を実行できること。
日常的な運用におけるコストの予測可能性:AIワークフローは従来のシステムよりも頻繁にデータにアクセスするため、データの読み取り、スキャン、転送、復旧やテストの実施にかかるコストを予測可能な範囲に抑えられること。
これらは、現代のワークロードに合わせて拡張可能なデータレイクを構築するための基礎となります。次のステップは、ワークロードの進化に合わせてデータが容易にアクセスおよび処理可能な状態を維持できるよう、適切なストレージ層とコンピューティング層を備えた設計をすることです。
ストレージ層としてのWasabi Hot Cloud Storage
AIワークロードがデータレイクを活用し始めると、ストレージはアーキテクチャ全体の基盤となります。ストレージが高コストであったり、一貫したセキュリティ確保が難しかったり、頻繁な読み取りやテストによって予測できないコストが発生したりすると、チームは回避策に頼らざるを得なくなり、データレイクを大規模に運用しにくくなります。
こういった状況に対して理想的な基盤となるのが、Wasabi Hot Cloud Storageです。本製品ではアクセスとコスト管理をシンプルに保ちつつ、ガバナンスやリカバリに必要な制御機能を利用できます。
データ再利用時に役立つ予測可能な料金体系:容量ベースの価格設定で、下り転送料やAPIリクエスト料が発生せず、日常的な読み取り、スキャン、転送、検証ワークフローのコストが予測しやすい状態になります。AIの普及によりデータへのアクセス頻度が高まる中で、この点は大きなメリットとなります。
耐久性と運用信頼性を重視した設計:データレイクの主要な基盤として、オブジェクトストレージは「アーカイブ優先」ではなく、長期保存と日常的なアクセスパターンに対応できるよう構築されています。
ガバナンスを支えるセキュリティとレジリエンス:強力なアクセス制御、暗号化、イミュータブル機能により、規制対応やランサムウェア対策を支援します。また、Covert Copy機能によって、攻撃者の検知を回避しつつ不変コピーを作成し、復元可能な状態を維持します。
WasabiとSnowflakeの連携により、分析とAI対応に役立つ統合アーキテクチャを実現
ストレージ基盤の次は、コンピューティング層を整えます。これは、レイクデータを効率的にクエリおよび変換できる分析・AIプラットフォームを指します。ここで重要となるのが、S3互換性です。これにより、標準的なオブジェクトストレージインターフェースを介して接続し、データを移動させることなく分析やAIサービスを実行できるようになります。
Snowflake(英語)はこの役割を担い、外部ステージを介してWasabiに接続しながら、データの移行や複製を行うことなく、構造化・半構造化・非構造化ファイルに直接アクセスできるようにします。
このアーキテクチャでは、生の運用データ、ログ、ドキュメント、エクスポートデータが長期的なシステム記録として保存されます。分析およびAIプラットフォームは、安全なオブジェクトインターフェースを通じてこれらのデータにアクセスし、直接クエリを実行して、追加のガバナンスやパフォーマンスの最適化が必要な部分のみを抽出して処理します。
その結果、分析、機械学習、AIアプリケーションが同じデータ基盤を共有する統合システムが実現します。データのコピーや階層移動、重複が不要となり、運用はシンプルになり、新しいワークロードにも柔軟に対応できるようになります。
ドキュメントをAI対応のナレッジに変換
データレイクの基盤が整うと、非構造化コンテンツも重要なデータ資産になります。レポート、仕様書、ログ、コンプライアンス関連資料などのドキュメントはレイク内に保存されたまま、分析やAIシステムで処理できる構造化データに変換されます。
ドキュメント処理サービスはこれらのファイルからテキストと構造を抽出し、検索・取得サービスはその内容をキーワード検索と意味検索の両方に対応できるようインデックス化します。こうして、ドキュメントはもはや静的な資料ではなく、分析、発見、AI対応アプリケーションを支える検索・分析可能なデータとなり、統合されたナレッジ層が実現します。
Wasabi内におけるアーキテクチャの活用例
Wasabiでは、このアーキテクチャを自社の分析およびナレッジ管理に活用しています。請求システム、APIログ、プラットフォームのテレメトリから得られる運用データは、Wasabi Hot Cloud Storageに記録システムとして保存されます。Snowflakeが外部ステージを通じてこれらのデータに接続し、変換処理を行い、利用状況、パフォーマンス、顧客動向をほぼリアルタイムで可視化するダッシュボードを提供します。
PDF、ログ、技術文書などの非構造化コンテンツに対しても、同様のアーキテクチャが適用されます。ファイルはWasabiのバケットに保存され、Snowflakeが構造化し、Cortex Searchによって検索可能になります。これにより、社内チームは「過去四半期の地域別API利用動向を表示して」や「オブジェクトの耐久性に関する最新のコンプライアンスレポートを検索して」といった質問を自然言語で行うことができます。
次世代のデータレイクに役立つWasabi Fire
Wasabi Hot Cloud Storageは、大規模分析やデータ保存に最適な性能を発揮します。また、今後登場予定のストレージクラスであるWasabi Fireは、この基盤をさらに拡張し、より高いパフォーマンスでリアルタイムかつ低遅延のシナリオに対応します。
Wasabi Fireは、以下のような用途に適しています。
リアルタイムのIoTおよびテレメトリデータ処理
低遅延アクセスが求められるAI・機械学習の学習および推論
エッジコンピューティングやイベント主導の分析
HotとFireの両ストレージクラスを統合することで、コスト最適化された分析からリアルタイム処理まで、単一のストレージ基盤で対応できるようになります。
AI対応のデータレイクへの実践的なアプローチ
現代のデータレイクは、今や分析とAI戦略の中核をなしています。そのため、大量のデータを格納しながら、より多くのワークロード・モデル・ビジネス要件の変化に柔軟に対応することが求められます。それと同時に、コストや運用負担が過大にならないことも重要です。
コストが予測可能で常時アクセス可能なストレージと、データレイク上で直接処理を実行できるコンピューティング機能を組み合わせることで、組織は以下のメリットを得ることができます。
すべてのデータタイプに対応する大規模なデータ拠点
分析とAIに役立つ統合データ基盤
完全な検索機能とモデル対応を備えたドキュメント層
実験を制限するのではなく促進させるコスト構造
これにより、チームの実際の働き方に適した、現代的でAI対応のデータレイクが実現します。つまり、オンライン上のデータ量を増やし、より多くのワークロードを実行しながら、毎月の予期せぬ出費を最小限に抑えることが可能になるのです。
このアプローチを採用する場合、標準的なSnowflakeとS3互換機能を用いて、以下のような手順でセットアップを進められます。
外部ステージを使用してストレージをSnowflakeに接続し、メタデータを更新する
ガバナンス要件に応じて外部テーブルでオブジェクトをカタログ化する
Document AIを使用してドキュメントを解析し、抽出されたコンテンツをJSON形式で保存する
解析されたテキストをチャンク単位に分割し、ベクトル対応テーブルに格納する
Cortex Searchを使用してチャンクデータをインデックス化し、ハイブリッド検索を可能にする
SQL、Cortex関数、またはSnowpark APIを介してクエリを実行する
エージェントやアプリケーションと統合し、自然言語によるアクセスやワークフロー連携を実現する
参考として、SQLの例を以下に示します:
CREATE OR REPLACE STAGE docs_stage
URL = 's3compat://<wasabi-bucket-name>/'
ENDPOINT = 's3.<region>.wasabisys.com'
CREDENTIALS = (
AWS_KEY_ID = '<AKIA...>'
AWS_SECRET_KEY = '<SECRET>'
);
ALTER STAGE docs_stage REFRESH;
CREATE OR REPLACE TABLE ai_ingest.raw_docs AS
SELECT PARSE_JSON(
AI_PARSE_DOCUMENT(
'@docs_stage',
relative_path,
OBJECT_CONSTRUCT('mode', 'LAYOUT', 'page_split', TRUE)
)
) AS parsed
FROM DIRECTORY(@docs_stage)
WHERE relative_path ILIKE '%.pdf';
See the architecture in actionアーキテクチャの詳細を見る
WasabiとSnowflakeのソリューション概要では、統合アーキテクチャ、主なメリット、運用環境での活用方法についてご確認いただけます。
&w=1200&q=75)