最近、生成AIについて読まない時間すらありません。ある人が第四次産業革命の「蒸気機関」と呼んだものの胚段階にいるにもかかわらず、「GenAI」が金融や医療、法律などほとんどすべての産業を変革する可能性が高いことは疑いの余地がありません。
一部の注目を集めるユーザー向けのアプリケーションは最も注目されるかもしれませんが、この革命を推進している企業が現在最も恩恵を受けています。たとえば、今月でチップメーカーのNvidiaは一時世界で最も価値のある企業になり、AIコンピューティングパワーの需要によって33兆ドル規模の巨大企業へと成長しました。
しかし、グラフィックス処理ユニット(GPU)に加えて、ビジネスはデータの流れを管理するためのインフラも必要としています — データの保管、処理、トレーニング、解析、そして、最終的にAIの全可能性を解き放つために。
このような状況を活用しようとしている企業の1つがOnehouseであり、Uberのデータアーキテクトを務めながら、オープンソースのApache Hudiプロジェクトを生み出したカリフォルニアのスタートアップです。Hudiはデータウェアハウスの利点をデータレイクにもたらすことにより、文字通り「データレイクハウス」として知られ、構造化、非構造化、または半構造化データなど、大規模データセットでのインデックス付けやリアルタイムクエリの実行をサポートすることを可能としています。
例えば、継続的に商品注文、フィードバック、および関連するデジタル相互作用をカバーする顧客データを収集するeコマース企業は、そのデータをすべて取り込み、最新の状態を保つシステムが必要となり、これによりユーザーの活動に基づいて商品の推奨ができるかもしれません。Hudiは、各種ソースから最小の遅延でデータを取り込み、削除、更新、および挿入(「upsert」)をサポートし、このようなリアルタイムデータユースケースにとって不可欠となっています。
Onehouseは、Hudiを展開するための完全管理型データレイクハウスを構築し、Chandarが語るように、「オープンデータフォーマットにインジェクションおよびデータの標準化を始めることができる」と表現した。「Onehouseは低レベルのデータインフラの構築を抽象化し、AI企業がモデルに集中できるように支援しています」とChandar氏はTechCrunchに語りました。
今日、Onehouseは、Hudiのパフォーマンスを向上させ、クラウドストレージおよび処理コストを削減するために、市場に2つの新製品を提供するとともに、3500万ドルのシリーズBラウンド調運を発表しました。
(データ)湖畔で
Chandarは、2016年にUber内でHudiを内部プロジェクトとして生み出し、その後、ライドヘイリング企業が2019年にApache Foundationにプロジェクトを寄付すると、HudiはAmazon、Disney、Walmartなどで採用されています。
Chandarは2019年にUberを去り、Confluentでの短期間の活動の後、Onehouseを設立しました。スタートアップは2022年にステルスモードから出てきて、800万ドルのシード資金調運を受け、その後間もなく2,500万ドルのシリーズAラウンドを達成しました。両ラウンド共同リード投資家はGreylock PartnersとAdditionでした。
これらのVCファームはシリーズBの後継ラウンドで再び力を合わせていますが、今回、David Sacks' Craft Venturesがラウンドをリードしています。
「データレイクハウスは、リアルタイム分析、予測ML、およびGenAIなどの新しいサービスを実現したい組織にとって、標準的なアーキテクチャへ急速に変化しています」とCraft VenturesのパートナーであるMichael Robinsonは声明で述べています。
コンテキストを示すと、データウェアハウスとデータレイクは、データプールの中央リポジトリとしての機能において似ています。しかし、それらは異なる方法でこれを行います。データウェアハウスは、過去の構造化データの処理とクエリ操作に最適ですが、データレイクは、オリジナル形式の大量の生データを保存するための柔軟性のある代替手段として登場し、複数のタイプのデータや高性能クエリのサポートを提供しています。
これにより、データレイクはAIおよび機械学習ワークロードに適しており、前処理済みの生データを格納することが安価であり、同時に、データをその元の形式で格納することでより複雑なクエリをサポートしています。
ただし、その代償として、新しい一連のデータ管理の複雑さがあり、多様なデータ型や形式の多さにより、データ品質が悪化し、一部はHudiが解決しようとする点でもあります。データウェアハウスのいくつかの重要な機能をデータレイクにもたらすことで、データの統合性と信頼性をサポートするACIDトランザクション、さらに多様なデータセットのためのメタデータ管理を改善しています。
Onehouseのウェブサイトにあるロゴを見ればわかりますが、いくつかの印象的なユーザーがおり、AWS、Google、Tencent、Disney、Walmart、Bytedance、Uber、Huaweiなどが挙げられます。しかし、これらの大手企業がHudiを内部で活用しているという事実は、オンプレミスのデータレイクハウスセットアップの一部としてそれを構築するために必要な取り組みやリソースの多さを示しています。
「Hudiはデータを取り込んで管理および変換するための豊富な機能を提供しますが、企業は本番用のデータレイクハウスの目標を達成するために約半ダースのオープンソースツールを統合する必要があります」とChandarが述べています。
これがOnehouseが完全管理型のクラウドネイティブプラットフォームを提供しており、データを取り込み、変換、最適化するのに通常の一部の時間で実珵を提供している理由です。
「ユーザーは、全ての主要なクラウドネイティブサービス、データウェアハウス、およびデータレイクエンジンと広範囲なインターオペラビリティを備えたオープンデータレイクハウスを1時間未満で立ち上げることができます」とChandar氏は述べています。
会社は、インドのユニコーンであるApnaなどのケーススタディに掲載されている商業顧客のリストを明らかにすることは控えています。
「若い会社として、現時点ではOnehouseの商業顧客のリスト全体を一般向けに公表しません」とChandar氏は述べています。
3500万ドルの新しい資金を手に入れたOnehouseは、さらに、Onehouse LakeViewと呼ばれる無料ツールを提供することで、湖畔機能に対する洞察を提供し、テーブル統計、トレンド、ファイルサイズ、タイムライン履歴などについて詳細を提供しています。これにより、軸が明確化され、必要に応じてクエリパフォーマンスを向上させるために、メールアラートが提供されます。
さらに、Onehouseは、既存のテーブルを最適化してデータの取り込みと変換を迅速化するマネージドクラウドサービスであるTable Optimizerという新製品も発表しています。
「オープンで相互運用性がある」
スペースの数々の大手プレーヤーを無視することはできません。DatabricksやSnowflakeなどが、データレイクハウスパラダイムをますます embraceしています。今月初めに、Databricksは、一般的なデータレイクハウススタンダードを作成するために、Tabularという会社を取得するために10億ドルを支払ったと報道されました。
Onehouseは確かにホットなスペースに進出していますが、ベンダーロックインを回避しやすくするために「オープンで相互運用性がある」システムに焦点を当てることで、時代の試練に耐えることを期待しています。要するに、データをどこでも、つまりDatabricks、Snowflake、Cloudera、およびAWSネイティブサービスなど、別個のデータシロを構築することなく普遍的にアクセス可能にする能力を約束しています。
NvidiaがGPU分野でのように、データ管理を担う企業に待ち受けている機会を無視することはできません。データはAI開発の土台となっており、十分な質のデータがないために多くのAIプロジェクトが失敗する主要な理由です。しかし、ザクザクのデータがある場合でも、そのデータを役立たせるために取り込み、変換、標準化するインフラが必要です。これはOnehouseおよび同様の企業にとって良い兆候です。
「データ管理や処理面から見ると、AIプロジェクトを現実のプロダクションユースケースに持っていくためには、しっかりとしたデータインフラストラクチャの土台で提供される良質なデータが重要な役割を果たすと信じています — ガベージイン/ガベージアウトデータ問題を回避するためのAIプロジェクトを本番環境で実現するだけのスケールでデータ処理およびクエリニーズが重要であると語りました」とChandar氏は述べています。