多くのスタートアップがこの分野に参入し、投資家が投資を行っていることから、ベクトルデータベースが大流行しています。大規模な言語モデル(LLM)や生成AI(GenAI)の動きは、ベクトルデータベース技術が繁栄するための肥沃な土壌を作り出しました。
一方、従来のリレーショナルデータベース(例:PostgresやMySQL)は、構造化データに適しています。つまり、行と列にきちんと整理された事前定義のデータ型ですが、これは画像、動画、メール、ソーシャルメディアの投稿などの非構造化データにはうまく対応できません。
一方、ベクトルデータベースは、テキスト、ドキュメント、画像などのデータを数値表現に変換するベクトル埋め込みの形式でデータを保存し処理します。これは、データ点間の意味や関係を捉えたもので、機械学習には最適です。データベースは各アイテムの関連度によってデータを空間的に保存しており、意味的に類似したデータを簡単に取得できます。
特に、OpenAIのGPT-4などのLLMには特に役立ち、AIチャットボットが以前の似たような会話を分析することで、会話の文脈を理解するのに役立ちます。ベクトル検索は、ソーシャルネットワークやeコマースアプリ内のコンテンツ推薦など、あらゆる種類のリアルタイムアプリケーションにも役立ちます。 ユーザーが検索したアイテムを見ることで、瞬時に類似のアイテムを取得することができます。
ベクトル検索は、LLMアプリケーションにおいて「幻影」を削減するのにも役立ち、元のトレーニングデータセットには利用できなかった追加情報を提供します。
ベクトル検索スタートアップQdrantのCEO兼共同創業者であるAndre Zayarniは、「ベクトル類似性検索を使用しなくても、AI / MLアプリケーションを開発することはできますが、より多くの再トレーニングと微調整が必要です」とTechCrunchに説明しました。「ベクトルデータベースは、大規模なデータセットがある場合や、数値埋め込みデータを効率的で便利に処理するツールが必要な場合に登場します。」
1月に、Qdrantは2800万ドルの資金調達をしたばかりで、昨年の成長に乗って、昨年トップ10の成長率の高い商用オープンソーススタートアップの1つになりました。そして、最近、Vespa、Weaviate、Pinecone、Chromaなどのベクトル提供企業が昨年合計2億ドルの資金調達を行いました。
今年に入ってから、Index VenturesがSuperlinkedに950万ドルのシードラウンドをリードし、複雑なデータをベクトル埋め込みに変換するプラットフォームに投資しています。そして数週間前、Y Combinator(YC)がWinter '24コホートを発表し、その中にはPostgres用のホストされたベクトル検索エンジンを販売するスタートアップLanternも含まれています。
他方、Marqoは去年末に440万ドルのシードラウンドを調達し、続く2月に1250万ドルのシリーズAラウンドを調達しました。Marqoプラットフォームは、ベクトル生成、保存、取得をすべて提供し、OpenAIやHugging Faceなどの第三者ツールを迂回し、すべてを単一のAPIで提供します。
Marqoの共同創業者であるTom HamerとJesse N. Clarkは、以前、Amazonのエンジニアリング職に就いており、テキストや画像などの異なるモダリティを横断して柔軟でセマンティックな検索の巨大な未解決需要を認識しました。そして、それが彼らが2021年にMarqoを設立するきっかけとなりました。
「Amazonでのビジュアル検索とロボティクスでベクトル検索を実際に見たとき、私は新しい製品発見の方法について考えており、それは非常に迅速にベクトル検索に収束しました」とClarkはTechCrunchに語りました。「ロボティクスでは、エラントなホースやパッケージなどの画像を検索しました。これらは解決が非常に難しい問題だったでしょう。」
エンタープライズ参入
AIのChatGPTやGenAI運動の中で、ベクトルデータベースは一時期注目を集めていますが、すべてのエンタープライズ検索シナリオにとって万能なわけではありません。
データベースサポートおよびサービス会社Perconaの創業者であるPeter Zaitsevは、「専用データベースは特定の用途に完全に焦点を当てており、必要なタスクのパフォーマンスや、現在の設計に適合させるためのユーザーエクスペリエンスを設計できるため、汎用データベースよりも優れています」とTechCrunchに説明しました。
専用データベースは一つのことに秀でているかもしれませんが、これがElastic、Redis、OpenSearch、Cassandra、Oracle、MongoDBなどのデータベースの主要企業や、MicrosoftのAzure、AmazonのAWS、Cloudflareなどのクラウドサービスプロバイダーがベクトルデータベース検索機能を追加している理由です。
Zaitsevは、この最近のトレンドを、JSONが10年以上前にどうなったかと比較しています。Webアプリケーションがより普及するようになり、開発者が人間が読み書きしやすい言語に依存しないデータ形式が必要としたときに、ドキュメントデータベースなどの新しいデータベースクラスが登場しました。既存のリレーショナルデータベースもJSONサポートを導入しました。
「ベクトルデータベースでも同様のことが起こると思います」とZaitsevはTechCrunchに語りました。「非常に複雑で大規模なAIアプリケーションを構築しているユーザーは、専用のベクトル検索データベースを使用し、既存のアプリケーションに少しのAI機能を追加する必要があるユーザーは、既存のデータベース内でベクトル検索機能を使用する可能性が高いでしょう。」
しかし、ZayarniとそのQdrantの同僚は、ベクトルデータが爆発するときに、ベクトルに完全に組み込まれたネイティブなソリューションが、ベクトル検索をあとから取り付ける企業よりも必要な「速度、メモリセーフティ、規模」を提供すると賭けています。
「彼らの提案は、『必要ならベクトル検索もできます』というものです」とZayarniは述べました。「一方、私たちの提案は、『最良の方法で高度なベクトル検索を行います』です。すべては専門化に関わることです。実際には、お使いのテックスタックにすでにあるデータベースから始めることをお勧めします。ベクトル検索がソリューションの重要な要素である場合、ある時点でユーザーは制約に直面するでしょう。」