このドイツの非営利団体は、誰でも利用できるオープンな音声アシスタントを構築しています

オープンソースのAIパワード音声アシスタントの試みは多岐にわたります(例:Rhasspy、Mycroft、Jasperなど)。すべてがプライバシーを守り、オフラインで機能に妥協しないことを目標として確立されています。しかし、開発は非常に遅れています。通常のオープンソースプロジェクトに伴うすべての通常の課題に加えて、アシスタントのプログラミングは困難です。Googleアシスタント、Siri、Alexaなどの技術には、数十年にわたる研究開発と膨大なインフラがあります。

しかし、これが、世界で最も人気のあるAIトレーニングデータセットを維持するドイツの非営利団体であるLAIONが行っている人々を抑えることはありません。今月、LAIONは、消費者向けハードウェアで動作できる「完全にオープン」な音声アシスタントを構築しようとする新しい取り組み、BUD-Eを発表しました。

現在の離婚率が高い状態で、他にも多数の放棄された状態である音声アシスタントプロジェクトがあるにもかかわらず、なぜ新しい音声アシスタントプロジェクトを立ち上げたのか? Ellis Instituteのフェローであり、BUD-Eの貢献者であるWieland Brendelは、新興のGenAI技術、特にOpenAIのChatGPTのような大規模な言語モデル(LLM)を最大限に活用できるように拡張可能なアーキテクチャのオープンアシスタントが存在しないと考えています。

「[アシスタント]とのほとんどのやり取りは、非常に使いにくいチャットインターフェイスに依存しており、そのシステムとの対話はぎこちなく不自然に感じます」とBrendelはTechCrunchとの電子メールインタビューで述べました。「これらのシステムは、音楽を制御したりライトを点けたりするための命令を伝えるためには適していますが、長くて魅力的な会話の基礎にはなりません。BUD-Eの目標は、人間らしい音声アシスタントの基礎を提供し、人間の対話の自然なスピーチパターンを模倣し、過去の会話を覚えることができるものです。」

Brendelは、LAIONもBUD-Eのすべてのコンポーネントを、将来的にはアプリやサービスとライセンスを問わずに統合できるようにしたいと述べています。これは他のオープンアシスタントの取り組みに当てはまらないことかもしれません。

Tübingenのエリス研究所、テックコンサルタントのCollabora、およびTübingen AIセンターとのコラボレーションを通じて、BUD-Eは「理解とデジタル共感の仲間」というリカーシブの略称である野心的なロードマップを持っています。ブログ記事で、LAIONチームは、最近の数か月で達成したいこと、主にBUD-Eに「感情の知能」を構築し、複数の話者を含む会話に対応できるようにすることを述べています。

「よく機能する自然な音声アシスタントには大きな需要があります」とBrendelは述べています。「LAIONはこれまでコミュニティの構築に注力しており、エリス研究所テュビンゲンとTübingen AIセンターは、アシスタントの開発に必要なリソースを提供することを確約しています。」

BUD-Eは起動しており、今日GitHubからUbuntuやWindows PCにインストールできます(macOSは近日公開予定)が、明らかに初期段階にあります。

LAIONは、MicrosoftのPhi-2 LLM、Columbiaのテキスト読み上げStyleTTS2、Nvidiaの音声からテキストへの変換にFastConformerを含む、いくつかのオープンモデルを組み合わせてMVPを組み立てました。そのため、体験は最適化されていません。GoogleアシスタントやAlexaなどの商用音声アシスタントのように、BUD-Eが約500ミリ秒以内にコマンドに応答するようにするには、NvidiaのRTX 4090のようなパワフルなGPUが必要です。

Collaboraは、オープンソースの音声認識とテキスト読み上げモデル、WhisperLiveとWhisperSpeechをBUD-Eに適応するために無報酬で作業しています。

「テキスト読み上げと音声認識のソリューションを自分たちで構築することで、クローズドモデルをAPI経由で提供されるよりも、カスタマイズできるところまでカスタマイズできる」と、CollaboraのAI研究者でBUD-EチームメンバーのJakub Piotr Cłapaは電子メールで述べています。「Collaboraは、[オープンアシスタント]で始めた作業を進めてきました。当初、私たちは顧客のためにマイクロフォンベースの音声エージェント用の良好なテキスト読み上げソリューションを見つけるのに苦労しました。幅広いオープンソースコミュニティと連携して、モデルをより広くアクセス可能で有用にすることを決定しました。」

近い将来には、LAIONはBUD-Eのハードウェア要件を軽減し、アシスタントの待ち時間を短くするために取り組むと言います。より長期的な目標は、BUD-Eを微調整するためのダイアログデータセットを構築すること、および前回の会話から情報を格納できるメモリメカニズム、および一度に複数の話者の会話を追跡できる音声処理パイプラインを構築することです。 

私は、言語が英語でない場合や、トランスアトランティックでないアクセントの場合、過去に音声認識システムが十分に機能しなかったことを考えると、アクセシビリティが優先事項であるかどうかチームに尋ねました。スタンフォード大学の研究によると、Amazon、IBM、Google、Microsoft、Appleの音声認識システムは、同じ年齢と性別の白人スピーカーに比べて、黒人スピーカーを誤認識する可能性がほぼ2倍でした。

Brendelは、LAIONはアクセシビリティを無視していないが、BUD-Eにとっては「直ちに焦点が当てられていない」と述べました。

「最初の焦点は、私たちが音声アシスタントとやりとりする体験を再定義することに置かれています。その体験を多様なアクセントと言語に一般化する前に、」Brendelは述べました。

それを踏まえ、LAIONは、BUD-Eに関する非常に斬新なアイデアを持っており、アニメーションされたアバターやアシスタントの擬人化から、ユーザーの感情状態を考慮するためにWebカメラを介して顔を分析するサポートまでさまざまです。

最後の部分、つまり顔の分析に関する倫理は少し微妙ですが、Robert Kaczmarczyk、LAIONの共同設立者は、LAIONが安全を確保することに取り組んでいくと強調します。

「[私達]は、欧州連合AI法によって定められた安全で倫理的なガイドラインに厳密に従います」と、EUにおけるAIの販売と利用を規定する法的枠組みを指すKaczmarczykはTechCrunchにメールで述べました。EU AI法では、感情分類器を含む「高リスク」AIに対するより厳格なルールと保護を採用することができるようになります。

この透明性へのコミットメントは、早期に潜在的な偏見を発見して修正することを容易にするだけでなく、科学的な整合性を実現するための研究の支援にも役立ちます」とKaczmarczykは付け加えました。私たちのデータセットをアクセス可能にすることで、より広範な科学界が再現性の最高水準を保つ研究に従事できるようにしています。」

LAIONのこれまでの作業は倫理的な意味で完全ではありませんでしたし、現在は感情検出に関するやや論議のある別のプロジェクトに取り組んでいます。しかし、おそらくBUD-Eは異なるでしょう。待ってみる必要があります。