AI推論の効率化を推進するTensormeshが450万ドルを調達
AIインフラへの投資が莫大な規模に達する中、GPUから可能な限り多くの推論を引き出すことへのプレッシャーが高まっています。この状況下で、特定の技術に専門知識を持つ研究者にとって、資金調達の好機が訪れています。この流れに乗って、Tensormeshはステルスモードから脱却し、450万ドルのシード資金調達を発表しました。この投資はLaude Venturesが主導し、データベースのパイオニアであるMichael Franklin氏からもエンジェル資金が提供されています。
LMCacheとは何か?AIインフラの課題解決へ
Tensormeshは、共同創設者であるYihua Cheng氏が立ち上げ、維持してきたオープンソースユーティリティLMCacheの商用版を構築するためにこの資金を使用します。LMCacheを適切に活用することで、推論コストを最大10分の1に削減できる可能性があり、その強力な機能はオープンソースのデプロイメントで広く利用され、GoogleやNvidiaといった大手企業との統合も実現しています。Tensormeshは、この学術的な評価を基盤に、実行可能なビジネスへと発展させることを計画しています。
KVキャッシュの革新的な再利用で性能向上
この技術の核心は、複雑な入力をより効率的に処理するために、それらを主要な値に凝縮するメモリシステムであるキーバリューキャッシュ(KVキャッシュ)にあります。従来のアーキテクチャでは、KVキャッシュは各クエリの終了時に破棄されていました。しかし、TensormeshのCEOであるJuchen Jiang氏は、これが莫大な非効率性の源であると指摘します。「それは、非常に賢いアナリストがすべてのデータを読み込んでも、質問ごとに学んだことを忘れてしまうようなものです」と、Tensormeshの共同創設者であるJunchen Jiang氏は述べています。
Tensormeshのシステムは、このキャッシュを破棄する代わりに保持し、モデルが別のクエリで同様のプロセスを実行する際に再利用できるようにします。GPUメモリは非常に貴重であるため、これはデータを複数の異なるストレージ層に分散させることを意味しますが、その見返りとして、同じサーバー負荷で大幅に多くの推論能力が得られます。
会話型AIやエージェントシステムへの影響
この変更は、特にチャットインターフェースにおいて強力な効果を発揮します。モデルは会話が進むにつれて、増え続けるチャットログを継続的に参照する必要があるためです。エージェントシステムも同様の問題を抱えており、アクションと目標のログが増大していきます。
複雑な技術課題を解決し、市場の需要に応える
理論的には、AI企業はこれらの変更を自社で実行できますが、その技術的な複雑さは非常に困難な課題となります。Tensormeshチームがこのプロセスを研究し、その詳細を深く理解していることを踏まえ、同社はすぐに使える製品に対する大きな需要があると確信しています。「KVキャッシュを二次ストレージシステムに保持し、システム全体の速度を低下させることなく効率的に再利用することは、非常に困難な問題です」とJiang氏は語ります。「私たちは、20人のエンジニアを雇い、3〜4ヶ月を費やしてそのようなシステムを構築する企業を見てきました。しかし、彼らは私たちの製品を使用すれば、非常に効率的にそれを行うことができます。」
