Ragasは、検索強化生成(RAG)システムの性能を自動評価・監視・向上するオープンソースの評価フレームワークで、開発者が主観的な検査から、体系的で定量化可能な評価プロセスへ移行するのを支援します。
Ragasは検索と生成の2軸から評価します。コア指標には文脈精度、再現率(リコール)、関連性、そして回答の忠実度と関連性を含み、RAGシステムの主要な品質ポイントを網羅します。
RagasはLangChain、LlamaIndexなどの主流のRAGフレームワークと統合をサポートします。pipでのインストールが可能で、公式ドキュメントとAPIを参照して既存のプロジェクトに迅速に導入し、評価を行えます。
評価には、ユーザーの質問、システムが生成した回答、検索された文脈、任意の標準回答を含むデータセットを作成する必要があります。データの対応関係を厳密に保ち、具体的なフォーマットは公式ドキュメントを参照してください。
Ragasのコアフレームワークはオープンソースで、GitHubから入手可能です。チームは企業向け機能、コラボレーション、有料のコンサルティングサービスも提供しており、詳細は公式サイトからお問い合わせください。
Ragasは、RAGシステムの構築・最適化・展開を行う開発者、アルゴリズムエンジニア、研究チーム、企業など、客観的で再現性のあるLLMアプリケーションの性能評価を必要とする場面に特に適しています。

Future AGI は、企業向けの LLM 可観測性と評価最適化プラットフォームで、開発者と企業が AI アプリケーション(特にエージェント型アプリ)の正確性・信頼性・性能を向上させることを支援します。構築・評価・最適化・観測機能を一体化したプラットフォームで、自動化ツールを通じて高精度な AI アプリケーションの開発・デプロイサイクルを加速することを目指します。