
LiteLLM 是一個開源的大型語言模型(LLM)統一訪問與整合工具,它作為 AI 網關,旨在透過標準化介面簡化對超過 100 種 LLM 的呼叫、管理與運維,降低多模型整合的複雜度。
LiteLLM 支援超過 100 個 LLM 提供商,包括 OpenAI、Anthropic、Google Gemini、AWS Bedrock、Azure OpenAI、Cohere、Mistral、Ollama 以及 Hugging Face 上的模型等。
LiteLLM 提供集中式的成本追蹤功能,可監控不同模型、專案與團隊的 Token 耗用與費用,支援設定預算警示與配額,並可透過請求快取與智慧路由來優化成本。
LiteLLM 提供靈活的部署方式,既可以透過 Python SDK 直接整合至程式碼中,也可以作為獨立的代理伺服器,透過 Docker、Helm 或 Terraform 在雲端或本地 Kubernetes 環境中部署。
如果應用固定使用單一模型供應商,導入 LiteLLM 可能會增加不必要的架構複雜度。它更適用於需要靈活使用多模型、進行集中治理或成本控管的中大型團隊和企業場景。
LiteLLM 具備智慧路由與故障轉移機制,當主模型不可用、達到速率限制或逾時,可以自動切換至預設的備援模型,以確保服務的連續性與韌性。