
LiteLLM 是一个开源的大型语言模型(LLM)统一访问与集成工具,它作为 AI 网关,旨在通过标准化接口简化对 100 多种 LLM 的调用、管理和运维,降低多模型集成的复杂度。
LiteLLM 支持超过 100 个 LLM 提供商,包括 OpenAI、Anthropic、Google Gemini、AWS Bedrock、Azure OpenAI、Cohere、Mistral、Ollama 以及 Hugging Face 上的模型等。
LiteLLM 提供集中的成本跟踪功能,可以监控不同模型、项目和团队的 Token 消耗与费用,支持设置预算告警和配额,并可通过请求缓存和智能路由来优化成本。
LiteLLM 支持灵活的部署方式,既可以通过 Python SDK 直接集成到代码中,也可以作为独立的代理服务器,通过 Docker、Helm 或 Terraform 在云端或本地 Kubernetes 环境中部署。
如果应用固定使用单一模型提供商,引入 LiteLLM 可能会增加不必要的架构复杂度。它更适用于需要灵活使用多模型、进行集中治理或成本控制的中大型团队和企业场景。
LiteLLM 具备智能路由和故障转移机制,当主模型不可用、达到速率限制或超时时,可以自动切换至预设的备用模型,以保障服务的连续性和韧性。