Home avatar

意琦行的个人博客

关注微信公众号【探索云原生】一起探索云原生~

搭建你的 AI 模型服务平台:这个开源项目帮你搞定聚合、计费、运营

new-api.png

你是否遇到过这样的困扰:手头有 OpenAI、Claude、本地部署的多个 AI 模型:

  • 每个都要单独管理 API Key;
  • 团队成员都在用,却无法追踪谁用了多少、花了多少钱;
  • 想把这些能力开放给外部用户并收费,却苦于没有现成的计费系统?

New API 就是来解决这些问题的。

New API 是什么?

Next-Generation LLM Gateway and AI Asset Management System

New API 是新一代 AI 基座平台,为您的 AI 应用提供统一的基础设施。承载所有 AI 应用,管理您的数字资产,连接未来的统一接口平台。

核心特性:

  • 统一接口:一个 API 端点接入所有 AI 服务,兼容 OpenAI 标准格式
  • 智能路由:多渠道负载均衡、故障自动切换、加权随机分发
  • 精细计费:支持按次数/按量计费、预付费充值、多倍率配置
  • 安全管控:令牌权限管理、模型访问控制、API 调用审计
  • 数据洞察:实时数据看板、用量统计、成本分析
  • 多租户架构:完美适配个人开发者、团队协作与企业级部署

技术架构:

technical-architecture.svg

LiteLLM:打造统一 AI 网关

litellm-ai-gateway.png

为什么需要 LiteLLM?

当你在使用多个 AI 模型时,会遇到这些问题:

  • 每个 Provider 的 API 格式不同,需要维护多套代码
  • 无法统一监控所有模型的调用情况和成本
  • 切换模型需要修改业务代码

LiteLLM 通过统一的 OpenAI 兼容接口解决了这些问题,让你只需修改 model 参数就能切换模型。

核心功能:

  • 统一接口:一套 API 调用 OpenAI、Azure、Anthropic、Google 等多家模型
  • 成本追踪:实时监控各模型的使用量和成本
  • 负载均衡:自动在多个模型间分配请求
  • 速率限制:防止 API 滥用和成本失控

LiteLLM 作为统一网关,接收所有客户端请求,然后根据 model 参数自动路由到对应的后端模型服务。无论是本地部署的 vLLM,还是云端 API(OpenAI、Claude 等),都可以通过同一套接口调用。

本文将介绍如何在 Kubernetes 环境中部署 LiteLLM,并配置 PostgreSQL 作为数据库。

Qwen3.5 选型 + VLLM 部署实战:从 0.8B 到 397B,哪款最适合你?

deploy-qwen3.5-by-vllm.jpeg

Qwen3.5 是阿里云最新开源的大语言模型系列,提供了从 0.8B 到 397B 的多种规格,在推理能力和效率之间取得了良好平衡。

面对如此丰富的模型规格,该如何选择?本文将首先分析各规格模型的特点和适用场景,帮助你找到最适合的那一款,然后介绍如何使用 vLLM 在 Kubernetes 环境中部署 Qwen3.5 模型。

根据各大榜单排名以及实测表现,Qwen3.5 系列在性能和质量的权衡上表现出色。

qwen35-rank.png

VLLM 部署 GLM-5 实践指南

deploy-glm5-by-vllm.jpeg

GLM-5 是智谱 AI 最新发布的大语言模型,具备强大的推理能力和工具调用能力。本文将详细介绍如何使用 vLLM 框架在生产环境中部署 GLM-5 模型。

根据各大榜单排名以及实测表现,GLM-5 在多项评测中表现出色,是当前开源模型中的佼佼者。

glm5-rank.png

本文涵盖以下内容:

  • 模型下载:FP8 和 INT4 两种量化版本
  • 镜像构建:构建支持 GLM-5 的 vLLM 镜像
  • Docker 部署:INT4 版本快速部署
  • 性能测试:INT4 版本基准测试

Claude Code 也能跑本地模型?CCR 多模型 智能路由,成本直降 90%

claude-code-router.jpeg

Claude Code 是 Anthropic 推出的强大 AI 编程助手,但每月的订阅费用让很多开发者望而却步。

通过 Claude Code Router (CCR),我们可以:

  • 对接本地模型:部署 GLM5 等开源模型,实现零成本使用
  • 多模型智能路由:根据任务类型自动选择最合适的模型
  • 灵活组合:本地 + 云端混合部署,兼顾隐私、成本和质量

本文将手把手教你搭建这套方案,让你的 AI 编程助手成本降低 90% 以上。

Kubernetes教程(五十二)---Velero快速入门:开源备份恢复工具实战

velero-quickstart.png

在之前的文章《Kubernetes PVC Clone & Snapshot 实战:基于 Csi-Driver-Nfs 的完整示例》中,我们探讨了如何使用 Kubernetes 内置的 PVC 克隆和快照功能进行数据保护。然而,当我们需要对整个 Kubernetes 集群进行全面的备份恢复时,就需要更专业的工具。

Velero(前身 Heptio Ark)正是这样一个专业的 Kubernetes 备份恢复工具,已成为 CNCF 毕业项目。它不仅能够备份持久卷数据,还能备份整个集群的应用配置、服务和资源状态,提供企业级的灾难恢复和集群迁移能力。

你将学到:

  • Velero 架构原理和核心特性
  • 单集群备份恢复完整操作流程
  • 跨集群应用迁移实战演示
  • 生产环境最佳实践和故障排查
0%