Home avatar

意琦行的个人博客

关注微信公众号【探索云原生】一起探索 AI 云原生~

DRA P2---理解 DRA:ResourceSlice、Claim、Class 三角关系

dra-p2.png

在上一篇 DRA P1:DRA 能解决什么问题?从部署到使用的完整体验 中,我们部署了 DRA 并成功运行了第一个 GPU Pod。DRA 相比 DevicePlugin 最大的区别在于:资源展示更详细,资源申请也更灵活。靠三个 API 对象来实现:ResourceSlice、DeviceClass、ResourceClaim。

那么这三个对象各自干什么,它们之间怎么配合?本篇就来回答这个问题。

DRA P1:DRA 能解决什么问题?从部署到使用的完整体验

dra-p1.png

在 Kubernetes 里用 GPU 这类设备,大家习惯走 DevicePlugin。但 AI workload 越来越复杂,DevicePlugin 的短板越来越明显——没法描述设备属性,调度器不参与分配,Pod 经常调度到节点后才发现资源不够

DRA(Dynamic Resource Allocation,动态资源分配)就是 Kubernetes 针对这些问题推出的新框架。

搭建你的 AI 模型服务平台:这个开源项目帮你搞定聚合、计费、运营

new-api.png

你是否遇到过这样的困扰:手头有 OpenAI、Claude、本地部署的多个 AI 模型:

  • 每个都要单独管理 API Key;
  • 团队成员都在用,却无法追踪谁用了多少、花了多少钱;
  • 想把这些能力开放给外部用户并收费,却苦于没有现成的计费系统?

New API 就是来解决这些问题的。

New API 是什么?

Next-Generation LLM Gateway and AI Asset Management System

New API 是新一代 AI 基座平台,为您的 AI 应用提供统一的基础设施。承载所有 AI 应用,管理您的数字资产,连接未来的统一接口平台。

核心特性:

  • 统一接口:一个 API 端点接入所有 AI 服务,兼容 OpenAI 标准格式
  • 智能路由:多渠道负载均衡、故障自动切换、加权随机分发
  • 精细计费:支持按次数/按量计费、预付费充值、多倍率配置
  • 安全管控:令牌权限管理、模型访问控制、API 调用审计
  • 数据洞察:实时数据看板、用量统计、成本分析
  • 多租户架构:完美适配个人开发者、团队协作与企业级部署

技术架构:

technical-architecture.svg

LiteLLM:打造统一 AI 网关

litellm-ai-gateway.png

为什么需要 LiteLLM?

当你在使用多个 AI 模型时,会遇到这些问题:

  • 每个 Provider 的 API 格式不同,需要维护多套代码
  • 无法统一监控所有模型的调用情况和成本
  • 切换模型需要修改业务代码

LiteLLM 通过统一的 OpenAI 兼容接口解决了这些问题,让你只需修改 model 参数就能切换模型。

核心功能:

  • 统一接口:一套 API 调用 OpenAI、Azure、Anthropic、Google 等多家模型
  • 成本追踪:实时监控各模型的使用量和成本
  • 负载均衡:自动在多个模型间分配请求
  • 速率限制:防止 API 滥用和成本失控

LiteLLM 作为统一网关,接收所有客户端请求,然后根据 model 参数自动路由到对应的后端模型服务。无论是本地部署的 vLLM,还是云端 API(OpenAI、Claude 等),都可以通过同一套接口调用。

本文将介绍如何在 Kubernetes 环境中部署 LiteLLM,并配置 PostgreSQL 作为数据库。

Qwen3.5 选型 + VLLM 部署实战:从 0.8B 到 397B,哪款最适合你?

deploy-qwen3.5-by-vllm.jpeg

Qwen3.5 是阿里云最新开源的大语言模型系列,提供了从 0.8B 到 397B 的多种规格,在推理能力和效率之间取得了良好平衡。

面对如此丰富的模型规格,该如何选择?本文将首先分析各规格模型的特点和适用场景,帮助你找到最适合的那一款,然后介绍如何使用 vLLM 在 Kubernetes 环境中部署 Qwen3.5 模型。

根据各大榜单排名以及实测表现,Qwen3.5 系列在性能和质量的权衡上表现出色。

qwen35-rank.png

0%