Home avatar

意琦行的个人博客

关注微信公众号【探索云原生】一起探索云原生~

Claude Code 使用 Claude Code Router 对接本地模型完全指南

ccr-demo.png

随着 AI 技术的快速发展,越来越多的开发者希望在本地环境中部署和使用大型语言模型。Claude Code 作为 Anthropic 推出的强大 AI 编程助手,通过 Claude Code Router (CCR) 可以轻松连接到本地部署的模型,实现离线使用和更好的隐私保护。

本文将详细介绍如何通过 CCR 将 Claude Code 连接到本地部署的 DeepSeek-V3.1-Terminus 模型,让你在没有网络连接的情况下也能享受高质量的 AI 编程辅助。

你将学到:

  • Claude Code Router 的基本概念和工作原理
  • 如何在服务器上部署 DeepSeek-V3.1-Terminus 模型
  • 完整的 CCR 配置方法和参数调优
  • 常见问题排查和性能优化技巧

Kubernetes PVC Clone & Snapshot 实战:基于 Csi-Driver-Nfs 的完整示例

k8s-pvc-clone-snapshot.jpeg 在 Kubernetes 里做“数据复制”通常有两条路:

  • PVC Clone:从已有 PVC 快速克隆出一个新 PVC(开发/测试回放、批量创建环境很常用)
  • VolumeSnapshot:先对 PVC 打快照,再从快照创建新 PVC(更贴近生产最佳实践,避免“边写边克隆”的不确定性)

本文以 csi-driver-nfs 为例,从 0 跑通 Clone 与 Snapshot,并给出跨命名空间场景需要的关键配置与排错点。

Kubernetes教程(五十)---K8s 1.35:In-Place Pod Resize 正式 GA,实现 Pod 资源零中断调整

in-place-pod-resize-ga.jpeg 想象一下这样的场景:你的生产系统突然流量激增,某个 Pod 的 CPU 使用率已经飙升到 90%,传统做法是重建整个 Pod,导致服务中断 30 秒以上。而现在,只需一行命令,CPU 资源瞬间调整完毕,服务零中断!

这就是 Kubernetes 1.35 带来的重磅功能:原地 Pod 资源调整(In-Place Pod Resize)正式 GA!🎉

⚡ AI集群通信革命:GB200 MNNVL通过Kubernetes DRA实现跨节点800Gbps通信

nvidia-dra-gpu.jpeg

NVIDIA GB200 NVL72 正在将 AI 基础设施推向新的极限,使大规模语言模型训练和低延迟推理工作负载成为可能。随着 Kubernetes 在部署和扩展这些工作负载中的核心作用日益增强,快速演进的 AI 工作负载、基础设施需求和新硬件架构为 Kubernetes 编排和资源管理带来了新的挑战。

在本文中,我们将深入探讨如何通过 Kubernetes DRA (Dynamic Resource Allocation) 和 NVIDIA DRA Driver 在 GB200 平台上启用 Multi-Node NVLink (MNNVL),实现跨节点的 GPU 到 GPU 高带宽通信。

🚀 当 InfiniBand 也不够快:GB200 MNNVL 实测带宽提升 10 倍

gb200-nvl72-nccl-test.jpeg

在上一篇 告别 TCP/IP 延迟:Kubernetes 中的 RDMA 高性能网络实战 中,我们介绍了如何在 Kubernetes 中启用 RDMA(InfiniBand)能力,实现了相比 TCP/IP 延迟降低 20-40 倍、带宽提升 40 倍以上的效果。然而在超大规模 AI 训练场景下,即便是 InfiniBand 的带宽也可能成为瓶颈——当 GPU 间需要频繁同步梯度时,跨节点通信效率直接决定了整体训练吞吐。那么,有没有比 InfiniBand 更高效的多节点互联方案?答案是 MNNVL(Multi-Node NVLink)

告别 TCP/IP 延迟:Kubernetes 中的 RDMA 高性能网络实战

RDMA in K8s

GPU 算力拉满了,网络却成了瓶颈?在大模型训练和推理场景中,传统 TCP/IP 网络的延迟和 CPU 开销正在严重制约集群性能。RDMA 技术通过绕过内核直接访问内存,降低网络延迟。本文将手把手教你在 Kubernetes 中启用 RDMA 能力,从 Device Plugin 部署到性能验证,让你的 AI 集群真正发挥出硬件的全部潜力。

0%