云栈社区»论坛 › 站务中心「 Forum Service 」 › vLLM分布式推理实战指南：基于Ray与Kubernetes的生产级部署详解 ...

发回帖发新帖

941 积分	0 好友	117 主题

发消息

vLLM分布式推理实战指南：基于Ray与Kubernetes的生产级部署详解

发表于 12 小时前 | 查看: 2| 回复: 0

随着大语言模型（LLM）在生产环境中的广泛应用，如何高效、稳定地部署和运行这些模型，成了运维和算法团队必须面对的核心挑战。你是否也遇到过这样的问题：单机推理显存不足、大规模模型延迟过高，或者昂贵的GPU资源利用率低下？针对这些痛点，本文将深入解析如何结合vLLM、Ray与Kubernetes，构建一个面向生产的高性能、可扩展的分布式推理架构。

一、概述

1.1 背景介绍

传统的单机推理方案在面对数十亿甚至上百亿参数的模型时，常常捉襟见肘。vLLM作为新一代高性能推理引擎，其核心的PagedAttention机制能够高效管理显存中的KV Cache，将显存利用率提升至80%以上，从而获得比传统方案高出2-4倍的吞吐量。Ray则提供了一个灵活的分布式计算框架，负责多节点间的任务调度与容错，支持张量并行和流水线并行。而Kubernetes作为容器编排的事实标准，负责最终的资源调度、服务发现和系统隔离。三者协同，构成了一套完整的企业级大语言模型（LLM）推理解决方案。

1.2 技术特点

高吞吐推理：vLLM的PagedAttention算法将KV Cache分页管理，支持更大的批次处理（batch size），吞吐量相比HuggingFace Transformers提升显著。
弹性分布式调度：Ray集群支持动态扩缩容，自动处理节点故障和任务重调度，实现GPU资源的跨节点池化使用。
云原生架构：基于Kubernetes部署，天然支持声明式配置、滚动更新、自动伸缩（HPA/VPA）和多租户隔离，与现有DevOps工具链无缝集成。
生产级可观测性：可集成Prometheus、Grafana等监控套件，实时采集GPU利用率、推理延迟、队列深度等关键指标。

1.3 适用场景

大规模模型推理服务：部署70B以上参数的模型，需要多卡或多节点张量并行，要求低延迟和高并发。
多模型混合部署：在同一集群内运行不同规模的模型，并根据业务优先级动态分配GPU资源。
弹性推理负载：应对业务流量的波峰波谷，根据请求队列长度自动扩缩容GPU节点，在保证服务质量（SLA）的前提下优化成本。

1.4 环境要求

组件	版本要求	说明
Kubernetes	1.24+	需支持GPU调度（nvidia-device-plugin）和CSI存储
NVIDIA Driver	525.x+	支持CUDA 12.x，建议使用Data Center驱动
NVIDIA GPU	A100/H100/L40S	显存至少40GB，支持NVLink更佳
vLLM	0.2.7+	支持Llama、Mistral、Qwen等主流开源模型
Ray	2.9.0+	需KubeRay Operator 1.0+进行集群管理
Python	3.9-3.11	vLLM依赖特定版本，3.12暂不支持
存储	NFS/Ceph/S3	用于存储模型文件，需要高IOPS（建议>10k）
网络带宽	25Gbps+	多节点推理时，GPU间通信带宽是关键，建议使用RDMA

二、详细步骤

2.1 准备工作

2.1.1 系统检查

在开始部署前，请确保你的Kubernetes集群环境就绪。

# 检查Kubernetes集群状态
kubectl cluster-info
kubectl get nodes -o wide

# 验证GPU节点标签
kubectl get nodes -l nvidia.com/gpu=true

# 检查NVIDIA驱动和CUDA版本
kubectl run gpu-test --rm -it --restart=Never \
  --image=nvidia/cuda:12.1.0-base-ubuntu22.04 \
  --limits=nvidia.com/gpu=1 \
  -- nvidia-smi

# 检查存储类是否可用
kubectl get storageclass

# 验证网络插件和DNS
kubectl get pods -n kube-system | grep -E 'coredns|calico|cilium'

2.1.2 安装依赖组件

安装必要的Kubernetes插件和Operator。

# 安装NVIDIA Device Plugin（如未安装）
kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/v0.14.0/nvidia-device-plugin.yml

# 安装KubeRay Operator
helm repo add kuberay https://ray-project.github.io/kuberay-helm/
helm repo update
helm install kuberay-operator kuberay/kuberay-operator \
  --namespace ray-system \
  --create-namespace \
  --version 1.0.0

# 验证Operator运行状态
kubectl get pods -n ray-system
kubectl logs -n ray-system -l app.kubernetes.io/name=kuberay-operator

# 创建命名空间
kubectl create namespace llm-inference

# 配置模型存储PVC（使用NFS示例）
cat <<EOF | kubectl apply -f -
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: model-storage
  namespace: llm-inference
spec:
  accessModes:
    - ReadOnlyMany
  storageClassName: nfs-client
  resources:
    requests:
      storage: 500Gi
EOF

2.2 核心配置

2.2.1 构建vLLM容器镜像

我们需要一个包含所有必要依赖的自定义镜像。

# 创建Dockerfile
cat > Dockerfile <<'EOF'
FROM nvidia/cuda:12.1.0-devel-ubuntu22.04

ENV DEBIAN_FRONTEND=noninteractive
ENV PYTHONUNBUFFERED=1

# 安装系统依赖
RUN apt-get update && apt-get install -y \
    python3.10 python3-pip git wget curl \
    && rm -rf /var/lib/apt/lists/*

# 安装vLLM和Ray
RUN pip3 install --no-cache-dir \
    vllm==0.2.7 \
    ray[default]==2.9.0 \
    fastapi==0.104.1 \
    uvicorn[standard]==0.24.0 \
    prometheus-client==0.19.0

# 配置工作目录
WORKDIR /app
COPY vllm_server.py /app/

EXPOSE 8000 8265

CMD ["python3", "vllm_server.py"]
EOF

# 构建并推送镜像
docker build -t your-registry.com/vllm-ray:v0.2.7 .
docker push your-registry.com/vllm-ray:v0.2.7

说明：镜像需包含CUDA运行时、vLLM推理引擎、Ray分布式框架。生产环境建议固定版本号。镜像大小约8GB，建议在所有GPU节点预拉取以加速启动。

2.2.2 部署Ray集群

通过KubeRay Operator在Kubernetes上声明一个Ray集群。

# 配置文件：ray-cluster.yaml
apiVersion: ray.io/v1
kind: RayCluster
metadata:
  name: vllm-ray-cluster
  namespace: llm-inference
spec:
  rayVersion: '2.9.0'
  enableInTreeAutoscaling: true
  autoscalerOptions:
    upscalingMode: Default
    idleTimeoutSeconds: 60
  resources:
    limits:
      cpu: "1"
      memory: "2Gi"
    requests:
      cpu: "500m"
      memory: "1Gi"

  headGroupSpec:
    rayStartParams:
      dashboard-host: '0.0.0.0'
      num-cpus: '0'
    template:
      spec:
        containers:
        - name: ray-head
          image: your-registry.com/vllm-ray:v0.2.7
          ports:
          - containerPort: 6379
            name: gcs
          - containerPort: 8265
            name: dashboard
          - containerPort: 10001
            name: client
          - containerPort: 8000
            name: serve
          resources:
            limits:
              cpu: "4"
              memory: "16Gi"
            requests:
              cpu: "2"
              memory: "8Gi"
          volumeMounts:
          - name: model-storage
            mountPath: /models
            readOnly: true
        volumes:
        - name: model-storage
          persistentVolumeClaim:
            claimName: model-storage

  workerGroupSpecs:
  - replicas: 2
    minReplicas: 1
    maxReplicas: 4
    groupName: gpu-workers
    rayStartParams:
      num-gpus: "1"
    template:
      spec:
        containers:
        - name: ray-worker
          image: your-registry.com/vllm-ray:v0.2.7
          resources:
            limits:
              cpu: "8"
              memory: "32Gi"
              nvidia.com/gpu: "1"
            requests:
              cpu: "4"
              memory: "16Gi"
              nvidia.com/gpu: "1"
          volumeMounts:
          - name: model-storage
            mountPath: /models
            readOnly: true
          - name: shm
            mountPath: /dev/shm
        volumes:
        - name: model-storage
          persistentVolumeClaim:
            claimName: model-storage
        - name: shm
          emptyDir:
            medium: Memory
            sizeLimit: 16Gi
        nodeSelector:
          nvidia.com/gpu: "true"
        tolerations:
        - key: nvidia.com/gpu
          operator: Exists
          effect: NoSchedule

参数说明：

enableInTreeAutoscaling：启用Ray内置自动扩缩容，根据任务队列动态调整Worker数量。
idleTimeoutSeconds：Worker空闲60秒后自动缩容，有助于降低GPU成本。
num-cpus: '0'：Head节点不参与计算任务，仅负责调度和监控。
shm：共享内存用于进程间通信，大小建议设置为GPU显存的1/3-1/2。
nodeSelector：确保Worker Pod被调度到带有GPU的节点上。

2.2.3 配置vLLM推理服务

创建一个ConfigMap来定义vLLM推理服务的Python代码。

# 创建vLLM服务配置
kubectl apply -f - <<EOF
apiVersion: v1
kind: ConfigMap
metadata:
  name: vllm-config
  namespace: llm-inference
data:
  vllm_server.py: |
    import ray
    from vllm import LLM, SamplingParams
    from vllm.engine.arg_utils import AsyncEngineArgs
    from vllm.engine.async_llm_engine import AsyncLLMEngine
    from fastapi import FastAPI, HTTPException
    from pydantic import BaseModel
    import uvicorn
    import os

    app = FastAPI()

    # vLLM引擎配置
    engine_args = AsyncEngineArgs(
        model="/models/Llama-2-70b-chat-hf",
        tensor_parallel_size=2,  # 张量并行度，需要2张GPU
        dtype="float16",
        max_model_len=4096,
        gpu_memory_utilization=0.90,  # GPU显存利用率
        trust_remote_code=True,
        disable_log_stats=False,
        quantization=None,  # 可选：awq, gptq
    )

    engine = AsyncLLMEngine.from_engine_args(engine_args)

    class GenerateRequest(BaseModel):
        prompt: str
        max_tokens: int = 512
        temperature: float = 0.7
        top_p: float = 0.9
        stream: bool = False

    @app.post("/v1/completions")
    async def generate(request: GenerateRequest):
        sampling_params = SamplingParams(
            temperature=request.temperature,
            top_p=request.top_p,
            max_tokens=request.max_tokens,
        )

        request_id = f"req_{os.urandom(8).hex()}"
        results_generator = engine.generate(
            request.prompt,
            sampling_params,
            request_id
        )

        final_output = None
        async for request_output in results_generator:
            final_output = request_output

        return {
            "text": final_output.outputs[0].text,
            "tokens": len(final_output.outputs[0].token_ids),
        }

    @app.get("/health")
    async def health():
        return {"status": "healthy"}

    if __name__ == "__main__":
        uvicorn.run(app, host="0.0.0.0", port=8000)
EOF

说明：此配置实现了一个基于vLLM的异步推理服务，支持张量并行和流式输出。tensor_parallel_size需根据模型大小和GPU显存调整，gpu_memory_utilization设置为0.90有助于最大化KV Cache空间。

2.3 启动和验证

2.3.1 启动服务

应用配置，启动整个推理集群。

# 部署Ray集群
kubectl apply -f ray-cluster.yaml

# 等待所有Pod就绪
kubectl wait --for=condition=ready pod \
  -l ray.io/cluster=vllm-ray-cluster \
  -n llm-inference \
  --timeout=600s

# 查看集群状态
kubectl get raycluster -n llm-inference
kubectl get pods -n llm-inference -o wide

# 创建Service暴露推理接口
kubectl apply -f - <<EOF
apiVersion: v1
kind: Service
metadata:
  name: vllm-service
  namespace: llm-inference
spec:
  type: ClusterIP
  selector:
    ray.io/cluster: vllm-ray-cluster
    ray.io/node-type: head
  ports:
  - name: http
    port: 8000
    targetPort: 8000
  - name: dashboard
    port: 8265
    targetPort: 8265
---
apiVersion: v1
kind: Service
metadata:
  name: vllm-service-external
  namespace: llm-inference
spec:
  type: LoadBalancer
  selector:
    ray.io/cluster: vllm-ray-cluster
    ray.io/node-type: head
  ports:
  - name: http
    port: 80
    targetPort: 8000
EOF

# 查看服务状态
kubectl get svc -n llm-inference

2.3.2 功能验证

部署完成后，进行一系列测试以确保服务正常运行。

# 获取服务地址
VLLM_ENDPOINT=$(kubectl get svc vllm-service -n llm-inference -o jsonpath='{.spec.clusterIP}')

# 健康检查
curl http://${VLLM_ENDPOINT}:8000/health

# 推理测试
curl -X POST http://${VLLM_ENDPOINT}:8000/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "Explain quantum computing in simple terms:",
    "max_tokens": 256,
    "temperature": 0.7
  }'

# 预期输出示例
# {
#   "text": "Quantum computing is a revolutionary approach...",
#   "tokens": 245
# }

# 查看Ray Dashboard
kubectl port-forward -n llm-inference \
  svc/vllm-service 8265:8265
# 浏览器访问 http://localhost:8265 查看集群状态

# 验证GPU使用情况
kubectl exec -n llm-inference \
  $(kubectl get pod -n llm-inference -l ray.io/node-type=worker -o jsonpath='{.items[0].metadata.name}') \
  -- nvidia-smi

# 压力测试（使用Apache Bench）
ab -n 100 -c 10 -p request.json -T application/json \
  http://${VLLM_ENDPOINT}:8000/v1/completions

三、示例代码和配置

3.1 完整配置示例

3.1.1 多模型部署配置

在实际生产中，我们常常需要在一个集群内服务多个模型。

# 文件路径：multi-model-deployment.yaml
apiVersion: ray.io/v1
kind: RayService
metadata:
  name: multi-model-vllm
  namespace: llm-inference
spec:
  serviceUnhealthySecondThreshold: 900
  deploymentUnhealthySecondThreshold: 300
  serveConfigV2: |
    applications:
      - name: llama2-7b
        route_prefix: /llama2-7b
        import_path: vllm_serve:app
        runtime_env:
          env_vars:
            MODEL_NAME: "/models/Llama-2-7b-chat-hf"
            TENSOR_PARALLEL_SIZE: "1"
            MAX_MODEL_LEN: "4096"
            GPU_MEMORY_UTILIZATION: "0.85"

      - name: llama2-70b
        route_prefix: /llama2-70b
        import_path: vllm_serve:app
        runtime_env:
          env_vars:
            MODEL_NAME: "/models/Llama-2-70b-chat-hf"
            TENSOR_PARALLEL_SIZE: "4"
            MAX_MODEL_LEN: "4096"
            GPU_MEMORY_UTILIZATION: "0.90"

  rayClusterConfig:
    rayVersion: '2.9.0'
    headGroupSpec:
      rayStartParams:
        dashboard-host: '0.0.0.0'
        num-cpus: '0'
      template:
        spec:
          containers:
          - name: ray-head
            image: your-registry.com/vllm-ray:v0.2.7
            resources:
              limits:
                cpu: "4"
                memory: "16Gi"
              requests:
                cpu: "2"
                memory: "8Gi"
            volumeMounts:
            - name: model-storage
              mountPath: /models
            volumes:
            - name: model-storage
              persistentVolumeClaim:
                claimName: model-storage

    workerGroupSpecs:
    - replicas: 2
      minReplicas: 1
      maxReplicas: 6
      groupName: small-model-workers
      rayStartParams:
        num-gpus: "1"
        resources: '"{\"small_model\": 1}"'
      template:
        spec:
          containers:
          - name: ray-worker
            image: your-registry.com/vllm-ray:v0.2.7
            resources:
              limits:
                cpu: "8"
                memory: "32Gi"
                nvidia.com/gpu: "1"
              requests:
                cpu: "4"
                memory: "16Gi"
                nvidia.com/gpu: "1"
            volumeMounts:
            - name: model-storage
              mountPath: /models
            - name: shm
              mountPath: /dev/shm
            volumes:
            - name: model-storage
              persistentVolumeClaim:
                claimName: model-storage
            - name: shm
              emptyDir:
                medium: Memory
                sizeLimit: 16Gi
          nodeSelector:
            node.kubernetes.io/instance-type: "g5.2xlarge"

3.1.2 性能优化脚本

根据不同的GPU硬件，自动计算并推荐最优的vLLM配置参数。

#!/bin/bash
# 文件名：optimize-vllm-performance.sh
# 功能：自动优化vLLM推理性能参数

set -e

MODEL_PATH="/models/Llama-2-70b-chat-hf"
GPU_COUNT=$(nvidia-smi --query-gpu=count --format=csv,noheader | head -1)
GPU_MEMORY=$(nvidia-smi --query-gpu=memory.total --format=csv,noheader,nounits | head -1)

echo "检测到 ${GPU_COUNT} 张GPU，单卡显存 ${GPU_MEMORY}MB"

# 根据GPU显存计算最优参数
if [ "$GPU_MEMORY" -ge 80000 ]; then
  # A100 80GB
  MAX_MODEL_LEN=8192
  GPU_MEM_UTIL=0.92
  TENSOR_PARALLEL=$GPU_COUNT
elif [ "$GPU_MEMORY" -ge 40000 ]; then
  # A100 40GB
  MAX_MODEL_LEN=4096
  GPU_MEM_UTIL=0.90
  TENSOR_PARALLEL=$GPU_COUNT
else
  # 其他GPU
  MAX_MODEL_LEN=2048
  GPU_MEM_UTIL=0.85
  TENSOR_PARALLEL=$GPU_COUNT
fi

echo "推荐配置："
echo "  tensor_parallel_size: ${TENSOR_PARALLEL}"
echo "  max_model_len: ${MAX_MODEL_LEN}"
echo "  gpu_memory_utilization: ${GPU_MEM_UTIL}"

# 生成优化后的配置
cat > /tmp/vllm_optimized_config.json <<EOF
{
  "model": "${MODEL_PATH}",
  "tensor_parallel_size": ${TENSOR_PARALLEL},
  "max_model_len": ${MAX_MODEL_LEN},
  "gpu_memory_utilization": ${GPU_MEM_UTIL},
  "dtype": "float16",
  "disable_log_requests": false,
  "max_num_seqs": 256,
  "max_num_batched_tokens": ${MAX_MODEL_LEN}
}
EOF

echo "配置已生成至 /tmp/vllm_optimized_config.json"

3.2 实际应用案例

案例一：高并发对话服务

场景描述：为在线客服系统提供AI对话能力，峰值QPS达到200，要求P99延迟小于2秒，支持长上下文。

实现代码：

# 文件名：high_concurrency_service.py
import asyncio
from vllm import AsyncLLMEngine, AsyncEngineArgs, SamplingParams
from fastapi import FastAPI, BackgroundTasks
from prometheus_client import Counter, Histogram, generate_latest
import time

app = FastAPI()

# Prometheus指标
REQUEST_COUNT = Counter('vllm_requests_total', 'Total requests')
REQUEST_LATENCY = Histogram('vllm_request_latency_seconds', 'Request latency')
QUEUE_SIZE = Histogram('vllm_queue_size', 'Request queue size')

# 初始化vLLM引擎
engine_args = AsyncEngineArgs(
    model="/models/Llama-2-13b-chat-hf",
    tensor_parallel_size=2,
    max_model_len=4096,
    gpu_memory_utilization=0.90,
    max_num_seqs=128,  # 增大批处理大小
    max_num_batched_tokens=8192,
)
engine = AsyncLLMEngine.from_engine_args(engine_args)

@app.post("/chat")
async def chat(prompt: str, max_tokens: int = 512):
    REQUEST_COUNT.inc()
    start_time = time.time()

    sampling_params = SamplingParams(
        temperature=0.7,
        top_p=0.9,
        max_tokens=max_tokens,
    )

    request_id = f"chat_{int(time.time() * 1000)}"
    results = engine.generate(prompt, sampling_params, request_id)

    final_output = None
    async for output in results:
        final_output = output

    latency = time.time() - start_time
    REQUEST_LATENCY.observe(latency)

    return {
        "response": final_output.outputs[0].text,
        "latency": latency
    }

@app.get("/metrics")
async def metrics():
    return generate_latest()

运行结果：

压测结果（使用wrk工具）：
  Requests/sec: 215.43
  Latency P50: 850ms
  Latency P99: 1.8s
  GPU利用率: 92%
  吞吐量: 27,500 tokens/s

案例二：弹性扩缩容实现

场景描述：根据请求队列长度自动扩缩容GPU Worker节点，实现成本优化。

实现步骤：

配置基于队列长度的HPA策略。
部署Prometheus监控采集队列指标。
设置扩缩容阈值和冷却时间。

配置文件：

# 文件名：vllm-hpa.yaml
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: vllm-worker-hpa
  namespace: llm-inference
spec:
  scaleTargetRef:
    apiVersion: ray.io/v1
    kind: RayCluster
    name: vllm-ray-cluster
  minReplicas: 1
  maxReplicas: 5
  metrics:
  - type: Pods
    pods:
      metric:
        name: vllm_queue_size
      target:
        type: AverageValue
        averageValue: "10"
  behavior:
    scaleUp:
      stabilizationWindowSeconds: 60
      policies:
      - type: Percent
        value: 50
        periodSeconds: 60
    scaleDown:
      stabilizationWindowSeconds: 300
      policies:
      - type: Pods
        value: 1
        periodSeconds: 120

四、最佳实践和注意事项

4.1 最佳实践

4.1.1 性能优化

KV Cache优化：合理设置gpu_memory_utilization参数。

# 根据模型大小调整显存利用率
# 小模型（7B-13B）：0.85-0.88
# 中等模型（30B-40B）：0.88-0.90
# 大模型（70B+）：0.90-0.95

批处理优化：动态调整batch size以提升吞吐量。
- max_num_seqs：并发处理的序列数，建议设置为64-256。
- max_num_batched_tokens：批处理token总数，可设置为max_model_len * max_num_seqs / 2。

张量并行配置：根据模型大小选择合适的并行度。

# 模型参数量与GPU配置对照参考
# 7B模型：1张A100 40GB
# 13B模型：1-2张A100 40GB
# 30B模型：2张A100 40GB
# 70B模型：2-4张A100 80GB 或 4-8张A100 40GB

4.1.2 安全加固

网络隔离：使用NetworkPolicy限制Pod间不必要的通信。
RBAC权限控制：为服务账户配置最小必要权限。
模型文件加密：使用如Sealed Secrets等工具保护模型访问凭证等敏感信息。

4.1.3 高可用配置

多副本部署：考虑为Head节点配置多个副本（需评估复杂度）。
Pod反亲和性：确保工作负载副本分散在不同的物理节点上，避免单点故障。
健康检查配置：为Pod配置合理的livenessProbe和readinessProbe，特别注意大模型加载时间较长，需要设置足够的initialDelaySeconds。

4.2 注意事项

4.2.1 配置注意事项

⚠️ 警告：不当的配置可能导致OOM、推理失败或资源浪费，务必在测试环境充分验证。

显存溢出风险：gpu_memory_utilization设置过高（>0.95）易触发CUDA OOM，建议从0.85开始逐步调优。
模型加载超时：大模型首次加载可能耗时5-15分钟，需相应调整健康检查的初始延迟。
共享内存不足：确保为/dev/shm分配足够空间（建议为GPU显存的50%），否则可能导致进程卡死。

4.2.2 常见错误与排查

错误现象	原因分析	解决方案
CUDA out of memory	显存利用率设置过高或batch size过大	降低`gpu_memory_utilization`，减小`max_num_seqs`
Ray worker连接超时	网络策略阻止或防火墙限制	检查NetworkPolicy，确保6379端口可访问
模型加载失败	存储挂载权限问题或模型文件损坏	验证PVC权限，重新下载模型文件
推理延迟突增	GPU节点资源争抢或网络拥塞	启用GPU独占模式，检查节点间带宽
Pod频繁重启	健康检查超时或内存泄漏	增加探针超时时间，监控内存使用趋势

4.2.3 兼容性问题

版本兼容：注意vLLM不同主要版本间的API可能不兼容，升级前需测试。Ray 2.9+要求Python 3.9-3.11。
平台兼容：vLLM目前主要支持NVIDIA GPU (CUDA)。
组件依赖：确保NCCL、cuBLAS等底层库版本匹配，建议使用NVIDIA官方基础镜像以减少冲突。

五、故障排查和监控

5.1 故障排查

5.1.1 日志查看

日志是定位问题的第一手资料。

# 查看Ray集群日志
kubectl logs -n llm-inference -l ray.io/cluster=vllm-ray-cluster --tail=100

# 查看特定Pod日志
kubectl logs -n llm-inference <pod-name> -f

# 查看vLLM引擎日志
kubectl exec -n llm-inference <pod-name> -- \
  tail -f /tmp/ray/session_latest/logs/serve/*.log

5.1.2 常见问题排查

问题一：GPU显存不足
- 诊断：kubectl exec -n llm-inference <pod-name> -- nvidia-smi
- 解决：降低gpu_memory_utilization，减小max_model_len或考虑使用量化模型。
问题二：Ray Worker连接失败
- 诊断：检查Head Service状态和NetworkPolicy。
- 解决：确保6379端口通信畅通，验证DNS解析。
问题三：模型加载慢
- 诊断：检查存储IOPS和网络带宽。
- 解决：使用高性能存储，或启用模型预加载到节点本地缓存。

5.2 性能监控

建立完善的监控体系对保障服务稳定至关重要。

5.2.1 关键指标监控

应持续监控以下核心指标：

GPU利用率与显存使用率
推理延迟（P50, P99）
请求吞吐量（QPS）与 Token吞吐量（tokens/s）
请求队列长度
错误率

5.2.2 监控告警配置

建议配置Prometheus告警规则，以便在指标异常时及时通知。

# Prometheus监控规则示例（部分）
groups:
  - name: vllm_alerts
    rules:
      - alert: HighGPUMemoryUsage
        expr: nvidia_gpu_memory_used_bytes / nvidia_gpu_memory_total_bytes > 0.95
        for: 5m
        labels:
          severity: warning
        annotations:
          summary: "GPU显存使用率超过95%"
      - alert: HighInferenceLatency
        expr: histogram_quantile(0.99, vllm_request_latency_seconds) > 3
        for: 2m
        labels:
          severity: critical
        annotations:
          summary: "推理延迟P99超过3秒"

5.3 备份与恢复

制定备份策略，以防配置丢失或误操作。

备份：定期备份RayCluster、ConfigMap、Service等核心Kubernetes资源定义文件。
恢复：在需要时，按顺序重新应用备份的YAML文件即可重建服务。

六、总结

本文详细介绍了在Kubernetes上利用vLLM和Ray构建生产级大语言模型分布式推理架构的全过程。这套方案的核心优势在于：

极致性能：通过vLLM的PagedAttention最大化GPU利用率，获得超高吞吐。
弹性伸缩：借助Ray和Kubernetes的云原生架构能力，轻松应对流量变化。
稳定可靠：完整的高可用、监控、安全设计，满足企业级生产要求。

对于希望进一步深入的同学，可以关注模型量化（AWQ/GPTQ）、多模态模型部署、推理成本优化等进阶方向。希望这份指南能帮助你顺利搭建起自己的高性能LLM推理服务。如果在实践过程中遇到问题，欢迎在云栈社区与更多开发者交流探讨。

上一篇：2023老男孩Linux云计算SRE工程师85期：从入门到精通全栈体系课 Shell/自动化/容器/K8S/监控/DevOps 一站式就业实战
下一篇：我的技术手记：用Python为Neo4j创建全文索引与实现加权查询的探索笔记

vLLM, Ray, Kubernetes, 大语言模型推理, 云原生