快速部署大模型！QKE 助你开启自己的 AI 时代

2023 年，大模型和 AIGC 的发展呈现出快速推进的态势，不仅在技术层面有所突破，而且在财产应用和市场前景方面也展现出积极的趋势。

为了方便更多企业用户体验，本文将介绍如何通过青云容器引擎 QKE 快速部署 ChatGLM-6B 大模型，开启属于您自己的 AI 时代！

什么是 QKE

QKE 是基于 Kubernetes 的容器引擎，能够轻松地管理和部署容器化应用。它具备自动化扩容、高可用性、安全性等多项优势，让应用更加稳定、高效。

近日，新发布的 QKE v3.1 版本不仅提高了容器集群的性能、可靠性、安全性和可维护性，还为大模型应用场景提供了更好的支持。

5 分钟部署大模型

接下来，我们来看看如何使用 QKE 容器引擎部署 ChatGLM-6B 大模型。

01、创建 QKE GPU 集群

第一步：创建一个带有 GPU 工作节点池的 QKE 集群

QKE 集群创建成功后，如需以 HTTP 访问带授权的镜像仓库，可在集群信息，镜像参数中配置镜像拉取的 insecure-registries、docker-auths。

第二步：检查 GPU 工作节点上 GPU Device Plugin 的就绪情况。
kubectl describe nodes worker-g001 | grep gpu
nvidia.com/gpu: 2
nvidia.com/gpu: 2
nvidia.com/gpu 0 0

第三步：将 GPU 工作节点打上标签：accelerator: nvidia-gpu
kubectl label nodes worker-g001 accelerator=nvidia-gpu

02、部署 ChatGLM-6B

第一步：编辑创建 K8s deployment 和 service 的 chatglm-6b.yaml。

apiVersion: v1
kind: Namespace
metadata:
name: chatglm

—
apiVersion: apps/v1
kind: Deployment
metadata:
name: chatglm
namespace: chatglm
spec:
replicas: 1
selector:
matchLabels:
app: chatglm
template:
metadata:
labels:
app: chatglm
spec:
containers:
– name: chatglm-container
image: 139.198.188.112:81/appcenter/chatglm3:gpu-fp16
imagePullPolicy: IfNotPresent
command: [“stremlit”,”run”,”basic_demo/web_demo_streamlit.py”,”–server.port”,”8900″]
ports:
– containerPort: 8900
resources:
limits:
nvidia.com/gpu: 1
nodeSelector:
accelerator: nvidia-gpu

—
apiVersion: v1
kind: Service
metadata:
name: chatglm-web
namespace: chatglm
spec:
ports:
– port: 7860
protocol: TCP
targetPort: 8900
selector:
app: chatglm
type: NodePort

其中 nodeSelector.accelerator: nvidia-gpu 让 Pod 调度到的 GPU 工作节点。

第二步：部署 ChatGLM-6B

kubectl apply -f chatglm-6b.yaml

03、暴露服务给外部访问

第一步：通过如下命令找到 NodePort 号

root@master1:~# kubectl get service -n chatglm

NAME          TYPE       CLUSTER-IP      EXTERNAL-IP   PORT(S)          AGE

chatglm-web   NodePort   10.96.204.196   <none>        7860:30313/TCP   3h

这里显示 NodePort 号为 30313 。

第二步：在 QKE 集群对应的 VPC 上，添加一条端口转发规则，转发到节点的 30313 端口。