模型监控
AI模型运行状态与性能监控
运行中模型
3
共 4 个模型
总请求量
9,257/h
峰值 12,450/h
平均延迟
52ms
P99: 185ms
GPU 使用率
78%
6/8 GPU 活跃
性能趋势
模型响应延迟与准确率
模型列表
已部署模型管理
Qwen3.5-72B
LLM运行中A100 80GB x 4
显存
85%
请求量
1,234/h
延迟
118ms
准确率
95.3%
DeepSeek-V3
LLM待机A100 80GB x 4
显存
0%
请求量
0/h
延迟
-
BGE-M3
Embedding运行中A100 80GB x 1
显存
42%
请求量
5,678/h
延迟
12ms
BGE-Reranker-Large
Reranker运行中A100 80GB x 1
显存
35%
请求量
2,345/h
延迟
28ms
GPU 资源
服务器 GPU 使用情况
GPU 0活跃
利用率70%
显存60%
GPU 1活跃
利用率73%
显存65%
GPU 2活跃
利用率76%
显存70%
GPU 3活跃
利用率79%
显存75%
GPU 4活跃
利用率82%
显存80%
GPU 5活跃
利用率85%
显存85%
GPU 6空闲
利用率0%
显存0%
GPU 7空闲
利用率0%
显存0%