模型监控

AI模型运行状态与性能监控

运行中模型
3

共 4 个模型

总请求量
9,257/h

峰值 12,450/h

平均延迟
52ms

P99: 185ms

GPU 使用率
78%

6/8 GPU 活跃

性能趋势
模型响应延迟与准确率
最近7天
模型列表
已部署模型管理

Qwen3.5-72B

LLM运行中

A100 80GB x 4

显存

85%

请求量

1,234/h

延迟

118ms

准确率

95.3%

DeepSeek-V3

LLM待机

A100 80GB x 4

显存

0%

请求量

0/h

延迟

-

BGE-M3

Embedding运行中

A100 80GB x 1

显存

42%

请求量

5,678/h

延迟

12ms

BGE-Reranker-Large

Reranker运行中

A100 80GB x 1

显存

35%

请求量

2,345/h

延迟

28ms

GPU 资源
服务器 GPU 使用情况
GPU 0活跃
利用率70%
显存60%
GPU 1活跃
利用率73%
显存65%
GPU 2活跃
利用率76%
显存70%
GPU 3活跃
利用率79%
显存75%
GPU 4活跃
利用率82%
显存80%
GPU 5活跃
利用率85%
显存85%
GPU 6空闲
利用率0%
显存0%
GPU 7空闲
利用率0%
显存0%