模型监控

AI模型运行状态与性能监控

运行中模型

3

共 4 个模型

总请求量

9,257/h

峰值 12,450/h

平均延迟

52ms

P99: 185ms

GPU 使用率

78%

6/8 GPU 活跃

性能趋势

模型响应延迟与准确率

最近7天

模型列表

已部署模型管理

Qwen3.5-72B

LLM运行中

A100 80GB x 4

显存

85%

请求量

1,234/h

延迟

118ms

准确率

95.3%

DeepSeek-V3

LLM待机

A100 80GB x 4

显存

0%

请求量

0/h

延迟

-

BGE-M3

Embedding运行中

A100 80GB x 1

显存

42%

请求量

5,678/h

延迟

12ms

BGE-Reranker-Large

Reranker运行中

A100 80GB x 1

显存

35%

请求量

2,345/h

延迟

28ms

GPU 资源

服务器 GPU 使用情况

GPU 0活跃

利用率70%

显存60%

GPU 1活跃

利用率73%

显存65%

GPU 2活跃

利用率76%

显存70%

GPU 3活跃

利用率79%

显存75%

GPU 4活跃

利用率82%

显存80%

GPU 5活跃

利用率85%

显存85%

GPU 6空闲

利用率0%

显存0%

GPU 7空闲

利用率0%

显存0%