RAG系统

检索增强生成系统监控与管理

大语言模型
Qwen3.5-72B
运行中
GPU: A100 x 4显存: 85%Temp: 0.7Max: 4096
Embedding模型
BGE-M3
运行中
GPU: A100 x 1显存: 42%维度: 1024Batch: 32
向量数据库
Milvus
运行中
Collections: 12向量: 892K索引: IVF_FLAT
Reranker
BGE-Reranker
运行中
请求量: 1.2K/hTop-K: 10
RAG流水线状态
LangChain 检索增强生成流程实时监控
查询输入5ms
Query改写45ms
向量检索35ms
Rerank重排85ms
上下文组装15ms
LLM生成450ms
查询量趋势
24小时RAG查询量统计
延迟分布
P50 / P95 / P99 延迟趋势
P50: 195ms
P95: 350ms
P99: 510ms
资源使用
系统资源监控
GPU 使用率78%
GPU 显存85%
系统内存62%
磁盘 I/O45%
上下文窗口分配
Token分配情况 (4096 tokens)
系统提示词512 tokens
检索文档2048 tokens
历史对话1024 tokens
用户输入256 tokens
预留空间256 tokens
今日统计
RAG系统运行数据
12,458
总查询数
98.5%
成功率
195ms
平均延迟
0.89
平均相关性