Blame view

third-party/xinference/测试结果-perfermance_test_http.txt 4.66 KB
775db2b0   tangwang   xinfer
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
  $ p perfermance_test_http.py 
  API连接正常,开始性能测试...
  ============================================================
  Embedding API 性能测试 (HTTP)
  ============================================================
  
  选择测试模式:
  1. 顺序测试 (Sequential)
  2. 并发测试 (Concurrent)
  3. 两种模式都测试
  请输入选择 (1/2/3, 默认1): 3
  
  ============================================================
  测试模型: bge-m3
  ============================================================
  
  开始并发测试模型: bge-m3
  测试次数: 1000, 并发数: 10
    已完成 100/1000 次请求...
    已完成 200/1000 次请求...
    已完成 300/1000 次请求...
    已完成 400/1000 次请求...
    已完成 500/1000 次请求...
    已完成 600/1000 次请求...
    已完成 700/1000 次请求...
    已完成 800/1000 次请求...
    已完成 900/1000 次请求...
    已完成 1000/1000 次请求...
  
  ============================================================
  性能测试结果 - bge-m3
  ============================================================
  总请求数: 1000
  成功请求: 1000
  失败请求: 0
  成功率: 100.00%
  总耗时: 145.1439秒
  平均延迟: 0.1451秒
  最小延迟: 0.0311秒
  最大延迟: 0.5770秒
  P50延迟: 0.0599秒
  P95延迟: 0.5151秒
  P99延迟: 0.5704秒
  标准差: 0.1789秒
  QPS: 6.89 请求/秒
  ============================================================
  
  开始顺序测试模型: bge-m3
  测试次数: 1000
    已完成 100/1000 次请求...
    已完成 200/1000 次请求...
    已完成 300/1000 次请求...
    已完成 400/1000 次请求...
    已完成 500/1000 次请求...
    已完成 600/1000 次请求...
    已完成 700/1000 次请求...
    已完成 800/1000 次请求...
    已完成 900/1000 次请求...
  
  ============================================================
  性能测试结果 - bge-m3
  ============================================================
  总请求数: 1000
  成功请求: 1000
  失败请求: 0
  成功率: 100.00%
  总耗时: 74.5284秒
  平均延迟: 0.0745秒
  最小延迟: 0.0271秒
  最大延迟: 0.5767秒
  P50延迟: 0.0286秒
  P95延迟: 0.4797秒
  P99延迟: 0.5037秒
  标准差: 0.1364秒
  QPS: 13.42 请求/秒
  ============================================================
  
  ============================================================
  测试模型: Qwen3-Embedding-0.6B
  ============================================================
  
  开始并发测试模型: Qwen3-Embedding-0.6B
  测试次数: 1000, 并发数: 10
    已完成 100/1000 次请求...
    已完成 200/1000 次请求...
    已完成 300/1000 次请求...
    已完成 400/1000 次请求...
    已完成 500/1000 次请求...
    已完成 600/1000 次请求...
    已完成 700/1000 次请求...
    已完成 800/1000 次请求...
    已完成 900/1000 次请求...
    已完成 1000/1000 次请求...
  
  ============================================================
  性能测试结果 - Qwen3-Embedding-0.6B
  ============================================================
  总请求数: 1000
  成功请求: 1000
  失败请求: 0
  成功率: 100.00%
  总耗时: 195.7997秒
  平均延迟: 0.1958秒
  最小延迟: 0.0564秒
  最大延迟: 0.6201秒
  P50延迟: 0.1050秒
  P95延迟: 0.5674秒
  P99延迟: 0.5994秒
  标准差: 0.1829秒
  QPS: 5.11 请求/秒
  ============================================================
  
  开始顺序测试模型: Qwen3-Embedding-0.6B
  测试次数: 1000
    已完成 100/1000 次请求...
    已完成 200/1000 次请求...
    已完成 300/1000 次请求...
    已完成 400/1000 次请求...
    已完成 500/1000 次请求...
    已完成 600/1000 次请求...
    已完成 700/1000 次请求...
    已完成 800/1000 次请求...
    已完成 900/1000 次请求...
  
  ============================================================
  性能测试结果 - Qwen3-Embedding-0.6B
  ============================================================
  总请求数: 1000
  成功请求: 1000
  失败请求: 0
  成功率: 100.00%
  总耗时: 100.2533秒
  平均延迟: 0.1003秒
  最小延迟: 0.0513秒
  最大延迟: 0.6249秒
  P50延迟: 0.0539秒
  P95延迟: 0.4993秒
  P99延迟: 0.5180秒
  标准差: 0.1354秒
  QPS: 9.97 请求/秒
  ============================================================
  
  结果已保存到: performance_results.json
  
  ============================================================
  性能测试汇总对比
  ============================================================
  
  模型: bge-m3 (concurrent)
    QPS: 6.89
    平均延迟: 0.1451秒
    成功率: 100.00%
  
  模型: bge-m3 (sequential)
    QPS: 13.42
    平均延迟: 0.0745秒
    成功率: 100.00%
  
  模型: Qwen3-Embedding-0.6B (concurrent)
    QPS: 5.11
    平均延迟: 0.1958秒
    成功率: 100.00%
  
  模型: Qwen3-Embedding-0.6B (sequential)
    QPS: 9.97
    平均延迟: 0.1003秒
    成功率: 100.00%