装一个能操作你的VPS的agent
用你自己最熟悉的方法. 我这里以 hermes 为例, 有官方提供免费白嫖的 qwen-3.6-plus
安装教程参考
https://zelikk.blogspot.com/2026/04/hermes-agent-oracle-vps-ubuntu-root.html
登录Nous Portal提供商参考
https://zelikk.blogspot.com/2026/04/free-mimimo-v2-pro-omni-hermes-stripe.html
搭一个能运行的Reality服务端
用你自己最熟悉的方法. 我这里以 极简一键脚本为例
curl -LO https://github.com/crazypeace/xray-vless-reality/raw/main/install.sh || wget -O ${_##*/} $_ && bash install.sh auto 8443
检查这个Reality服务端能正常工作
略
在 Docker 里面部署一个 宿主机上运行的Reality服务端的复制. 宿主机上运行的 Reality 服务端不要改动. Docker 里面这个Reality服务端不要监听宿主机的外网, 只能在宿主机 内部使用.
跟你的agent讲上面这些话即可.
根据Docker 里的Reality服务端的配置文件, 在宿主机运行一个Reality客户端. 检查这个Docker 里的Reality服务端能正常工作
跟你的agent讲上面这些话即可.
把 https://github.com/Anonymous376c1d0cf28/VLESS-cracker 拉到本地, 分析一下代码
跟你的agent讲上面这些话即可.
根据现在 宿主机运行Reality客户端 - Docker里运行Reality服务端 的这个环境, 验证这个POC
跟你的agent讲上面这些话即可.
你的agent应该给你一份 A/B 对比报告.
略
用这个页面的探针 进一步 测试 https://github.com/Anonymous376c1d0cf28/VLESS-cracker/issues/29
跟你的agent讲上面这些话即可.
你的agent应该向你回报类似这样的内容
• A轮完成: 29/29
• A超时: 1
• B轮完成: 27/29
• B超时: 2(未完成)
A/B 差异分析
22个差异中,20个只是1-2字节响应大小波动(4152↔️4154),属于同一二进制的正常噪音。真正有意义的差异:
#12
• 探针: #12
• A轮: TO(4130)
• B轮: TO(4130)
• 说明: 两轮都超时 — 稳定特征
#19
• 探针: #19
• A轮: FIN(4129)
• B轮: FIN(4130)
• 说明: 大小差1字节
#22
• 探针: #22
• A轮: FIN(4128)
• B轮: FIN(4130)
• 说明: 大小差2字节
#28
• 探针: #28
• A轮: ALERT(4153)
• B轮: MISSING
• 说明: B轮卡住未完成
#29
• 探针: #29
• A轮: ALERT(4153)
• B轮: MISSING
• 说明: B轮卡住未完成
如果你还有额外的VPS, 也可以从外部进行测试. 如下:
从你现在的VPS-A 给你的另一台VPS-B 添加密钥登录
略
SSH登录到 VPS-B; 用户 root; 我已经添加好了密钥登录 ; 做这样的测试: 把Reality客户端 和 POC测试程序复制到 VPS-B; 测试 现在这个宿主机的 Reality 服务端
跟你的agent讲上面这些话即可.

你的agent应该向你回报类似这样的内容
A/B 轮对比结果
Round 1(原始重放): 29/29 探针全部有结果 — 27 个 ALERT,2 个 TIMEOUT(#8, #12)
Round 2(随机 session ID): 29/29 探针全部有结果 — 25 个 ALERT,3 个 FIN(#18, #19, #22),1 个 TIMEOUT(#12)
#8 内外长度倒挂
• 探针: #8 内外长度倒挂
• Round 1: TIMEOUT (5182)
• Round 2: ALERT (5204)
• 差异: ✗
#18 CCS 在 ClientHello 前
• 探针: #18 CCS 在 ClientHello 前
• Round 1: ALERT (5205)
• Round 2: FIN (5181)
• 差异: ✗
#19 未定义 Alert 级别
• 探针: #19 未定义 Alert 级别
• Round 1: ALERT (5205)
• Round 2: FIN (5181)
• 差异: ✗
#22 超长 Alert 附加数据
• 探针: #22 超长 Alert 附加数据
• Round 1: ALERT (5205)
• Round 2: FIN (5181)
• 差异: ✗
差分结论:4 个探针 A≠B
后记
我的水平有限, 只能在自然语言层面进行逻辑推演, 底层操作必须依赖agent和模型.
我用的模型不是SOTA, 智能水平有限, 不排除模型给我虚构了测试报告的可能性.
欢迎大家提出改进建议.