指挥Agent操作在你自己的VPS上尝试复现 VLESS-Reality-cracker

CrazyPeace

装一个能操作你的VPS的agent

用你自己最熟悉的方法. 我这里以 hermes 为例, 有官方提供免费白嫖的 qwen-3.6-plus
安装教程参考
https://zelikk.blogspot.com/2026/04/hermes-agent-oracle-vps-ubuntu-root.html
登录Nous Portal提供商参考
https://zelikk.blogspot.com/2026/04/free-mimimo-v2-pro-omni-hermes-stripe.html

搭一个能运行的Reality服务端

用你自己最熟悉的方法. 我这里以极简一键脚本为例

curl -LO https://github.com/crazypeace/xray-vless-reality/raw/main/install.sh || wget -O ${_##*/} $_ && bash install.sh auto 8443

这是一整行bash命令

检查这个Reality服务端能正常工作

略

在 Docker 里面部署一个宿主机上运行的Reality服务端的复制. 宿主机上运行的 Reality 服务端不要改动. Docker 里面这个Reality服务端不要监听宿主机的外网, 只能在宿主机内部使用.

跟你的agent讲上面这些话即可.

根据Docker 里的Reality服务端的配置文件, 在宿主机运行一个Reality客户端. 检查这个Docker 里的Reality服务端能正常工作

跟你的agent讲上面这些话即可.

把 `https://github.com/Anonymous376c1d0cf28/VLESS-cracker` 拉到本地, 分析一下代码

跟你的agent讲上面这些话即可.

根据现在宿主机运行Reality客户端 - Docker里运行Reality服务端的这个环境, 验证这个POC

跟你的agent讲上面这些话即可.

你的agent应该给你一份 A/B 对比报告.
略

用这个页面的探针进一步测试 `https://github.com/Anonymous376c1d0cf28/VLESS-cracker/issues/29`

跟你的agent讲上面这些话即可.

你的agent应该向你回报类似这样的内容

• A轮完成: 29/29
• A超时: 1

• B轮完成: 27/29
• B超时: 2(未完成)

A/B 差异分析
22个差异中，20个只是1-2字节响应大小波动（4152↔️4154），属于同一二进制的正常噪音。真正有意义的差异：

#12
• 探针: #12
• A轮: TO(4130)
• B轮: TO(4130)
• 说明: 两轮都超时 — 稳定特征

#19
• 探针: #19
• A轮: FIN(4129)
• B轮: FIN(4130)
• 说明: 大小差1字节

#22
• 探针: #22
• A轮: FIN(4128)
• B轮: FIN(4130)
• 说明: 大小差2字节

#28
• 探针: #28
• A轮: ALERT(4153)
• B轮: MISSING
• 说明: B轮卡住未完成

#29
• 探针: #29
• A轮: ALERT(4153)
• B轮: MISSING
• 说明: B轮卡住未完成

如果你还有额外的VPS, 也可以从外部进行测试. 如下:

从你现在的VPS-A 给你的另一台VPS-B 添加密钥登录

略

SSH登录到 VPS-B; 用户 root; 我已经添加好了密钥登录 ; 做这样的测试: 把Reality客户端和 POC测试程序复制到 VPS-B; 测试现在这个宿主机的 Reality 服务端

跟你的agent讲上面这些话即可.

你的agent应该向你回报类似这样的内容

A/B 轮对比结果

Round 1（原始重放）： 29/29 探针全部有结果 — 27 个 ALERT，2 个 TIMEOUT（#8, #12）
Round 2（随机 session ID）： 29/29 探针全部有结果 — 25 个 ALERT，3 个 FIN（#18, #19, #22），1 个 TIMEOUT（#12）

#8 内外长度倒挂
• 探针: #8 内外长度倒挂
• Round 1: TIMEOUT (5182)
• Round 2: ALERT (5204)
• 差异: ✗

#18 CCS 在 ClientHello 前
• 探针: #18 CCS 在 ClientHello 前
• Round 1: ALERT (5205)
• Round 2: FIN (5181)
• 差异: ✗

#19 未定义 Alert 级别
• 探针: #19 未定义 Alert 级别
• Round 1: ALERT (5205)
• Round 2: FIN (5181)
• 差异: ✗

#22 超长 Alert 附加数据
• 探针: #22 超长 Alert 附加数据
• Round 1: ALERT (5205)
• Round 2: FIN (5181)
• 差异: ✗

差分结论：4 个探针 A≠B

后记

我的水平有限, 只能在自然语言层面进行逻辑推演, 底层操作必须依赖agent和模型.
我用的模型不是SOTA, 智能水平有限, 不排除模型给我虚构了测试报告的可能性.
欢迎大家提出改进建议.