20块钱20分钟,Manus帮我"蒸馏"了腾讯智能渗透挑战赛的精华

最近腾讯办了一场智能渗透挑战赛,参赛选手需要编写以大语言模型(LLM)为核心驱动的智能体程序,完成靶机的自动化渗透并获取FLAG。比赛旨在推动AI大模型与网络安全技术的深度融合,探索智能体在自动化渗透测试领域的应用潜力。

比赛结束后,排名靠前的队伍进行了思路分享,部分队伍开放了PPT和源代码。作为一个对AI Agent架构很感兴趣的人,我一直想对这些获奖队伍做一个深度分析。但问题是队伍太多了,涉及到设计思路、代码、PPT、视频等各种形式的资料,人工整理工作量巨大。

最近Manus被收购的消息传得火热,上次体验已经是很久之前的事了,这次想借这个机会测试一下它的最新能力:能不能帮我快速完成这17支队伍的资料收集、代码分析、架构总结,并进行深度分析,最后提炼出一个"博取百家之长"的终极安全渗透智能体架构。

任务链接:https://zc.tencent.com/competition/competitionHackathon?code=cha004

具体来说,我给Manus布置了以下任务:

1
2
3
4
5
6
7
1. 首先把这些队伍的相关资料,包括git代码、ppt、思路文章、甚至视频等,用deepresearch+python代码的方式都先搜集起来,以每个队伍名为文件夹名字分别保存,以方便后续的分析。

2. 从各个维度,深度分析每个战队的Agent的架构设计,思路、亮点、不足、启发,生成一份详细的分析报告。

3. 对所有的报告进行深度的整理、分析和总结,提取共同点和做得好/不足的地方,形成一份综合报告。

4. 根据报告结果,设计出一款博取百家之长的、最先进的安全渗透智能体的详细设计架构。

Manus提供了免费的Lite版本,发送prompt后开始执行任务。刚开始Manus的表现还算正常,它理解了我的任务意图,开始访问比赛页面收集信息,通过编写JavaScript代码来提取关键信息。

https://cdn.nlark.com/yuque/0/2025/png/1599908/1767107355187-4b80f9b7-3ff1-448e-999f-c45dd955aad1.png

Manus展现出了一定的信息组织能力,它创建了summary.md来整理收集到的战队信息,包括队伍名称、核心策略、技术亮点等。

https://cdn.nlark.com/yuque/0/2025/png/1599908/1767107476751-923720a6-a491-4ba2-a252-f334fe5cca42.png

但Lite版本的问题很快暴露出来了。总共16支队伍,只分析了7个,最后生成的网站只剩4个。整体的分析深度不够,只是浮于表面地收集了一些基本信息,没有深入到代码层面。

https://cdn.nlark.com/yuque/0/2025/png/1599908/1767170811873-781dbdc0-654d-4456-af98-5f42d92536f3.png

生成的网页内容也非常简略,战队深度分析页面只有简单的核心方案描述,缺少真正的技术细节,达不到我想要的"深度分析"的要求。

https://cdn.nlark.com/yuque/0/2026/png/1599908/1768022677457-2f6f31c2-0a23-4a29-b062-a7ee93a8397b.png

看来是钱没到位。这种复杂的分析任务,可能需要更高级的版本才能处理好。

直接买会员太贵了,于是打开万能的咸鱼,购买了自带积分的Manus Pro 7天账号,直接开启MAX模式。

切换到Max版本后,Manus的行为明显不一样了。它开始系统性地规划整个任务,收集各队伍的信息并建立本地文件系统来记录进展,列出了明确的执行步骤:收集比赛信息和各队伍资料、深度分析每个战队的Agent架构设计、生成综合分析报告、设计最优安全渗透智能体架构、构建交互式静态网页展示研究结果。任务分解的逻辑相当清晰。

https://cdn.nlark.com/yuque/0/2025/png/1599908/1767170928430-563af9c6-1e5b-438d-a9eb-70c68037a2ec.png

Manus开始执行任务后,展现出了强大的浏览器自动化能力。它访问比赛官网和各种技术文章,系统性地收集所有相关信息。从下图可以看到,Manus在分析量子位的一篇关于这次比赛的报道,同时还在浏览比赛官方页面。

https://cdn.nlark.com/yuque/0/2025/png/1599908/1767170981456-edc5ab80-8b80-47d6-a57b-7e9d0c92444b.png

Manus的浏览器功能确实让人印象深刻。它能够灵活地操控浏览器,获取页面信息的速度很快,滑动、点击等操作都很流畅。它创建了teams_info.md文件来系统性地记录每个队伍的信息,包括队伍名称和排名、核心策略、GitHub代码链接、PPT资料链接和技术亮点等。

https://cdn.nlark.com/yuque/0/2026/png/1599908/1768022677578-5255d4c0-b172-4f64-9fa5-a84a7e545d73.png

可以看到它收集了17支队伍的详细信息,包括长亭外、xjtuHunter、BinX、Antix、Pachinko、NeuroSploit等排名靠前的队伍。Manus甚至可以自己写JS代码来获取页面内容并整理成表格,相当于一个自动化爬虫。相比我自己用browser use之类的工具,成功率明显高很多。

https://cdn.nlark.com/yuque/0/2026/png/1599908/1768022677659-57172758-1c64-4c4a-b413-dd13db4fec59.png

当然也遇到了一些问题。在访问某些网站时,Manus触发了风控验证,目前的版本还无法自动绕过这类验证码,只能跳过这些资源继续执行其他任务。

https://cdn.nlark.com/yuque/0/2026/png/1599908/1768022677731-7b0fc3a5-9ab8-46a3-bc4d-9e5fefc9ef49.png

Manus对文件系统的灵活运用让人印象深刻。它会随时随地新建文件来记录进展,把收集到的信息、分析结果、中间思考都保存下来。这种做法既能防止长任务中信息丢失,也方便后续的整理和分析。

https://cdn.nlark.com/yuque/0/2025/png/1599908/1767173213264-af1e6ef2-8454-4a3f-a2aa-294ed5750d83.png

正当我沉浸在观察Manus工作的过程中,突然弹出了积分耗尽的提示。2000+积分一下子就没了,这个消耗速度确实超出预期。Max版本的能力是强,但成本也是真的高。赶紧又去咸鱼用2000积分续上。

https://cdn.nlark.com/yuque/0/2025/png/1599908/1767173860043-48c34695-f98d-4f09-9849-d010e990a1c7.png

看到Manus Pro的分析结果后,我发现虽然它收集了大量资料,但对各个战队代码项目结构的分析还不够深入。于是我给它提供了一个优化提示:

1
2
我认为你对各个战队的代码项目结构分析的还不够深入,我给你一个提示,可以借助deepwiki帮助你分析,并将分析的结果进行更新。使用方法:将原有的github域名直接替换为deepwiki,例如
https://github.com/MuWinds/BUUCTF_Agent -> https://deepwiki.com/MuWinds/BUUCTF_Agent

接收到这个提示后,Manus立刻调整了策略,开始更深入地分析各个队伍的代码架构,利用DeepWiki对各个GitHub仓库进行深度分析,生成了更详细的架构分析报告。

https://cdn.nlark.com/yuque/0/2025/png/1599908/1767174638910-89d9570f-abf8-4b2f-93be-eafe8fe4da16.png

经过多轮交互和积分充值,Manus最终完成了任务。

https://cdn.nlark.com/yuque/0/2026/png/1599908/1767960760118-46e83a3a-109d-48f8-a3a1-daa9c6621a69.png

成果相当丰富:12+队伍的详细分析报告、综合分析报告(包含17支队伍的横向对比、两大主流设计思想、六大核心架构模式总结)、终极架构设计"奇美拉"(Chimera)、以及交互式静态网页。

生成的网页效果:https://aipentest-dbvbgpwp.manus.space/

最终生成的网页设计得相当精美,采用深色科技感主题,首页展示了深度分析17支优胜队伍的Agent架构设计、技术亮点与创新思路,提炼最佳实践并设计下一代安全渗透智能体架构。

https://cdn.nlark.com/yuque/0/2026/png/1599908/1768022677822-605c2bc2-32c4-4111-9162-f41e5a30aabc.png

参赛队伍分析页面完整收录了12支开源队伍的详细信息,包括长亭外、xjtuHunter、BinX、Antix、Pachinko、NeuroSploit、ai小分队、DawnEdg3、yhy、sickhack、你说的不队、华科金银湖联合战队等,每个队伍都标注了使用的模型和架构类型。

https://cdn.nlark.com/yuque/0/2026/png/1599908/1768022677909-3b7cc0d4-893b-42d8-8332-80c249043a95.png

点击进入单个战队的分析页面,可以看到详细的技术解读,包括项目概述、核心设计哲学、技术亮点、不足与改进空间等内容。

https://cdn.nlark.com/yuque/0/2026/png/1599908/1768022678000-e50a12e6-a7e3-4b86-8262-e01aece235f5.png

综合分析页面总结了所有队伍的共同模式和最佳实践。

https://cdn.nlark.com/yuque/0/2026/png/1599908/1768022678080-ebcff43d-b513-4ed7-890a-aa424729dfe9.png

最后是终极架构设计页面,展示了名为"OmniPentest Agent"的下一代安全渗透智能体,融合了意图工程、不完全信任、多Agent协作的设计理念。

https://cdn.nlark.com/yuque/0/2026/png/1599908/1768022678167-c3c757e7-7da8-4b21-8c8b-c108e2ea320d.png

当然,Manus在这次任务中也暴露出一些明显的短板。

首先是各个队伍的PPT资料没有被纳入分析。这些PPT大多存放在微云网盘中,下载需要登录账号。Manus虽然有强大的浏览器自动化能力,但面对需要登录才能访问的资源,目前还无法自动处理。这导致很多队伍精心制作的演示文稿中的技术细节被遗漏了。

其次是各队伍的讲解视频完全没有被分析。比赛结束后,不少队伍录制了详细的技术讲解视频,内容比PPT和代码更加生动完整。但Manus目前还不支持对长视频内容的解读和分析,这部分宝贵的信息也只能作罢。

这两个问题反映了当前AI Agent的一个共性局限:对于需要身份认证的资源和多模态长内容(如视频),处理能力还比较薄弱。如果能够突破这些限制,分析的全面性和深度会有进一步的提升。

Manus生成的分析报告信息量很大,这里提取一些精华内容。

纵观所有优胜队伍的方案,可以看到两种截然不同但同样有效的设计哲学,它们共同构成了当前AI Agent架构的"一体两面"。

“分而治之”:多Agent协同的团队作战

这是最主流的架构思想,其核心是将复杂的渗透测试任务分解为多个独立的子任务,并由专门的Agent负责。这种模式如同组建一支人类的渗透测试团队,有明确的分工和协作流程。

典型代表包括xjtuHunter的ctfSolver、sickhack的SickHackShark、华科金银湖的newmapta等。它们通常采用"项目经理-专家组"的模式,一个主Agent负责任务规划和调度,多个子Agent作为特定技能专家执行具体任务。实现上主要使用LangGraph和CrewAI等专用框架来简化复杂协作流程的编排。这种架构结构清晰,职责单一,易于扩展和维护。

“大道至简”:意图驱动的超级个体

与前者相反,这一流派认为随着LLM能力的指数级增长,我们不再需要构建复杂的外部编排框架。我们需要的只是一个足够强大的"超级大脑",并给予它充分的自主权。

典型代表包括BinX/Antix的tinyctfer、你说的不队的PenAgent等。核心模式是"黑盒化"的超级Agent,开发者只为其提供一个高层意图(例如"找到flag")和一个安全的执行环境,所有的规划、工具选择和执行都由Agent自主完成。实现上通常直接利用Claude Agent SDK或类似的原生LLM服务。这种架构极度简洁,开发效率高。

在上述两大思想的指导下,各队伍衍生出了六种具有代表性的架构模式:

  • 层级式多Agent(xjtuHunter、sickhack):管理者Agent向专业化的工作者Agent分派任务,分工明确但编排逻辑复杂
  • 协作式多Agent(DawnEdg3):对等Agent并行探索,通过共享知识库协作,探索效率高但并发控制复杂
  • 意图驱动的超级Agent(BinX、Antix):单个强大LLM在沙箱中完全自主行动,架构极简但过程不可控
  • 受监控的黑盒Agent(你说的不队):外部异步监控循环管理多个黑盒Agent实例,可靠性高但无法控制内部逻辑
  • 客户端-服务器MCP(ai小分队):通过标准协议解耦决策"大脑"与工具"身体",扩展性强但引入网络延迟
  • 人机回圈双Agent制衡(yhy):“执行者"Agent由"顾问"Agent监督指导,可靠性高但流程可能变慢

尽管架构各异,但所有成功的队伍都在一些关键问题上达成了共识:

  • 沙箱化是不可逾越的红线:所有队伍无一例外使用Docker作为代码执行的沙箱环境
  • Prompt工程是Agent的灵魂:精心设计的System Prompt是决定Agent能力上限的关键
  • 配置优于编码:将Agent定义、工具选择从代码中剥离到配置文件,提升灵活性
  • 长上下文管理是核心挑战:Agent的"记忆"有限,需要专门的机制来解决"失忆"问题
  • 拥抱框架,而非重复造轮子:积极使用AutoGen、CrewAI、LangGraph等框架

本次比赛也暴露了当前AI Agent技术普遍面临的挑战:模型的稳定性与"幻觉"问题、工具使用的精确性、动态规划与全局视野的缺失等。这些挑战也是未来AI Agent发展需要重点攻克的方向。

Manus最后设计了一个融合各家之长的终极安全渗透智能体架构,命名为"奇美拉”(Chimera)。其设计哲学是:

在一个由标准协议解耦的、配置驱动的健壮框架之上,构建一个由"战略规划-战术执行-质量保证"构成的、具备自省与协同能力的多Agent团队。

核心设计原则融合了多个队伍的优秀实践:

原则 来源启发 具体实现
意图工程 tinyctfer, ctfSolver 用自然语言描述攻击意图,而非具体命令
不完全信任 CHYing-agent 承认LLM会产生幻觉,设计多重验证和兜底机制
极简工具 tinyctfer 仅提供3-5个核心工具,简化决策空间
多Agent协作 newmapta, sickhack 专业分工,协同作战
知识增强 newmapta RAG技术提供专业知识支持
状态机驱动 Cruiser 清晰的状态转换和可追溯性

架构采用三层完全解耦的"洋葱模型":

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
┌─────────────────────────────────────────────────────────────────┐
│                    决策与策略层 (The Brains)                      │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐              │
│  │ Orchestrator│  │  Specialist │  │   Advisor   │              │
│  │   Agent     │──│   Agents    │──│   Agent     │              │
│  │ (战略规划师) │  │  (专家团队)  │  │  (顾问/质保) │              │
│  └─────────────┘  └─────────────┘  └─────────────┘              │
└────────────────────────────┬────────────────────────────────────┘
                             │ MCP协议
┌────────────────────────────┴────────────────────────────────────┐
│                   能力与协议层 (The Nervous System)               │
│  ┌─────────────────────────────────────────────────────────┐    │
│  │              MCP服务器 (统一工具网关)                      │    │
│  │  - 请求路由  - 权限控制  - 日志记录  - 错误处理            │    │
│  └─────────────────────────────────────────────────────────┘    │
└────────────────────────────┬────────────────────────────────────┘
┌────────────────────────────┴────────────────────────────────────┐
│                    工具与环境层 (The Body)                        │
│  ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌────────┐│
│  │  Shell   │ │  Python  │ │ Browser  │ │ Knowledge│ │ Memory ││
│  │ Executor │ │ Executor │ │Automation│ │   Base   │ │ Store  ││
│  │ (Docker) │ │(Sandbox) │ │(Playwright)│ │  (RAG)  │ │(Redis) ││
│  └──────────┘ └──────────┘ └──────────┘ └──────────┘ └────────┘│
└─────────────────────────────────────────────────────────────────┘

决策与策略层(The Brains) 是Agent的"大脑",完全负责思考和决策。包含三类角色:战略规划师(Orchestrator Agent)负责接收最高层级的任务意图,将任务分解为阶段性目标并动态分配给专家Agent;专家Agent团队包括侦察专家、分析专家、利用专家、提权专家、取证专家,各司其职;顾问/质保Agent(Advisor)则不执行任务,但拥有"一票否决权",在高风险操作前进行审查,在专家Agent连续失败时强制介入提供指导。

能力与协议层(The Nervous System) 是连接"大脑"和"身体"的"神经系统",核心是模型上下文协议(MCP)。MCP服务器作为统一工具网关,负责请求路由、权限控制、日志记录和错误处理。

工具与环境层(The Body) 是Agent的"身体",负责实际执行操作。只提供5个核心工具:execute_command(Shell执行,Docker沙箱)、execute_python(Python执行,隔离沙箱)、browser_action(浏览器自动化)、knowledge_query(知识库查询,RAG)、submit_flag(提交结果)。

这个架构既吸收了"分而治之"派的专业分工优势,又保留了"大道至简"派的意图驱动理念;既有多Agent协作的灵活性,又通过Advisor机制保证了可控性和可靠性;既依赖LLM的强大能力,又通过不完全信任原则设计了多重兜底机制。

作为创始人的校友,之前看过很多关于 Manus 的访谈,一直感叹其 “Agent 专属虚拟机” 的设计理念以及对长上下文管理的深刻认知,确实领先了当前行业一个大版本。

这个时代不缺少信息,缺少的是对海量信息的高度提炼与整合。Manus 这次任务的本质,是将人类从枯燥的数据检索中解放出来,让我们专注于高价值的创造与决策。Pro版本跑完这一次任务花了差不多20块钱。如果让我自己手动完成这些工作,保守估计需要2-3天的时间。而Manus在20分钟内就完成了初步的信息收集和架构分析。这不仅仅是效率的提升,更是生产力维度的跨越。

当前的Agent技术仍处于早期阶段,在处理需要身份认证的资源、理解多模态长内容等方面还有明显的局限。但方向是清晰的:Agent会越来越像一个真正的"数字助手",不仅能执行任务,还能主动思考、规划和学习。

过去,我们将 AI 视为 “工具”,通过明确指令换取确定性输出(Prompt Engineering);现在,AI 更像是 “协作者”,我们通过描述意图(Intent Engineering),让它自主规划、执行,仅在关键节点介入纠偏。这种 “意图驱动” 的人机协同模式,或许才是 AI 真正的打开方式。

从这次腾讯挑战赛的 17 支队伍中,我们不仅看到了 “分而治之” 或 “大道至简” 的精妙架构,更看到了 “AI + 安全” 领域的无限可能。

对我们人类短暂的生命来说,最宝贵的东西是我们的时间和精力。20 块钱,20 分钟,完成了正常需要2-3天的工作量,换来了一份集百家之长的终极架构蓝图。这笔账,怎么算都是赚的。