Manus诞生全过程深度解析：起源、发展与未来展望

去年最让我获得精神养分的创业故事，来自Dify创始人张路宇。初次见到他是在2023年”西溪论道”活动上，当时在一众星光熠熠的嘉宾中，张路宇这个名字并不起眼。然而到了2024年再次相遇时，Dify已经蜕变成另一个故事——这位没有光鲜背景的创业者，在众人质疑商业模式的声音中，硬是打造出了全球最成功的AI开源产品之一。

这家公司在过去一年经历的故事，比如意外在”因循守旧、易守难攻”的日本市场大受欢迎，让我对”创业”有了更深的理解。创业路上充满意外，需要运气，但最终考验的是在持续变化与事与愿违中摸索出一条道路的能力。

如今，类似的故事正在另一位备受关注的创业者——Manus.im创始人肖弘和他的团队身上上演。四个月前，肖弘曾表达过一个困惑：”团队擅长从0到1，抓机会能力很强，但一旦进入1到N阶段，状态就不那么好了。”

回顾他的创业历程，多数项目都取得了稳定可观的营收，上一家公司也成功被收购。2023年，他的新公司”蝴蝶效应”凭借浏览器插件Monica.im，在百模大战的AI竞争中另辟蹊径，成为增长最快、体验极佳的AI应用之一。32岁就取得这些成就，他看起来像是一路顺风顺水的创业者。

但肖弘坦言，自己并没有太多”爽感”。在他看来，所谓”连续退出创业者”、不断从0到1的成就感，就像一座围城——虽然从0到1抓机会的能力很强、很爽，但也担心会不会又要重来一次。

2024年，行业人士认为像Monica.im这样带有记忆功能的AI助手，将面临豆包等强劲对手的压力，发展不会像2023年那样顺利。Monica.im完成了很好的从0到1，但能否实现1到N的跨越仍是未知数。

肖弘的困惑正源于此——”团队接下来真的要做更难的事情、天花板更高的事情”，探索能够跨越1到N的路径。此前，很多关注Monica.im的声音都猜测这件”更难、天花板更高的事”是指传闻已久的AI浏览器。

事实证明，大家都猜错了。这个更难的探索其实是：放弃已经达到发布状态的AI浏览器、寻找下一个”ChatGPT时刻”的AI产品、最终确定了通用型agent这个方向，做出了最新发布的Manus.im。

关于Manus的创新程度和未来发展潜力，目前已成为热议话题。但更值得关注的是他们在”事与愿违”中找到新方向的过程。Manus未必能让这支团队实现1到N的跨越，甚至未必能复制Monica.im的增长势头，但正如公司名”蝴蝶效应”所寓意的，许多小的决定和行动可能会在未来产生深远影响，”Connect the Dots”，今天的经历中藏着明天的道路。

Table of Contents

01 Manus的独特体验，源自AI浏览器的教训

自去年中下旬以来，”蝴蝶效应”团队开发AI浏览器已成为行业”半公开”的秘密。而最终亮相的产品，却是引发广泛关注的Manus。

体验过Manus或看过演示视频的人都会发现，它与普通聊天机器人或其他类agent应用有明显不同：Manus可以异步、并行执行任务。

当你使用豆包、Kimi或类Computer Use应用时，提出一个问题后必须等待它完成回复。如果在它回复或执行任务过程中再次发言，上一段回复/任务就会中断，交互只能是A-B-A-B的接力式对话。

但在Manus.im中，虽然界面仍是聊天机器人形态，你却可以同时提出20个问题让它并行处理。你可以继续在电脑上做其他事情——看视频、写文档、打游戏，都不会影响它的工作。当任务完成或遇到问题时，Manus会主动通知你。如果在执行过程中发现它的思路出现偏差，你也可以随时在对话框补充提示词，它会带着新上下文继续思考和执行任务。

这种异步、并行的体验，确实像拥有了一支帮你干活的真人实习生团队。

实际上，Manus异步体验的产品架构设计，正是来自团队在上一个未公开产品——AI浏览器中获得的教训。这也是团队投入大量精力后，在去年10月决定终止浏览器项目的原因。

The Browser Company于2024年10月25日宣布停止对Arc浏览器的新功能开发，决定将资源转移到新浏览器Dia上，旨在打造更简洁、更易用的AI浏览器。｜来源：Arc官网

“在AI浏览器里，AI在不断打断用户。”因为它是为单用户设计的场景，AI工作时你就无法操作，只能看着AI工作，不敢轻易触碰键盘鼠标，生怕打断整个流程导致需要重来。

这让团队得出两个结论：直接用电脑进行Computer Use短期内不太可行；AI应该有自己的浏览器，最好在云端运行，最后把结果反馈给用户。

在与腾讯科技张小珺的对话中，肖弘提到，团队在总结从Jasper到ChatGPT到Monica到Cursor到Devin的产品形态时，发现”人类程序员”Devin就符合这种异步体验架构。它不像Windsurf那样有时需要用户确认是否安装某个库，或者执行命令行操作时要求用户输入yes或no——因为它可能会搞坏你的电脑。

因此Manus团队认为，”Chatbot应该在云端有台电脑，把写的代码、要通过浏览器查询的内容都在那台虚拟电脑上执行。因为是虚拟服务器，坏了也无所谓，可以随时重建。甚至可以在当前任务完成后释放那个服务器。”

值得注意的是，相比Devin选择垂直领域、面向硬核工程师，Manus团队则定位通用型、消费级AI助手，有Web版也会有App。这是一款能根据指令调用工具、完成工作与生活中各类任务的通用AI助手，未来也会以消费者可负担的价格交付任务结果。

02 更少结构，更多智能

有了明确思路和目标，下一步就是实现这个想法。Manus究竟是如何做到的？

产品合伙人张涛认为，这需要给大模型配一台电脑，同时赋予系统权限（接入代码仓库、专业数据查询网站等私有API），并进行适当培训。

这样AI就能自己用这台电脑打开浏览器，调度工具，观察动作对真实世界的影响，再思考下一步行动…这是AI探索和调研中完成任务的过程。期间，Manus会在你的”调教”下越来越懂你的需求，未来即使你没有明确定义需求，它也能根据任务中沉淀的知识”揣摩圣意”。

华为天才少年、Logenic AI创始人李博杰认为Manus有一眼不同于其他产品的厉害之处：以极客程序员的方式解决问题。｜图片来源：微信截图

Manus产品的理念在其开发过程中逐渐明确：Less Structure, More Intelligence（更少结构，更多智能）。

这也让团队不断产生”A-Ha, Wait！”（惊呆了）的时刻。比如今年1月发生的一幕：当让Manus完成GAIA测试集上一个题目——”在一个国家地理风格的Youtube视频中，数出同时出现最多品种企鹅的画面中有几种企鹅”时，神奇的事情发生了。

Manus先打开视频链接，第一个动作是”按K键”，接着挨个截图记录每帧出现的企鹅种类，最后得出最多的一帧有3种企鹅。然后它要回去检查，下一个动作是”按3键”…最终确认答案是3。

作为Manus的创造者，团队理应了解它的能力边界，但实际情况是”总有惊喜发生”。令人意外的不仅是Manus做对了题目，更在于——使用多年电脑和YouTube的人类可能都不知道键盘上”K””3″这些键的功能。

团队跟着Manus的操作发现：”K”是暂停键，让Manus暂停后截图记录；”3″是进度条30%的快捷键，可以精确定位到视频特定位置。肖弘在腾讯科技采访中提到这一幕时表示：”这个过程与传统Chatbot完全不同。第一，它能看YouTube画面而非字幕；第二，我们震惊地发现它竟然会使用YouTube快捷键。”

团队突然意识到，Manus不仅在编程上比人擅长，就连在人们日常使用的Web、App上，它的知识量也远超想象。作为一个全知全能的AI，它能在任何工具中了解所有途径和手段，然后选择最优方法。

这让团队再次感受到”Less Structure, More intelligence”的价值——尽量减少人工对AI的限制，让AI通过自身进化发挥作用，而不是教它怎么做。

Manus官网底部悄悄呈现了最重要的发现：”Less Structure, More intelligence”。｜截图来源：Manus

这是”蝴蝶效应”联合创始人、首席科学家Peak在Manus上线当天，对其背后第一性原理的阐述：

当数据足够优质、模型足够智能、架构足够灵活、工程足够扎实时，Computer Use、Deep Research、Coding Agent等概念就会从产品特性变为自然涌现的能力。

回归第一性原理也带来了对产品形态的新思考：AI浏览器不是在浏览器里加AI，而是做给AI用的浏览器；AI搜索不是从索引召回再总结，而是让AI以用户权限获取信息；操作GUI不是抢夺用户设备控制权，而是让AI有自己的虚拟机；编写代码不是最终目的，而是解决问题的通用媒介…

一次次”Less Structure, More intelligence”的实践，让Manus产生了超出预期的效果，包括在GAIA benchmark中的pass@1分数超过了OpenAI Deep Research在cons@64下的成绩；内部测试显示，Manus能直接覆盖Y Combinator W25中76%的专用agent产品场景。

03 Agent可能是对齐问题，而非基础模型能力问题

这些洞察的价值正在引发更广泛的讨论：

Hugging Face创始人Clement Delangue在X平台提出Peak的发现值得思考：智能体能力不是卡在基座模型上，而是像GPT-3与InstructGPT（ChatGPT）的差别一样，是对齐问题。一些开源基础模型被简单训练成”无论问题多复杂都能一轮回答完”，但这只是聊天机器人的要求，只需对智能体路径做些后训练，就能带来巨大不同。｜截图来源：X

Manus并未引入MCP（《模型上下文协议》），而是让AI自己写代码调用API来完成各种长尾任务。｜截图来源：X

在过去几天对Manus的讨论中，最常被问到的问题是：”通用AI Agent”是否可行，边界在哪里？

Peak认为，人与世界的交互其实非常标准——有眼睛、手、耳朵。如果把行动空间定义好，就应该能把一个agent嵌入到原本由人完成的环节中。既然人能用各种工具完成专业操作，那么如果一个agent具备足够知识、经过适当培训，又有良好的交互界面，它应该能像人一样工作，甚至可以使用特定SaaS产品。比如Manus官网上找房子的案例，就是让AI使用房地产领域专用SaaS产品工作。

他强调，应该定义清楚的是agent使用工具的边界，而不是它为哪类人群服务。Manus不是在模拟某个具体角色（如研发、产品经理等），而是在模拟一个能干事的人、一个实习生如何工作。

Manus的多智能体系统（Multi-agent system）指的是规划（Planning）与执行（Execution）的分离。在执行器（Executor）上，Manus采用了在编程和长程规划方面暂时领先的Claude，也用Qwen系列模型做后训练。

昨天，Manus与阿里通义千问达成战略合作，致力于在国产模型和算力平台上实现全部功能。｜图片来源：Manus

在规划器（Planner）部分，Manus做了大量工作。目前市面上的API或模型本质上都是为聊天机器人场景对齐的——无论问题多复杂，训练目标都是在一个回复内回答清楚，这与agent需要的planning完全相反。

因此如果直接把现有模型用于agent场景，由于没有”对齐”，模型总会急于在一轮对话中给出一个”稀里糊涂”的结果，就像很多要点总结那样。

“对齐方式应该不同，我们认为需要专门的数据做对齐”，肖弘说。

去年10月，Peak在知乎记录过尝试复现OpenAI o1兴趣项目——Steiner开源模型的进展与失败，这个项目实际上就是在为Manus规划器部分的step by step planning（一步步规划）做预研。

总体而言，Manus是在模拟一个能做事的人，这是团队对Manus作为通用AI助手的产品定义。至于其边界，团队仍在探索中，需要更多用户案例。

在Manus发布前的腾讯科技采访中，肖弘已经表达了对Manus通用性的初步思考：”一个核心问题，或者说产品经理的重要职责，是控制用户预期。假设它能做世界上所有事，比如’我怎么赚100万美金？’这本来就不该由Agent执行。但如果我们能给出更多具体例子，让预期更合理，用户会用得更顺畅。”

04 最懂”壳”的团队

2月27日凌晨，当Manus在GAIA Benchmark上的成绩出炉时，产品合伙人张涛和首席科学家Peak都落泪了。Manus的成绩超过了OpenAI的Deep Research，而且以约1/10的成本（2美元/任务）取得了这一意外成果。

图片来源：Manus.im

几十人的团队，在agent成为全行业共识的竞争态势下，成为首批做出通用agent产品的团队之一，在产品工程和前端交互体验上也有独特性。

对创业团队来说，做成事情的正反馈胜过一切。但在这之前，Manus是如何诞生的？为什么是这个团队做出来的？

“今天的模型能力已经可以完成一些复杂、多步任务。只是没有这样的产品，所以大家感受不到。”肖弘此前在腾讯科技采访中的洞察可以解释这个问题。

同时，”有机会尝试做Agent产品的团队并不多，因为这需要复合能力：搞过Chatbot、AI编程、浏览器相关，还要对LLM边界有敏锐感知。具备这些能力的公司本就不多，而且这些公司可能正忙于具体业务。我们恰好有同学有时间把这些事做出来。”

“恰好”——在恰好的时间发现模型能力已达到做agent的水平；恰好发现问题出在对齐上；恰好做过聊天机器人和AI浏览器；又因一直”套壳”做大模型应用而对LLM有敏锐感知。”蝴蝶效应”团队凑齐了在当下做出通用agent的全部要素。

在被问及决定做Manus的关键时刻时，Peak表示：”创业没有’干净的’pivot”，一切都是连贯的。”做产品时会频繁关注外界变化。”当时有几件事：做浏览器时做过端侧模型，发现基座模型变强速度在加快，强到与agent的差距可能只是对齐问题；同时Cursor开始火，然后是Windsurf和Devin，显示agent在编程领域逐渐被接受；VC也在投云端Browser和AI Sandbox虚拟机等项目。

这说明”模型基建在迅速成熟，Infra基建也在成熟，加上外界产品接受度提高，我们就觉得这是个值得all in的方向。这是个非常渐进、平滑的过程，加上做浏览器时的积累如chromium基建可以无缝迁移，这也是我们敢在云端搞浏览器的原因。”

总结来说，在”套壳”过程中积累的需求和模型感知经验共同造就了Manus。Monica的许多场景需要模型后训练，AI浏览器的实践强化了”less structure, more intelligence”的理念，发现模型能力已达做agent水平，问题在于对齐。接着就是Manus飞速进化的三个月。

此前，”蝴蝶效应”团队一度被质疑”套壳”的价值——在不自研大模型的情况下，通过整合现有大模型做出Monica，集成聊天、搜索、阅读、写作、翻译等功能，通过接API方式实现许多任务场景，去年底用户量达千万。

如今，当豆包、夸克、元宝都在推广各自的Monica类产品，当一个小团队又利用现有技术做出首个通用消费级agent时，是时候重新理解”壳”了。

在肖弘看来，所有突破都是模型驱动的。壳的作用是把模型技术创新以用户可感知的方式展示出来，将模型创新能力封装成用户最能理解的形式。从这个定义看，DeepSeek App是DeepSeek-R1的壳，Cursor是Anthropic Sonnet 3.5的壳，Perplexity是GPT-4的壳，ChatGPT是InstructGPT的壳。

随着模型能力快速进化

声明：文章不代表CHAINTT观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！转载请注明出处：https://www.chaintt.cn/19208.html

Manus诞生全过程深度解析：起源、发展与未来展望

01 Manus的独特体验，源自AI浏览器的教训

02 更少结构，更多智能

03 Agent可能是对齐问题，而非基础模型能力问题

04 最懂”壳”的团队

联系我们

400-800-8888

Manus诞生全过程深度解析：起源、发展与未来展望

芝麻开门(Gateio)

币安(Binance)

01 Manus的独特体验，源自AI浏览器的教训

02 更少结构，更多智能

03 Agent可能是对齐问题，而非基础模型能力问题

04 最懂”壳”的团队

联系我们

400-800-8888