Manus诞生全过程深度解析:起源、发展与未来展望

芝麻开门

芝麻开门(Gateio)

注册芝麻开门享最高$2,800好礼。

币安

币安(Binance)

币安是世界领先的数字货币交易平台,注册领100U。

Dify创始人张路宇从默默无闻到打造全球知名AI开源产品的故事,展现了创业的意外与韧性。而”蝴蝶效应”团队CEO肖弘则通过Monica.im在AI赛道错位竞争后,果断放弃已完成的AI浏览器,转向通用型AI助手Manus.im的开发。Manus创新性地实现异步并行任务处理,其”Less Structure, More Intelligence”理念在GAIA测试中超越OpenAI。团队凭借对”壳”价值的深刻理解,将现有技术整合为消费级AI产品,展现了快速创新能力。这印证了创业的蝴蝶效应——今天的决定将深远影响未来。

去年最让我获得精神养分的创业故事,来自Dify创始人张路宇。初次见到他是在2023年”西溪论道”活动上,当时在一众星光熠熠的嘉宾中,张路宇这个名字并不起眼。然而到了2024年再次相遇时,Dify已经蜕变成另一个故事——这位没有光鲜背景的创业者,在众人质疑商业模式的声音中,硬是打造出了全球最成功的AI开源产品之一。

这家公司在过去一年经历的故事,比如意外在”因循守旧、易守难攻”的日本市场大受欢迎,让我对”创业”有了更深的理解。创业路上充满意外,需要运气,但最终考验的是在持续变化与事与愿违中摸索出一条道路的能力。

如今,类似的故事正在另一位备受关注的创业者——Manus.im创始人肖弘和他的团队身上上演。四个月前,肖弘曾表达过一个困惑:”团队擅长从0到1,抓机会能力很强,但一旦进入1到N阶段,状态就不那么好了。”

回顾他的创业历程,多数项目都取得了稳定可观的营收,上一家公司也成功被收购。2023年,他的新公司”蝴蝶效应”凭借浏览器插件Monica.im,在百模大战的AI竞争中另辟蹊径,成为增长最快、体验极佳的AI应用之一。32岁就取得这些成就,他看起来像是一路顺风顺水的创业者。

但肖弘坦言,自己并没有太多”爽感”。在他看来,所谓”连续退出创业者”、不断从0到1的成就感,就像一座围城——虽然从0到1抓机会的能力很强、很爽,但也担心会不会又要重来一次。

2024年,行业人士认为像Monica.im这样带有记忆功能的AI助手,将面临豆包等强劲对手的压力,发展不会像2023年那样顺利。Monica.im完成了很好的从0到1,但能否实现1到N的跨越仍是未知数。

肖弘的困惑正源于此——”团队接下来真的要做更难的事情、天花板更高的事情”,探索能够跨越1到N的路径。此前,很多关注Monica.im的声音都猜测这件”更难、天花板更高的事”是指传闻已久的AI浏览器

事实证明,大家都猜错了。这个更难的探索其实是:放弃已经达到发布状态的AI浏览器、寻找下一个”ChatGPT时刻”的AI产品、最终确定了通用型agent这个方向,做出了最新发布的Manus.im。

关于Manus的创新程度和未来发展潜力,目前已成为热议话题。但更值得关注的是他们在”事与愿违”中找到新方向的过程。Manus未必能让这支团队实现1到N的跨越,甚至未必能复制Monica.im的增长势头,但正如公司名”蝴蝶效应”所寓意的,许多小的决定和行动可能会在未来产生深远影响,”Connect the Dots”,今天的经历中藏着明天的道路。

01 Manus的独特体验,源自AI浏览器的教训

自去年中下旬以来,”蝴蝶效应”团队开发AI浏览器已成为行业”半公开”的秘密。而最终亮相的产品,却是引发广泛关注的Manus。

体验过Manus或看过演示视频的人都会发现,它与普通聊天机器人或其他类agent应用有明显不同:Manus可以异步、并行执行任务。

当你使用豆包、Kimi或类Computer Use应用时,提出一个问题后必须等待它完成回复。如果在它回复或执行任务过程中再次发言,上一段回复/任务就会中断,交互只能是A-B-A-B的接力式对话。

但在Manus.im中,虽然界面仍是聊天机器人形态,你却可以同时提出20个问题让它并行处理。你可以继续在电脑上做其他事情——看视频、写文档、打游戏,都不会影响它的工作。当任务完成或遇到问题时,Manus会主动通知你。如果在执行过程中发现它的思路出现偏差,你也可以随时在对话框补充提示词,它会带着新上下文继续思考和执行任务。

这种异步、并行的体验,确实像拥有了一支帮你干活的真人实习生团队。

实际上,Manus异步体验的产品架构设计,正是来自团队在上一个未公开产品——AI浏览器中获得的教训。这也是团队投入大量精力后,在去年10月决定终止浏览器项目的原因。

Manus诞生全过程深度解析:起源、发展与未来展望

The Browser Company于2024年10月25日宣布停止对Arc浏览器的新功能开发,决定将资源转移到新浏览器Dia上,旨在打造更简洁、更易用的AI浏览器。|来源:Arc官网

“在AI浏览器里,AI在不断打断用户。”因为它是为单用户设计的场景,AI工作时你就无法操作,只能看着AI工作,不敢轻易触碰键盘鼠标,生怕打断整个流程导致需要重来。

这让团队得出两个结论:直接用电脑进行Computer Use短期内不太可行;AI应该有自己的浏览器,最好在云端运行,最后把结果反馈给用户。

在与腾讯科技张小珺的对话中,肖弘提到,团队在总结从Jasper到ChatGPT到Monica到Cursor到Devin的产品形态时,发现”人类程序员”Devin就符合这种异步体验架构。它不像Windsurf那样有时需要用户确认是否安装某个库,或者执行命令行操作时要求用户输入yes或no——因为它可能会搞坏你的电脑。

因此Manus团队认为,”Chatbot应该在云端有台电脑,把写的代码、要通过浏览器查询的内容都在那台虚拟电脑上执行。因为是虚拟服务器,坏了也无所谓,可以随时重建。甚至可以在当前任务完成后释放那个服务器。”

值得注意的是,相比Devin选择垂直领域、面向硬核工程师,Manus团队则定位通用型、消费级AI助手,有Web版也会有App。这是一款能根据指令调用工具、完成工作与生活中各类任务的通用AI助手,未来也会以消费者可负担的价格交付任务结果。

02 更少结构,更多智能

有了明确思路和目标,下一步就是实现这个想法。Manus究竟是如何做到的?

产品合伙人张涛认为,这需要给大模型配一台电脑,同时赋予系统权限(接入代码仓库、专业数据查询网站等私有API),并进行适当培训。

这样AI就能自己用这台电脑打开浏览器,调度工具,观察动作对真实世界的影响,再思考下一步行动…这是AI探索和调研中完成任务的过程。期间,Manus会在你的”调教”下越来越懂你的需求,未来即使你没有明确定义需求,它也能根据任务中沉淀的知识”揣摩圣意”。

Manus诞生全过程深度解析:起源、发展与未来展望

华为天才少年、Logenic AI创始人李博杰认为Manus有一眼不同于其他产品的厉害之处:以极客程序员的方式解决问题。|图片来源:微信截图

Manus产品的理念在其开发过程中逐渐明确:Less Structure, More Intelligence(更少结构,更多智能)。

这也让团队不断产生”A-Ha, Wait!”(惊呆了)的时刻。比如今年1月发生的一幕:当让Manus完成GAIA测试集上一个题目——”在一个国家地理风格的Youtube视频中,数出同时出现最多品种企鹅的画面中有几种企鹅”时,神奇的事情发生了。

Manus先打开视频链接,第一个动作是”按K键”,接着挨个截图记录每帧出现的企鹅种类,最后得出最多的一帧有3种企鹅。然后它要回去检查,下一个动作是”按3键”…最终确认答案是3。

作为Manus的创造者,团队理应了解它的能力边界,但实际情况是”总有惊喜发生”。令人意外的不仅是Manus做对了题目,更在于——使用多年电脑和YouTube的人类可能都不知道键盘上”K””3″这些键的功能。

团队跟着Manus的操作发现:”K”是暂停键,让Manus暂停后截图记录;”3″是进度条30%的快捷键,可以精确定位到视频特定位置。肖弘在腾讯科技采访中提到这一幕时表示:”这个过程与传统Chatbot完全不同。第一,它能看YouTube画面而非字幕;第二,我们震惊地发现它竟然会使用YouTube快捷键。”

团队突然意识到,Manus不仅在编程上比人擅长,就连在人们日常使用的Web、App上,它的知识量也远超想象。作为一个全知全能的AI,它能在任何工具中了解所有途径和手段,然后选择最优方法。

这让团队再次感受到”Less Structure, More intelligence”的价值——尽量减少人工对AI的限制,让AI通过自身进化发挥作用,而不是教它怎么做。

Manus诞生全过程深度解析:起源、发展与未来展望

Manus官网底部悄悄呈现了最重要的发现:”Less Structure, More intelligence”。|截图来源:Manus

这是”蝴蝶效应”联合创始人、首席科学家Peak在Manus上线当天,对其背后第一性原理的阐述:

当数据足够优质、模型足够智能、架构足够灵活、工程足够扎实时,Computer Use、Deep Research、Coding Agent等概念就会从产品特性变为自然涌现的能力。

回归第一性原理也带来了对产品形态的新思考:AI浏览器不是在浏览器里加AI,而是做给AI用的浏览器;AI搜索不是从索引召回再总结,而是让AI以用户权限获取信息;操作GUI不是抢夺用户设备控制权,而是让AI有自己的虚拟机;编写代码不是最终目的,而是解决问题的通用媒介…

一次次”Less Structure, More intelligence”的实践,让Manus产生了超出预期的效果,包括在GAIA benchmark中的pass@1分数超过了OpenAI Deep Research在cons@64下的成绩;内部测试显示,Manus能直接覆盖Y Combinator W25中76%的专用agent产品场景。

03 Agent可能是对齐问题,而非基础模型能力问题

这些洞察的价值正在引发更广泛的讨论:

Manus诞生全过程深度解析:起源、发展与未来展望

Hugging Face创始人Clement Delangue在X平台提出Peak的发现值得思考:智能体能力不是卡在基座模型上,而是像GPT-3与InstructGPT(ChatGPT)的差别一样,是对齐问题。一些开源基础模型被简单训练成”无论问题多复杂都能一轮回答完”,但这只是聊天机器人的要求,只需对智能体路径做些后训练,就能带来巨大不同。|截图来源:X

Manus诞生全过程深度解析:起源、发展与未来展望

Manus诞生全过程深度解析:起源、发展与未来展望

Manus并未引入MCP(《模型上下文协议》),而是让AI自己写代码调用API来完成各种长尾任务。|截图来源:X

在过去几天对Manus的讨论中,最常被问到的问题是:”通用AI Agent”是否可行,边界在哪里?

Peak认为,人与世界的交互其实非常标准——有眼睛、手、耳朵。如果把行动空间定义好,就应该能把一个agent嵌入到原本由人完成的环节中。既然人能用各种工具完成专业操作,那么如果一个agent具备足够知识、经过适当培训,又有良好的交互界面,它应该能像人一样工作,甚至可以使用特定SaaS产品。比如Manus官网上找房子的案例,就是让AI使用房地产领域专用SaaS产品工作。

他强调,应该定义清楚的是agent使用工具的边界,而不是它为哪类人群服务。Manus不是在模拟某个具体角色(如研发、产品经理等),而是在模拟一个能干事的人、一个实习生如何工作。

Manus的多智能体系统(Multi-agent system)指的是规划(Planning)与执行(Execution)的分离。在执行器(Executor)上,Manus采用了在编程和长程规划方面暂时领先的Claude,也用Qwen系列模型做后训练。

Manus诞生全过程深度解析:起源、发展与未来展望

昨天,Manus与阿里通义千问达成战略合作,致力于在国产模型和算力平台上实现全部功能。|图片来源:Manus

在规划器(Planner)部分,Manus做了大量工作。目前市面上的API或模型本质上都是为聊天机器人场景对齐的——无论问题多复杂,训练目标都是在一个回复内回答清楚,这与agent需要的planning完全相反。

因此如果直接把现有模型用于agent场景,由于没有”对齐”,模型总会急于在一轮对话中给出一个”稀里糊涂”的结果,就像很多要点总结那样。

“对齐方式应该不同,我们认为需要专门的数据做对齐”,肖弘说。

去年10月,Peak在知乎记录过尝试复现OpenAI o1兴趣项目——Steiner开源模型的进展与失败,这个项目实际上就是在为Manus规划器部分的step by step planning(一步步规划)做预研。

总体而言,Manus是在模拟一个能做事的人,这是团队对Manus作为通用AI助手的产品定义。至于其边界,团队仍在探索中,需要更多用户案例。

在Manus发布前的腾讯科技采访中,肖弘已经表达了对Manus通用性的初步思考:”一个核心问题,或者说产品经理的重要职责,是控制用户预期。假设它能做世界上所有事,比如’我怎么赚100万美金?’这本来就不该由Agent执行。但如果我们能给出更多具体例子,让预期更合理,用户会用得更顺畅。”

04 最懂”壳”的团队

2月27日凌晨,当Manus在GAIA Benchmark上的成绩出炉时,产品合伙人张涛和首席科学家Peak都落泪了。Manus的成绩超过了OpenAI的Deep Research,而且以约1/10的成本(2美元/任务)取得了这一意外成果。

Manus诞生全过程深度解析:起源、发展与未来展望
图片来源:Manus.im

几十人的团队,在agent成为全行业共识的竞争态势下,成为首批做出通用agent产品的团队之一,在产品工程和前端交互体验上也有独特性。

对创业团队来说,做成事情的正反馈胜过一切。但在这之前,Manus是如何诞生的?为什么是这个团队做出来的?

“今天的模型能力已经可以完成一些复杂、多步任务。只是没有这样的产品,所以大家感受不到。”肖弘此前在腾讯科技采访中的洞察可以解释这个问题。

同时,”有机会尝试做Agent产品的团队并不多,因为这需要复合能力:搞过Chatbot、AI编程、浏览器相关,还要对LLM边界有敏锐感知。具备这些能力的公司本就不多,而且这些公司可能正忙于具体业务。我们恰好有同学有时间把这些事做出来。”

“恰好”——在恰好的时间发现模型能力已达到做agent的水平;恰好发现问题出在对齐上;恰好做过聊天机器人和AI浏览器;又因一直”套壳”做大模型应用而对LLM有敏锐感知。”蝴蝶效应”团队凑齐了在当下做出通用agent的全部要素。

在被问及决定做Manus的关键时刻时,Peak表示:”创业没有’干净的’pivot”,一切都是连贯的。”做产品时会频繁关注外界变化。”当时有几件事:做浏览器时做过端侧模型,发现基座模型变强速度在加快,强到与agent的差距可能只是对齐问题;同时Cursor开始火,然后是Windsurf和Devin,显示agent在编程领域逐渐被接受;VC也在投云端Browser和AI Sandbox虚拟机等项目。

这说明”模型基建在迅速成熟,Infra基建也在成熟,加上外界产品接受度提高,我们就觉得这是个值得all in的方向。这是个非常渐进、平滑的过程,加上做浏览器时的积累如chromium基建可以无缝迁移,这也是我们敢在云端搞浏览器的原因。”

总结来说,在”套壳”过程中积累的需求和模型感知经验共同造就了Manus。Monica的许多场景需要模型后训练,AI浏览器的实践强化了”less structure, more intelligence”的理念,发现模型能力已达做agent水平,问题在于对齐。接着就是Manus飞速进化的三个月。

此前,”蝴蝶效应”团队一度被质疑”套壳”的价值——在不自研大模型的情况下,通过整合现有大模型做出Monica,集成聊天、搜索、阅读、写作、翻译等功能,通过接API方式实现许多任务场景,去年底用户量达千万。

如今,当豆包、夸克、元宝都在推广各自的Monica类产品,当一个小团队又利用现有技术做出首个通用消费级agent时,是时候重新理解”壳”了。

在肖弘看来,所有突破都是模型驱动的。壳的作用是把模型技术创新以用户可感知的方式展示出来,将模型创新能力封装成用户最能理解的形式。从这个定义看,DeepSeek App是DeepSeek-R1的壳,Cursor是Anthropic Sonnet 3.5的壳,Perplexity是GPT-4的壳,ChatGPT是InstructGPT的壳。

随着模型能力快速进化

声明:文章不代表CHAINTT观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险 自担!转载请注明出处:https://www.chaintt.cn/19208.html

CHAINTT的头像CHAINTT
上一篇 4小时前
下一篇 4小时前

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

风险提示:防范以"数字货币""区块链"名义进行非法集资的风险