转发原文标题:《去中心化计算》
在加密领域中,去中心化计算板块正逐渐崭露头角,尽管它常常被误解。今天我们将深入探讨AI基础设施领域,看看去中心化替代方案在哪些实际场景中具备竞争力。
文章将围绕几个核心问题展开:分布式网络能否支持ASI训练?加密网络有哪些独特优势?为何无许可的计算基础设施可能像比特币改变金融一样,成为AI领域的关键组成部分?
贯穿全文的一个共同主题是AI领域的指数级增长——无论是投资规模、计算能力还是技术发展速度。这种增长恰逢加密市场复苏和公众关注度回升,我们对这两大技术浪潮的交汇充满期待。
你好!
2024年,田纳西州孟菲斯市上空,一架螺旋桨飞机反复盘旋在一座工业建筑上方,机上乘客正疯狂拍摄下方的设施。这不是冷战时期的间谍活动,而是现代商业竞争的写照。目标不是军事基地,而是一座由旧家电工厂改造的超级计算机中心。这些”间谍”其实是竞争对手公司的员工。
每隔几十年,就会出现一项足以改变文明轨迹的变革性技术。随后,世界最强大的实体就会展开激烈竞争,争夺技术主导权。成功带来的回报巨大,而失败的代价可能是毁灭性的,这促使各方倾尽全力投入这场竞赛。
20世纪,核武器和太空探索就是这样的技术。当时的竞争主要在超级大国之间展开。美国在这两场竞赛中的胜利奠定了其超级大国地位,开启了前所未有的繁荣时代。而对纳粹德国和苏联而言,失败带来的后果则是灾难性的。
位于美国田纳西州橡树岭的K-25工厂占地44英亩,曾为第一颗原子弹生产铀材料(来源)。
美国的胜利付出了巨大代价。曼哈顿计划耗资近20亿美元(相当于今天的300亿美元),雇佣了超过12万人——相当于当时每千名美国人中就有一人参与。太空竞赛的投入更为惊人。阿波罗计划在1960年代花费28亿美元(现值约3000亿美元),动员了40多万人——相当于每490名美国人中就有一人参与。1966年高峰期,NASA预算占联邦总预算的4.4%。
阿波罗11号登月任务前的发射场景(来源)。
2022年ChatGPT的发布标志着一场新竞赛的开始——对人工超级智能(ASI)的追求。虽然AI已渗透日常生活,但大型语言模型(LLM)的出现可能彻底改变人类生产力、媒体创作、科学研究乃至创新本身。
这次竞赛的参与者不再是国家(至少目前不是),而是科技巨头(微软、谷歌、Meta、亚马逊)、热门初创公司(OpenAI、Anthropic)和全球最富有的个人(埃隆·马斯克)。当科技巨头投入空前资本构建AI基础设施时,初创公司也在吸引创纪录的风投资金。而马斯克则一如既往地特立独行(他旗下的xAI公司数据中心正被竞争对手监视)。
此外还有众多企业、中小公司和初创公司。他们可能不追求构建ASI,但都渴望利用AI能力优化业务、颠覆行业或创造新领域。潜在回报如此巨大,以至于各方都在争夺机器智能驱动的新经济蛋糕。
AI革命的核心组件是图形处理器(GPU)。这种原本为电子游戏设计的芯片,如今已成为全球最抢手的商品。需求如此旺盛,企业常需等待数月才能获得少量芯片。这让主要制造商NVIDIA股价五年暴涨2500%,成为全球市值最高的公司之一。
对于无法直接购买GPU的企业,租赁算力成为次优选择。这催生了AI云服务提供商——运营专门数据中心满足AI计算需求的公司。然而需求激增和不可预测性导致价格和可用性都难以保障。
区块链作为一种”科斯式”技术,旨在为其他颠覆性创新铺路。随着AI成为变革力量,GPU获取的稀缺性和高成本成为创新障碍。一些区块链公司正尝试通过激励机制来打破这些障碍。
本文将首先审视现代AI基础设施的基本原理——神经网络如何学习、GPU的重要性,以及数据中心如何演变以满足计算需求。然后探讨去中心化计算方案在哪些领域能与传统提供商竞争,加密网络的独特优势,以及为何它们虽不能带来通用人工智能(AGI),但对确保AI普惠性至关重要。
让我们从GPU的重要性说起。
GPU
这是米开朗基罗创作的《大卫》雕像,高17英尺,重6吨。这座文艺复兴时期的杰作完美呈现了人体解剖结构,被誉为不朽的艺术品。
如同所有大理石雕塑,《大卫》始于一块粗糙的石料。米开朗基罗需要逐步凿刻,从确定基本轮廓到刻画肌肉曲线、血管张力乃至眼神中的微妙决心,历时三年才完成这件作品。
为何在AI文章中谈论500年前的雕像?因为神经网络训练与之相似。每个神经网络最初都是潜能——一组随机初始化的权重节点,就像未经雕琢的大理石。
原始模型通过大量训练数据逐步完善。每个数据点触发海量计算。在神经元节点处,输入值乘以连接权重,求和后通过”激活函数”转换,决定神经元激活强度。
如同雕塑家不断评估修正作品,神经网络也经历精炼过程。每次前向传播后,网络会比较输出与正确答案,计算误差范围。通过反向传播,它评估每个连接的误差贡献并调整权重——错误的连接影响力减小,正确的增强。
所有数据通过网络(完成前向和反向传播)称为一个”周期”(epoch)。这个过程反复进行,每次传递都精炼网络理解。早期周期权重变化剧烈,后期则更微妙,就像雕塑从粗凿到精修的过程。
最终,经过成千上万次迭代,训练好的模型诞生了。就像完成的《大卫》雕像,神经网络从随机噪声转变为能识别模式、做出预测、生成图像或理解语言的系统。
为什么是 GPU?
米开朗基罗独自雕刻《大卫》,每次只能进行一次凿刻。但如果有成千上万雕刻家协同工作,三年工作可能只需几天。同样,CPU虽强大但每次只能执行一个计算,而训练神经网络需要数亿次简单计算。
例如,一个有18个节点和约100个连接的神经网络,CPU可在合理时间内完成训练。但像OpenAI的GPT-4拥有1.8万亿参数!即使较小模型也有十亿级参数,CPU训练将耗时数百年。这正是GPU的优势所在——能并行执行大量简单数学计算。
现代GPU性能惊人。NVIDIA最新B200 GPU包含2000亿晶体管,支持每秒2250万亿次计算(2,250 TFLOPS)。单个B200可处理7400亿参数模型。这些工程奇迹解释了为何NVIDIA能以每个4万美元价格销售,股价五年涨25倍。
黄仁勋展示NVIDIA B200
即便如此强大的机器也无法单独训练AI模型。GPT-4处理了约12万亿令牌(约9万亿单词),下一代模型预计处理100万亿令牌。单GPU处理如此数据仍需数百年。
解决方案是创建GPU集群。模型训练可通过三种方式并行化:
数据并行性:多个GPU各自维护完整模型副本,处理不同训练数据。定期同步权重平均值。
随着模型增大,单一副本可能超出单个GPU容量。如B200最多容纳7400亿参数,而GPT-4有1.8万亿参数,此时数据并行性不可行。
张量并行性:将每层工作和权重分配到多个GPU。GPU通过高速NVLink(达400Gb/s)连接,八单元服务器作为一个大型GPU工作。
流水线并行性:模型拆分到多个GPU,每个处理特定层。数据顺序流动,适合连接不同8-GPU服务器,使用高速InfiniBand网络。
现代集群规模惊人。训练1.8万亿参数的GPT-4需要25,000个A100 GPU,耗时三个月,花费超6000万美元。使用最新B200 GPU则需约8000个单位和20天。但GPT-4级别模型已显过时,下一代模型正使用10万个B100或H100 GPU训练,仅GPU成本就超40亿美元。
除了计算能力,ASI追求者还面临电力问题。10万个GPU集群(含支持硬件)消耗超150兆瓦电力,相当于30万人口城市的用量。
更疯狂的是,多数ASI追求者相信LLM扩展法则——模型性能随规模增加可预测提升。2025年每个训练集群成本将超100亿美元;2027年超1000亿美元。这些数字接近阿波罗计划投资,说明为何ASI竞赛成为时代定义。
从 GPT-5 开始的模型指标为估计值
随着集群扩大,电力消耗激增。明年训练需超1GW电力,后年需10GW或更多。预计2030年数据中心将消耗全球约4.5%电力。现有电网已难满足需求。大科技公司正采取双轨策略:
长期方案是自产可再生能源电力,核能成为首选。亚马逊以6.5亿美元购买核电厂供电的数据中心园区。微软重启三英里岛核电厂。谷歌从Kairos Power收购小型核反应堆。OpenAI的Sam Altman支持Helion等能源初创公司。
微软正在重启三英里岛核电厂(图片来源)
核能需数年才能见效。当前解决方案是分布式训练。微软和谷歌将训练集群分散到多个地点,而非集中一处。
挑战在于如何高效协作。光速下,美国东西海岸数据传输往返需43毫秒——对计算机而言很漫长。若某芯片滞后10%,整个训练过程都会减速。
解决方案是用高速光纤连接不同地点,应用多种并行化技术同步操作。张量并行性用于服务器内GPU;管道并行性用于同数据中心服务器;不同数据中心通过数据并行性定期同步。
数据并行性对单个GPU效果不佳,但对包含数千GPU的”岛屿”有效。训练数据分布到各岛屿,通过较慢光纤连接定期同步。
数据中心
让我们将焦点转向数据中心本身。
二十年前亚马逊推出AWS,创造了云计算行业。如今行业领导者(亚马逊、微软、谷歌和甲骨文)年收入近3000亿美元,利润率30-40%。AI兴起为这个寡头市场带来新机遇。
GPU密集型AI数据中心与传统数据中心在物理需求、技术复杂性和经济性上差异显著。
GPU高能耗使AI数据中心功率密度大增,产热更多。传统数据中心用风扇散热,对AI设施不够且不经济。AI数据中心转向液冷系统,水块直接连接GPU等高温组件,更高效安静(B200 GPU自带此架构)。这需要冷却塔、集中水系统和输送管道,是对基础设施的根本改造。
AI工作负载电力需求波动更大。GPU周期性在100%负载和几乎停止间切换(如检查点存储权重或同步时)。AI数据中心需专门电力基础设施应对这种波动。
构建GPU集群比常规计算云更复杂。GPU需快速通信,必须紧密排列。典型AI设施需超20万条特殊InfiniBand电缆。一条故障就可能导致整个系统停摆。
这些需求使传统数据中心几乎无法通过简单升级支持高性能GPU。公司正新建专为AI设计的数据中心,规模各异。
领先科技公司竞相建设自有AI数据中心。Meta投资专为自身AI开发的设施。微软建设庞大数据中心支持自身AI项目并为OpenAI等服务。
声明:文章不代表CHAINTT观点及立场,不构成本平台任何投资建议。投资决策需建立在独立思考之上,本文内容仅供参考,风险 自担!转载请注明出处:https://www.chaintt.cn/17716.html