巨瓜来临！GPT-4模型构架等信息疑似泄露，给大家讲讲来龙去脉！

作者：

时间：1900/1/1 0:00:00

引子

今天上午正在日常搬砖，突然各路信息席卷而来：“赶紧的，GPT-4模型构架泄露啦，国产大模型要再次超越啦！”。打开社媒一看，好么，都不用会英语，国内的人翻机翻都已经上线了，这速度，我是真的服气。但是，等我去追根溯源，看看信息道理有几分靠谱的时候，我突然就有把科技圈逛出了娱乐圈的感觉。我觉得这事儿最有意思的可能还不是爆的料，反而是爆料的这不到24小时发生的这些事。如果再结合前面OpenAI搞得几个大新闻，还确实有点意思。

鉴于目前“FakeNews”满天飞的互联网现状，我看到这个消息后，干的第一件事就是追本溯源。爆料谁都可以，前面打车的时候司机师傅还给我爆料ChatGPT是外星科技了，我就一点都没信。现在所谓的“外媒”一爆料我就直接信了，那未免还是对司机师傅有点不尊重了。

来龙去脉

我信息挖掘的起点是HackerNews上发表的这篇文章《GPT-4'sdetailsareleaked.Itisover.》。我点进去发现并非原文，而是一个ThreadReader。所以我就又顺藤摸瓜，找到了这些Twitter的发布人—YamPeleg。

其实我Twitter上知道的人并不多，但是这老哥我还真看过他以前的文章。他是以色列一个创业公司的CEO，本人工程经历丰富，很懂LLM。曾经尝试反向破解过GPT-4和ChatGPT代码解释器。六月OpenAI访问以色列的时候，他还去参加座谈沟通了，并且还和SamAltman合影了。读这老哥的文章，我就禁不住想起来当面在以色列时候的当地的学生联络员Tom，随便说点啥都能给你搞得热血沸腾的。这老哥一直在研究OpenAI，也认识OpenAI内部很多人，所以他如果得到了点啥内部消息，我觉得可信度其实还挺高的。

EigenLayer：将于8月22日再次提高LST再质押上限:8月14日消息，据官方消息，EigenLayer将于太平洋时间8月22日上午7点提高LST（流动性质押代币，含stETH、rETH和cbETH）再质押上限。上限解除后，用户将能够将上述代币中的任何一种存入EigenLayer。当任何一种LST达到再质押10万个代币的里程碑时，EigenLayer将再次暂停接受质押。[2023/8/14 16:24:16]

但是！等我晚上准备去仔细研读下他发的东西的时候，突然发现，他把前面发的都删了。说是因为版权问题，本来我以为是被OpenAI捂嘴了，还庆幸自己留了档。后面仔细一看，发现不是因为OpenAI的版权，而是因为另外一个付费专栏的版权。

原来Yam老哥并不是原创，而是看了SemiAnalysis的付费专栏文章《GPT-4Architecture,Infrastructure,TrainingDataset,Costs,Vision,MoE》，然后把里面的一些核心信息加上自己的理解共享出来了。所以其实真正的信息源是SemiAnalysis。所以我又收集了下SemiAnalysis的信息。

SemiAnalysis是一个精品半导体研究和咨询公司，专注于从化学原料到晶圆厂到设计IP和战略的半导体供应链。它由DylanPatel创办，他是一位有着多年半导体行业经验的分析师和工程师。他曾在英特尔、AMD、高通等公司担任过不同的角色，从设计工程师到市场营销经理。SemiAnalysis的团队还包括GeorgeCozma，GeraldWong，MyronXie，AfzalAhmad，AleksandarKostovic，SophiaWisdom等多位专业的半导体分析师和咨询顾问。他们各自有着不同的专长领域，如AI、云计算、网络、存储、电动汽车、射频、物联网等。他们为客户提供了从化学原料到晶圆厂到设计IP和战略的全方位的半导体供应链分析和咨询服务。

四月加密货币衍生品市场份额创历史新高:金色财经报道，四月中心化加密货币交易所的衍生品交易量下降，但现货交易量更是大幅下降，导致衍生品市场份额达到历史新高。尽管绝对衍生品交易量下降了23.3%,至2.15万亿美元，但加密货币衍生品市场份额仍高达77.6%,达到历史新高。推动市场份额进一步上升的是现货交易量的大幅下降，降至6210亿美元。币安是最大的衍生品交易平台，占市场份额的61.4%。OKX和ByBit紧随其后，分别以15%和14.6%的市场份额位居第二和第三。[2023/5/11 14:56:24]

前面那篇著名的谷歌内部泄密文章《Google"WeHaveNoMoat,AndNeitherDoesOpenAI"》就是他们爆出来的，这篇文章后面被证实为真。这样看来，DylanPatel老哥可能确实有些内线，他们给出的信息可信度应该还是可以的。当然，我也发现了他们为啥这么急着让Yam老哥删推，因为这些“内部信息”确实价值不菲，订阅SemiAnalysis的付费文章，一年要500美刀。Yam老哥订阅的精英版更是要1000美刀。

爆料分析

讲清楚了来龙去脉，我们可以得到一个基础结论，就是这个爆料还是有一定的可信性的。然后，我又根据爆料的内容以及前面获得的其他爆料信息，综合分析了下。这里还是先给大家说结论：

瑞士央行：可以向瑞信提供高达1000亿瑞士法郎的流动性援助贷款:金色财经报道，瑞士央行表示，瑞银今天宣布收购瑞信。将提供大量流动性援助，以支持瑞银收购瑞士信贷。瑞银和瑞信两家银行都可以不受限制地使用瑞士央行的现有便利工具。这次收购是在瑞士联邦政府、瑞士金融市场监管机构Finma和瑞士央行的支持下实现的。瑞士央行表示，瑞士央行可以向瑞信提供高达1000亿瑞士法郎的流动性援助贷款，并提供联邦违约担保。[2023/3/20 13:13:45]

爆料可信度较高。本次爆料的来源有一定可信度，爆料的内容和前期已经披露的内容也基本都能吻合。所以我倾向于爆料的大部分内容都是来自OpenAI的泄漏，有真实的事实基础，但是给出的数据未必一定准确。毕竟，也不是所有人都能够获得详细准确的内部数据，但是应该不会偏差太多。爆料对于私有模型有一定意义，对于开源模型意义有限。这次爆料的主要亮点对开源社区的影响可能并不会太大。影响最大的MoE其实已经被爆料过了，目前应该已经有相关的开源模型在路上。除此之外其他的爆料亮点都主要是利好其他私有模型竞争对手，例如比较准确的模型大小、并行策略、模型构架以及多模态构架等。具体我们后面具体分析。个人的奇怪推论。说实话，这个时间点的爆料不得不让我觉得有点奇怪，感觉DylanPatel老哥有一种在帮openAI官方爆料的感觉。结合我这篇文章更是觉得事有蹊跷。要知道，如果这篇爆料文章早一个礼拜发，大家甚至是可以通过ChatGPT的搜索模式直接白嫖文章内容的。咋给我一种，为了让他们能够安心的爆料自己，OpenAI特意把ChatGPT的搜索模式都关闭了的感觉。当然，我这个猜测是毫无根据的，这样做确实也对OpenAI没有任何好处。所以，获取是我多想了，就是赶巧了而已。对于爆料原文感兴趣的可以看我最前面贴的HackerNews的文章，少了些逻辑和修辞，和付费的原文的核心内容是一样的。没耐心一点点钻原文的，我这边直接给大家总结几条要点。

OpenChat在社区众筹中募集550万美元后将控制权移交社区:金色财经报道，链上消息传递应用程序OpenChat在社区众筹中募集550万美元后将控制权移交社区，OpenChat 团队表示，该项目现在将由其聊天代币持有者社区控制，而且很快将通过服务神经系统 (SNS) 将消息应用程序的控制权转移到一个去中心化的、基于代币的治理系统。最近的代币销售总计有 2,375 名参与者，通过购买 OpenChat 的原生治理代币以形成一个分散的自治组织 (DAO)。出售后，OpenChat 团队表示，该链上消息传递平台将不再是一家中心化技术公司。OpenChat 用户可以成为消费者、股东和决策者，并积极决定平台的未来。例如，如果社区接受了一项提案，包括代码更新，并将由 SNS 自动实施，而不是单个实体做出方面决定。（the block）[2023/3/8 12:48:17]

爆料参数整理

这次爆料的一个亮点就是给出了GPT-4的部分明确参数，这些参数前面有过很多猜测，但是官方一直都没有披露，提到的时候都说的很模糊。这些参数包括：

模型参数量：1.8兆，比GPT-3.5大10倍左右。模型层深：120层。模型构架：混合专家模型，一共16个专家，每个专家1110亿参数量。每次向前传递选择两个专家。训练数据：共13兆数据。文本数据被重复训练了2次，代码数据被重复训练了4次。这个数据其实挺重要的，后续具体分析。并行策略：8路张量并行+15路管道并行。预训练上下文：8K。32K版本是在8K基础上微调的。我的推论1：GPT-5会是一个全新构架的多模态LLM

币安：已重新开放FTT充值:11月14日消息，币安在官方推特上表示：“我们注意到，根据FTT解锁时间表，自2022年5月1日以来100%的FTT已经完全解锁。此前出现的FTT大规模移动，很可能是由于FTX的内部资产整合。我们正在联系目前的FTX团队进一步澄清。币安已经重新开放了FTT的充值。”

此前昨日消息，赵长鹏曾表示，FTT合约部署者转移所有剩余价值4亿美元的FTT供应量，这些FTT本应分批解锁。以避免出现GALA类似的情况，币安已停止FTT充值。[2022/11/14 13:02:04]

GPT-4是一个由16个专家模型组成的MoE。每个专家1110亿参数量。每次向前传递选两个专家。然后注意力机制共享550亿参数。所以，每次推理的时候，事实上耗费的参数量约为2800亿。这个数字也和前期很多学者预测的类似。

训练数据上面写了，我就不复述了。这里强调下，文本和代码数据都是被重复训练了的。再结合MoE构架，我个人猜测：要么目前可以比较方便获取的高质量文本数据已经接近枯竭要么无限制得增大数据量对LLM性能得提升已经非常有限了。但是，无论是哪一种，我们都可以推断，下一步的GPT-5一定会是基于多模态数据的。GPT-5想要有大的性能突破，就必须能够充分利用现存的大量视频、图片以及音频数据。

但是，根据这次的爆料，OpenAI目前的视觉多模态并没有太多的过人之处。它是一个独立的视觉编码器，与文本编码器分开，但存在交叉注意力。它就是在文本预训练后，进行了约2万亿个Token的微调。这种模式明显无法充分利用已有的视频、图片以及音频数据。

所以，前面OpenAI一直强调的没有在训练GPT-5大概率是真话。因为他们在训练GPT-5之前找到一个更好的多模态模型构架，让模型可以充分的利用音视频数据。只有能够利用这些优质的训练数据，GPT-5才有可能获得足够的能力提升。同时，如果GPT-5真的能够充分利用这些音视频数据的话，那不管是AGI还是OpenAI最近提出的超智体，似乎确实也没那么遥远了。

我的推论2：私有模型的竞争将集中在并行能力上

根据此次爆料，目前如果要训练一个GPT-4竞品，按照使用约8,192个H100芯片来估算，以每小时2美元的价格，在约55天内可以完成预训练，成本约为2150万美元。这个成本对于目前波涛汹涌的LLM市场来说，真的不算大。国内目前的主要玩家都可以比较轻松的承担数次训练。所以，这次说真的，再过半年模型能力对标GPT-4可能真的不是吹牛逼。

如果训练成本不是问题，那么训练数据会不会成为问题呢？目前看来也不会。GPT-4的训练数据共13兆。这个规模并不是特别夸张，且它的很多数据来源国内也可以获取，再加上国内本身也积累了很多中文资源，所以训练数据也应该问题不大。

其他的类似预训练、微调以及中文编解码等问题，其实也不存在太多的技术秘密，方法还是比较公开的。给足够的资源，半年时间应该都可以解决。

所以，最后剩下的就是并行能力了。其实这次爆料里面用了极大的篇幅去介绍相关的内容，专业程度还是比较高的。这里我就不具体展开说了，总体来说，就是你有了大模型，如何以最低的成本让最多的人同时使用。这里面涉及到很多专业的设计问题，在运算资源固定的情况下，应该如何分配不同环节的运算资源？如何处理并发？如何管理内存？

当大家的模型能力都大差不差的时候，那个模型好用，不就取决于用户体验了么！并行处理的能力，就直接决定了用户体验。目前GPT3.5已经做到了无论是ChatGPT还是API都非常丝滑了，这是非常厉害的。这里大家可能会说，我体验的其他国产LLM或者Claude都比GPT3.5还快啊。但是，大家没有考虑使用的量级问题，GPT3.5在这么高的并发下有这样的性能，其他的厂商如果匹配不了OpenAI的这个能力，也就没能力来抢OpenAI的市场。

所以，并行能力可能会成为各路OpenAI竞争对手的角逐重点之一。

我的推论3：OpenAI可能是有意放出的本次爆料

这个推论就完全是个人的瞎猜了。事实根据不足，大家看看就好。

OpenAI很清楚GPT-4的护城河并不高，即使现在OpenAI已经不open了，但是在这种热潮中，竞争对手迎头赶上也并不困难。并且，他们现在的多模态大模型构架应该还没有搞定，这个时候如果有新的玩家上来就从多模态开始搞，OpenAI被弯道超车的概率也是很大的。所以这可能是OpenAI的缓兵之计，我就给你们透露一些GPT-4的信息，让头部的玩家都先去做GPT-4的复刻工作，把OpenAI已经走过的路也再走一遍。

如果在这个过程中，OpenAI给GPT-5的训练打好了基础，完成了多模态大模型的前期攻关，即使GPT-4已经被其他的大语言模型超越，OpenAI也有恃无恐了。个人认为，多模态很可能就是人卷人的最后一代了。后面的模型开发和演进说不定就以AGI为主力了，也就是说，这次赢了，可能就赢到最后了。

结语

本次的爆料绝对是GPT-4发布以来最大的瓜。但是，我并不是很推荐大家去研究这次的爆料内容，大家看看别人的总结就好了。爆料的很多内容看起来还是比较费劲的，并且费半天劲看懂了也没用，懂了你也没法实践，白懂。

不知不觉又码了这么多字，能看到这里的都是真爱，看完留个记号再走吧，您的支持就是对我最大的鼓励~

博览AI的奥秘，博学AI的知识，博交AI的朋友，我是博而不士，欢迎加入我的AI探索之旅。关注我，一起玩转AI。

推荐阅读：

Claude：无需魔法、完全免费、GPT3.5的最佳国内替代「一文说清」

标签：GPT AGI CEOGPT价格 GPT币AGI价格 AGI币CEO币 CEO价格

Bitcoin热门资讯

团伙三个月外国人170万，称“中国人不中国人”

7月9日,湖北襄阳。民警抓获一“杀洋盘”团伙。该团伙三个月取外国人170万,并称“中国人不中国人”。该团伙利用外国某聊天软件,诱外国人购买比特币,然后操控后台让买家血本无归.

1900/1/1 0:00:00

“美国风险”加剧全球经济困境：“围院筑墙”分裂世界

近期,“去风险”正在取代曾经被特朗普政府大喊特喊的“脱钩”,成为美国政客嘴里的一个最新热词。在5月底的七国集团日本广岛峰会上,“去风险”更是以联合声明的形式,被敲定为美西方集团参与国际经贸活动的.

1900/1/1 0:00:00

西非经济货币联盟恢复马里成员国资格

原标题：西非经济货币联盟恢复马里成员国资格据当地媒体10日报道,西非经济货币联盟宣布恢复马里成员国资格,该资格在2022年1月曾因马里过渡政府拒绝尽快完成过渡而被暂停.

1900/1/1 0:00:00

团伙3个月诱外国人买比特币170万？

7月9日,湖北襄阳。民警抓获一“杀洋盘”团伙,该团伙利用国外某聊天软件,诱外国人购买比特币,然后操控后台让买家血本无归.

1900/1/1 0:00:00

0-1入局闲鱼币回收售卖，当天变现300＋（适合新人）

上个月偶然接触闲鱼币回收售卖这个赛道,第一天入局就从下午4点忙到晚上12点,赚了300+,从最开始的300开始,到后面每天稳定100+.

1900/1/1 0:00:00

“杀洋盘”团伙3个月外国人170万，坚称“中国人不中国人”

　　最近,成功捣毁了一伙专门取外国人财产的“杀洋盘”团伙。据统计,这个团伙在短短三个月内取了高达170万美元的巨额资金.

1900/1/1 0:00:00