4 月大模型混战华为阿里商汤都走到哪了？

作者：

时间：1900/1/1 0:00:00

3 月下旬，英伟达在美国加州总部举办了面向软件开发者的年度技术峰会 GTC。会上，创始人黄仁勋发布了专用于大语言模型部署的 GPU 推理平台——H100 NVL，其或将在推理阶段实现比现有最先进的 A100 快 10 倍的速度。

但如此先进的 GPU 却无法运往国内，去年 8 月，美国监管机构以国家安全为由，对 NVIDIA A100、H100 两款 GPU 实施禁令，不得销售给国内企业，意在通过“卡脖子”的方法来降低国内 AI 模型的传输速度，拖延中国人工智能发展。

而目前也确实对国内 AI 企业产生了较大的影响，在算力的大需求之下，呈现出了“一卡难求”的情况，就连阉割版的 A800 也一直处于缺货的状态。

但与 GPU 硬件窘迫的境况不同的是，在继 3 月 16 日百度发布文心一言大模型后，国内众多科技、AI 巨头都相继公布了各家大模型的发布会时间：4 月 8 日华为盘古大模型发布、4 月 10 日商汤大模型发布、4 月 11 日阿里大模型发布、4 月 14 日同花顺举办 AI 产品发布会，国内大模型的“百家争鸣”与 GPU 被禁运后的“惨淡”状况，也形成了鲜明的对比。

这个 4 月，成为国产大模型混战期。

那么，在 GPU 受限的情况下，国内 AI 行业发展境况如何，能否交出属于他们自己的答卷？未来的发展是否会与国外越差越大？

本文，奇偶派以已经发布或近期即将发布的大模型与相关 AI 应用的企业为例，通过专家访谈等方式，研究和分析各企业 AI 大模型的发展状况。

华为盘古大模型，最近的发布多少有点高开低走，突破性进展不多，尤其是在 C 端几乎没有新应用侧产品，主要还是展示了华为在 B 端智能化方向上的技术实力，为华为云服务和可见的销售市场做技术支撑。

4 月 8 日，在人工智能大模型技术高峰论坛上，华为云人工智能领域首席科学家田奇介绍了盘古大模型的进展及其应用状况，包括 NLP（自然语言处理）大模型、CV（机器视觉）大模型、科学计算大模型、多模态大模型、语音大模型等的研发与应用的相关情况。

Kucoin公开部分储备地址，含20504 BTC、180299 ETH及超10亿枚USDT:11月11日消息，Kucoin首席执行官Johnny于个人推特公开了该交易所的部分冷、热钱包地址，内含共20504 BTC、180299 ETH、1075909241 USDT、365722839 USDC、69601075 KCS。除此之外，Kucoin还已将29696 ETH投入到ETH 2.0质押之中，因涉及地址过多（每个节点32 ETH），具体地址并未公开。

Johnny表示，除了上述五种资产外，未来还将发布更多储备信息。[2022/11/11 12:52:22]

在会前，最引人关注的莫过于盘古的 NLP 大型模型，据介绍，该模型利用了深度学习与自然语言处理技术，并且采用海量中文语料库对其进行培训。

而在参数和数据的堆量方面，百度文心一言参数为 100 亿，数据为 4 TB。而 GPT-4 则达到了 1750 亿，数据 45 TB。华为盘古大模型的参数高达 1000 亿，数据高达 40 TB。如果单从参数上看，盘古大模型已接近 GPT-3.5。

但在这次发布会中，田奇却并没有提到盘古 NLP 大模型的相关应用。只是将过去已经发布的功能，进行了较为简单的集合介绍。相对而言，另外两个大模型则着墨更多，以较多篇幅介绍了 CV 大模型和科学计算大模型的应用范例。这也让众多翘首期盼华为能发布一款赶上 ChatGPT 应用的“粉丝”们，多少有一些失望。

但实际上，早在发布会之前的相关交流中，内部专家就已经就该话题做出了相关回答：

“首先，在华为发展历史上，很少是在新的趋势出现后立马就追上来的。公司发展的 30 多年间，基本没有做到过先发，而是一直采用后发制人的打法，在手机、在云、在汽车上是如此，在这个领域中也会如此。”

“想要做出一个比较完美的 NLP 大模型，是一个集团级的项目，通常做出决定会比较缓慢，在一两年内也不太会出现。而当前公司在尽力地完成 AI 工程化、AI 产品化，公司认为这是商业化不得不走的路线，如果采用高度项目制，成本很高，并且也会出现项目不可复制的情况，因此华为的重点最后才放在了面向行业的 CV 大模型上。”

TGV 4 Plus获得超过1亿美元的超额认购:9月1日消息，总部位于新加坡的风险投资公司True Global Ventures (TGV) 周三宣布，已关闭其True Global Ventures 4 Plus（TGV 4 Plus）基金，该基金获得超过1亿美元的超额认购。该基金将专门用于区块链公司，并将专注于后期股权融资。

该基金的四个投资委员会专注于在四个不同的垂直领域开发区块链的公司：娱乐、基础设施、金融服务、数据分析和人工智能 (AI)。迄今为止，该基金已投资了五家公司，其中包括Animoca Brands、The Sandbox、Canada Computational Unlimited等。（Alarabiya）[2021/9/1 22:52:57]

正如相关专家所说的，盘古大模型中最为领先的，正是 CV（机器视觉）大模型。

会上，田奇还谈到，在过去的 2022 年，华为盘古大模型主要是 AI for Industry（AI 赋能产业），为煤矿、水泥、电力、金融、农业等行业创造了更多产业价值，其中 CV 大模型早就有了许多用武之地。

比如在与能源公司合作的盘古矿山大模型中案例中，矿井现场是一个 40 米长的采掘机，宽度仅 2 米左右，传统相机很难一下子捕捉到全部画面，只能用图中的九宫格视频画面。而通过 5 G+AI 全景视频拼接综采画面卷，传输到地面，地面工作人员将来可以实现地面控制机器进行采矿，实现矿下无人少人安全作业。

盘古矿山大模型还用在了煤矿的主运输皮带作业监控。煤矿被采集下来以后，它会通过一个主运输皮带，从地下传输到地上。按传统方法是通过工人配合作业，华为提出通过视频对作业的安全规范进行巡检，主运场景的异物识别精度达 98%，煤矿作业场景动作识别准确率达 95%，助井下安全事故减少 90% 以上。这些都是 CV 大模型的落地应用。

此外，大模型还能进行轨道机车缺陷检测，比如掉链、脱落、裂痕等潜在不安全因素，人工检测成本较高，盘古大模型提供图像质量的自动评估、小样本的故障定位与识别等。

行情 | A股区块链50现报3427.14 上涨0.52%:东方财富数据显示，上证指数3087.05，上涨0.45%。深证成指11018.05，上涨0.46%。区块链50指数现报3427.14，上涨0.52%。A股数字货币板块下跌0.55%，32只股10涨20跌1平1停牌。国民技术（+5.17%）领涨，昆仑万维（-8.52%）领跌。

区块链板块上涨0.55%，197只股中110涨78跌9平。亚联发展（+10.04%）、久其软件（+10.02%）、国民技术（+5.17）等领涨，昆仑万维（-8.52%）、远光软件（-4.32%）等领跌。[2020/1/17]

可以说，华为选择了一条与其他 AI 企业不一样的道路——暂时放弃以 ChatGPT 为代表的 C 端需求，专注 B 端工业需求的开发。

不可否认，华为作为国内受美国制裁最严厉的公司，无论从算力资源、或是从公司发展理念、又或者是从商业化角度来看，选择专精于 B 端的打法是正确的。一来可以避免超大数据量的训练，二来又可以为处于“寒冬”中的集团早日“造血”。

或许，在算力无法获取之时，不去纠结内耗于 ChatGPT，才是华为真正的 AI 之路。

紧接着华为盘古大模型发布后，商汤科技的大模型也即将登场。

不过，由于上市公司相关信披原因，目前公司正处于发布大模型之前的静默期，所以没有办法披露过多的大模型相关内容。但是，作为最早把人工智能大模型写入招股说明书的公司，商汤确实是有着足够的实力，来推出独属的大模型。

而在近期的相关交流中，商汤相关人士还是回答了一些与算力相关的问题。

首先是大众最关注的算力资源方面，商汤拥有极为充足的 GPU 储备，对方表示，在去年停售之前就有 1 万张 A100 芯片了，完全可以覆盖训练一个千亿参数量的语言模型的消耗。

而除了英伟达专用显卡外，商汤也有采购国内的 GPU，专家表示：“比如说寒武纪与海光，最近这两家公司可能很多投资人都很关注，想了解他们的产品是否进入了大规模试用阶段。但是，如果大家在去年有去参观我们商汤的大装置的话，就应该看得到我们在大装置里面已经适配了很多寒武纪和海光的 GPU 卡，我们也是寒武纪最大的客户之一”。

分析 | 昨日ETH新增地址数是45,434 较前日增长 8.24%:据Searchain.io数据显示：昨日ETH新增地址数是45,434，较前日增长 8.24%，较上周同期新增地址减少 6.05%；昨日ETH活跃地址数是276,623，较前日增长 5.56%，较上周同期活跃地址减少 6.07%。近7天日均新增地址数为 44,475，日均活跃地址数为 290,791。昨日新增地址数较日均升高2.16%，活跃地址数较日均降低4.87%。[2018/12/1]

而在谈及国产替代方面时，专家也坦言，“我们很早就开始与国产 GPU 厂商合作，去适配国产 GPU 卡，但坦白来说，当前的大模型训练，确实是只有 A100 与 A800 能够胜任，国内 GPU 卡的易用性与性价比都无法去比较，但在推理阶段，寒武纪最新款的 GPU 在大模型领域也有了不错的表现，期待未来会更好。”

而在被问及 H100 出现是否会对国内 AI 企业产生影响时，专家表示，H100 加速芯片的出现，确实在性价比上有十分显著的提高。但如果不考虑性价比的话，当前已有的芯片是完全可以胜任的。

而在算力的使用技术方面，商汤较众多 AI 企业来说有着极为明显的优势。

在 A100 存量优先的情况下，如何利用仅有的资源去做更多的事情，成为了商汤需要解决的一大问题。

专家表示，商汤科技在过去五年中，有着丰富的千卡并行的训练经验，最大的单任务训练可以同时调动 4000 张 A100 的 GPU 卡，等效算力为 1 万张 A100，已经达到了训练 GPT3 甚至 GPT4 的门槛。

而在国产 GPU 的优化适配上，商汤也同样有丰富的经验，“目前有 10% 左右的算力，是由国产 GPU 卡提供了，商汤也一直在进行适配，无论是规模比较大的寒武纪、海光，或是当前规模比较小的昇腾，都有着相应的适配支持”。

也正是因为多年的训练经验，让商汤获得了较为明显的优势，“我们目前的算力规模可以支持 20 个千亿参数量超大模型共同计算，同时训练，对客户的技术迭代有十分明显的帮助。”

行情 | 今日恐慌指数44 恐慌程度较昨日上升:根据Alternative.me消息，今日恐慌指数为44，昨日为46，指数下降2，恐慌程度较昨日上升，市场担忧增加，现为恐惧等级。[2018/7/24]

但被问及当下的挑战之时，专家再次重点提到了国产 GPU 的适配问题。即当前国产 GPU 不太能够支持超大模型的训练，还需要投入更多去进行优化。此外，虽然国产 GPU 已经展现了一定的能力，但依然任重道远。

总的来说，商汤科技作为最早一批的 AI 企业，有着极为深厚的训练经验，也在禁运之前拿到了上万张 A100 显卡，这让其在当前的 AI 大战中拥有了极强的竞争力。

但从另外一个角度来看，短期内高端 GPU 禁运的影响还可以通过丰富的训练经验、更大的成本投入来进行掩盖，但从长期来看，如何能持续获得高端 GPU，才是商汤需要考虑的问题。如果禁运依旧存在，并且国产 GPU 无法适配超大模型的训练，那么与国际尖端 AI 企业、与最先进的大模型之间的距离，将会被持续拉开。

4 月 4 日，B 站一则阿里版 ChatGPT 全网首测视频流出，引爆全网，同日下午，阿里正式宣布将于 4 月 11 日的阿里云峰会上推出大模型。

从视频中看，阿里大模型超出大家预期的主要有两点：

一是“音色”“文风”“情绪”都可改变，定制化属性显现，受众面大幅增加，视频中 UP 主先是运用了脱口秀演员“鸟鸟”的声音作为模型交流，然后并要求 ChatGPT 接下来用“猫娘”的身份进行后续对话，整体定制化特征明确，不再局限于固定形式，代表着后续每个人可根据自己的需求定制属于自己的“性格”不同的 ChatGPT，几乎可满足所有受众群体。

二是阿里 GPT 的成熟程度超出预期，15 个问题中有 10 个问题的回答都明显好于国内已经公布的竞品，并且突破了双工对话，整体带入性更强。

而就在发布前的一周，也有相关内部专家接受了采访，回答了“国内语言大模型与 ChatGPT 有多大差距”的相关问题。

专家表示，起码在未来的一年到一年半之间，国内是绝不可能出现对标 GPT4 的产品的，只有先把 ChatGPT（GPT-3.5）追上，才有资格去谈 GPT4。目前，国内大多仍然都是以文本、图像、视频等单模态的方式发布的，并且文本大模型已经进入商用阶段，百度走出了第一步，其他的众多 AI 企业和科技企业也都会在年中或者下半年进行发布。

而在追赶 GPT-3.5 的过程中，也有着三个核心瓶颈：

一是数据量的不足，只有拥有了足够多的数据，才能继续训练，而公有的数据大家都可以买到，所以核心竞争点是如何获得足够多的私有数据，权重占比达到了三成左右。

二是模型结构的创新性，国内的语言大模型目前做不成高层级的架构，也就没办法做海量的数据训练，也是最大的瓶颈，权重达到了四成左右。

第三便是工程化的能力，在工程落地的时候，大家都知道需要预训练、调优训练与推理训练，但在真正部署的时候，是完全要靠自身去摸索的，包括数据的处理，模型的训练，模型优化，模型的部署和运用，都需要投入大量的时间、精力与财力，这方面的权重与数据量类似，也是达到了三成的权重。

但这一切的前提是算力充足，阿里是当前国内拥有 A100 GPU 最多的企业，在当下阶段算力并没有多大阻碍，但未来伴随着禁运的持续与算力需求的增加，也将面临高端运算卡不足的情况。

而在追赶 ChatGPT 之外，电商作为阿里起家的领域，也让人好奇阿里大模型将会为电商领域带来多大的改变。

专家表示，在电商场景中，比较主要的还是推荐算法与营销图案、文本的生成。未来，阿里大模型将会包揽营销图案、产品介绍、产品描述等工作。

“实际上，去年我们就已经让一些商家使用这个技术了，我们挑选了上百个商家，预计要花数百万去请广告公司去做的营销图案，阿里大模型的 AI 都可以胜任，cover 40% 的工作量。”

“而在营销之外，还有虚拟直播等许多场景可以被替代，包括仓储预测、物流信息的挖掘，都需要一步步找场景渗透，慢慢将老一代的技术进行替代，帮助中小企业，最终达到双赢”。

总的来说，阿里大模型作为一个庞大集团下的一条项目线，看起来并不像其他 AI 科技企业那么出彩。但目前，阿里的文本大模型进度在国内也已经位属前列，并且其他模型也在有序推进之中。

不过，这一切的前提是算力的充足，伴随着技术的推进与数据量的增加，在未来，算力可能仍是迈不过的那道坎。

而在 AI 巨头与科技公司之外，各行各业的企业其实早已经将 AI 应用于实际业务中，而同花顺就是其中一员，4 月 14 日，同花顺也将举办 AI 产品发布会。

实际上，同花顺的 AI 产品，早就已经应用，主要包括 i 问财、基于 AI 技术的增值服务产品与 B 端 AI 产品。

其中，同花顺主打的便是 i 问财这款 AI 产品。i 问财是目前财经领域落地较为成功的自然语言交互问答系统，而公司也在 2022 年进一步加大对其研发投入，采用全新的语义解析方案，结合 AI 大模型、小样本学习等技术的应用，有效提升 i 问财服务效率，可将服务场景从财经领域扩展到通用领域，从中文场景扩展到多语言场景。

通过 i 问财机器人，我们可以获得相关资讯、数据以及 AI 的点评；还可以准确地提供 A 股公司的基本面及板块情况，并通过多类图表的形式显现出来；还可通过向问财机器人提问，实现条件选股，是市面上成功的一款财经 AI。

而在 AI 之风的推动之下，同花顺的股价也节节走高。自 3 月 17 日以来，在短短 12 个交易日中，股价便从 115.57 元上涨至最高的 239.22 元，完成快速翻倍。

在股价飙涨的背后，同花顺能否发布更有含金量的 AI 应用，我们还无从得知。但如果仅仅以目前的 AI 应用水平，是绝无可能撑起如此高的市值的。

而同花顺的 AI 含金量究竟如何，或许只有当其产品发布之时，我们才能知晓吧。

纵观国内已经发布的文本大模型或者 AI 应用，亦或是与各企业相关专家进行交流，我们都能发现一个问题，那就是国内的大模型水平，实际上才刚刚起步。

在硬件方面，英伟达高端 GPU 遭受禁运，国内只能拿着为数不多的 A100 与阉割版的 A800 进行训练和推理。当前尚可通过丰富的训练经验，更高的资本投入来短暂掩盖国内算力严重不足的事实。但若是站在更高处，GPU 发展严重落后，终将成为杀死中国 AI 的一把利刃。

而在算法层面，国内 AI 企业也面临着极为尴尬的局面，让一群善于应用创新的企业直接去做底层创新，无异于赶鸭子上架。在国外 AI 企业不再开源

算法后，如何找到模型开发的创新点，才是最困难的。对于一直停留在 64 层的众多国内 GPT 模型来说，想要对标 ChatGPT 甚至 GPT-4，无异于痴人说梦。

不可否认，应用层面的“软实力”，可以让一家 AI 企业快速找到盈利的目标，但在真正的国产 AI 战争打响之后，硬件和算法层面的“硬科技”，才是我们当前最缺乏的能力。

若只重视应用层面而忽略硬件与算法层面造出来的商业辉煌，就像井中月、水中花一般，虽然美丽，但一经波澜便稍纵即逝。也只有真正拥有算力、算法层面的能力，才是中国 AI 发展历程中真正的进步。

我们的算力之战和算法之战刚刚拉开序幕。

此刻，中国 AI 的翻身之战，需要一些真正的“硬核武器”，才能正式打响。

巴比特资讯

个人专栏

阅读更多

金色财经善欧巴

Chainlink预言机

金色早8点

白话区块链

Odaily星球日报

Arcane Labs

欧科云链

深潮TechFlow

BTCStudy

MarsBit

标签：GPT CHA HAT ATG gpt币总量 supmchain chat币还值得拥有吗 ATG币

pepe最新价格热门资讯

从比特币出发读懂EigenLayer重质押

原文：EigenLayer Restaking Explainer 作者：林玮宸Albert Lin随着Ethereum 上海升级时间点越来越接近,LSD (Liquid Staking Derivatives) 板块也越来越火热.

1900/1/1 0:00:00

加密市场赚钱法则：智商先归零 “无脑”相信新故事

原文：《Embrace Being an Idiot - It WILL Make You a Better Crypto Investor》by Theo Delarosa在加密货币中拥抱白痴并不意味着要成为一个真正的白痴.

1900/1/1 0:00:00

2023香港Web3嘉年华要闻速览一文了解活动全貌

4月12日起,由万向区块连实验室、HashKey Group联合推出2023香港Web3嘉年华将在香港连续四天举行。对于本次行业盛会,作为金色财经的读者,或许您无法亲自到场参会,或许您到场了但因各种事物无法全面掌握活动期间的重要新闻.

1900/1/1 0:00:00

争夺Web2流量入口钱包产品如何做到安全和好用兼顾？

安全是钱包的底线。而是否好用,则是Web2用户能否大量进入到Web3世界的关键。在过去一年中,钱包的底层技术方面也实现了跨越式的发展,MPC钱包、AA钱包、智能合约钱包都让“无私钥”成为可能.

1900/1/1 0:00:00

Polygon研究报告

目录一、项目简介二、项目愿景三、特色和优势可扩展性高速度的交易和低Gas费等效以太坊虚拟机（EVM）适用于 Web3 的 AWS 四、发展历史五、团队背景六、融资信息七、发展成果越来越多的品牌/企业首选Polygon.

1900/1/1 0:00:00

金色Web3.0日报 | Meta不再向广告商推销元宇宙

DeFi数据 1、DeFi代币总市值：552.5亿美元 DeFi总市值及前十代币数据来源：coingecko2、过去24小时去中心化交易所的交易量29.

1900/1/1 0:00:00

4 月大模型混战 华为阿里商汤都走到哪了？

pepe最新价格热门资讯

4 月大模型混战华为阿里商汤都走到哪了？