ChatGPT背后的算力杀手锏

芯东西3月14日消息,为了向人工智能(AI)初创公司OpenAI的前沿研究提供支持,微软三年前为OpenAI打造了一台由数万个A100 GPU组成的大型AI超级计算机,成本或超过数亿美元。微软还在60多个数据中心总共部署了几十万个推理GPU。

据微软Azure云业务的高管透露,爆火的OpenAI聊天机器人ChatGPT正是由这个AI超级计算机提供支持。当前微软正在打造更大、更复杂的超级计算机,为新模型训练和运行提供支持。

微软还在本周一宣布基于NVIDIA最新旗舰芯片H100 GPU和NVIDIA Quantum-2 InfiniBand网络互连技术,推出Azure最强大、可大规模扩展的AI虚拟机系列,以显著加速AI模型的开发。

微软对AI基础设施的芯片及前沿技术布局,对于应对大模型与生成式AI应用热潮、为更大规模的模型训练与部署提供算力支撑颇具参考价值。

一、ChatGPT成功背后的算力功臣:成本或超数亿美元

微软在2019年向OpenAI投资10亿美元时,同意为OpenAI建造一台大型顶尖超级计算机。当时,微软并不确定在其Azure云服务中构建这么大的东西,会不会对Azure本身造成影响。

OpenAI试图训练更多需要学习海量数据、拥有超大参数规模的AI模型,需要长期访问强大的云计算服务。为了应对这一挑战,微软必须想方设法将数万个NVIDIA A100 GPU串在一起,并改变其在机架上放置服务器的方式,以防止断电。

负责云计算和人工智能的微软执行副总裁Scott Guthrie不愿透露该项目的具体成本,但表示“可能大于”数亿美元

训练大型AI模型需要在一个地方连接大量连接的GPU,就像微软组装的AI超级计算机一样。

据微软Azure AI基础设施总经理Nidhi Chappell介绍,微软构建了一个可在非常大的范围内运行且可靠的系统架构,这就是让ChatGPT成为可能的原因。OpenAI总裁兼联合创始人说,与Azure共同设计超级计算机对于扩展苛刻的AI训练需求至关重要,使得OpenAI能在ChatGPT等系统上开展研究和调整工作。

现在,微软使用它为OpenAI构建的同一组资源来训练和运行自己的大型AI模型,包括上个月发布的新版Bing搜索机器人。

微软还将系统出售给其他客户,并已经在开发下一代AI超级计算机,这是它与OpenAI扩大交易、追加数十亿美元投资的一部分。

值得注意的是,AI超级计算机虽然是专为OpenAI打造的,但微软并没有把它设计成只能供一家企业使用的定制化设施。

“我们并没有将它们构建成定制的东西——它最初是作为定制的东西,但我们总是以一种通用化的方式来构建它,这样任何想要训练大型语言模型的人都可以利用同样的改进。”Guthrie在接受采访时说,“这确实帮助我们成为更广泛的AI云。”

除此之外,微软还部署了用于推理的GPU,这些处理器共有数十万个,分布在其60多个数据中心区域。

二、H100 GPU+先进网络互连,为生成式AI做好准备

微软周一宣布推出Azure最强大、可大规模扩展的AI虚拟机系列ND H100 v5 VM,支持从8到数千个NVIDIA H100 GPU,这些GPU通过NVIDIA Quantum-2 InfiniBand网络互连,能够显著提高AI模型计算速度。一些创新技术包括:

129亿元!国家大基金二期入股长江存储,长江存储增资至1052.70亿元

生成式AI应用正在迅速发展,微软对自己的AI基础设施非常有信心。微软Azure HPC+AI首席产品经理Matt Vegas说,大规模AI内置于Azure的DNA里,微软最初投资Turing等大型语言模型研究,并实现了在云上构建第一台AI超级计算机等工程里程碑,为生成式AI成为可能做好了准备。

在AI超级计算机的支撑下,微软一方面可以通过Azure服务直接为客户提供训练模型所需的资源,也可以通过Azure OpenAI服务让更广泛的客户用到大规模生成式AI模型的能力。也就是说,中小型公司可以通过获取云服务来解决算力资源不足的问题,不需要进行大量物理硬件或软件投资。

算力是一场持久仗。新版Bing仍处于预览阶段,微软逐渐从候补名单中添加更多用户。Guthrie的团队每天与大约20名随时准备修补bug的员工召开会议。该小组的工作是弄清楚如何使更多的计算能力快速上线,以及解决突然出现的问题。

当OpenAI或微软训练大型AI模型时,工作是一次性完成的。它分布在所有GPU上,在某些时候,这些单元需要在高吞吐量、低延迟网络中相互通信和共享工作。

对于AI超级计算机,微软已确保处理所有芯片之间通信的网络设备能够处理该负载,并且它必须开发能够充分利用GPU和网络设备的软件。微软已开发出可训练具有数万亿参数的模型的软件

新闻聚焦
热门推荐
  • 巴美特全自动智能锁,打造消费者真正需

      如今,智能门锁市场已经相继涌入越来越多的参与者:传统锁具厂商、创业公司、安防巨头及通信、家电厂商,热闹非凡。特......

    10-23    来源:未知

    分享
  • 数年辛苦打水漂 苹果竟因 iPhone 销量不佳

      据外媒 cultofmac 报道,Lynx 公司的两位股票策略分析师 KC Rajkumar 和 Jahanara Nissar 在给投资者的一份报告中对外透露,苹果公司......

    01-22    来源:未知

    分享
  • 支付宝新规:再不看你的花呗就会被封停

      自从支付宝出了花呗功能以来,不少人打起了花呗套现的主意。而一般的套现流程也很简单,现在网上甚至有专门做这类服务......

    03-03    来源:未知

    分享
  • 在手机上使用VPN会多耗流量吗?

      还真不好说: 说会消耗更多流量,是因为各种vpn的payload = 不拨vpn时的流量,因此额外的证书、密钥交换需要消耗额外流量。......

    03-10    来源:未知

    分享
  • 小米有品上架电子书:6英寸纯平/20级冷

      5月13日消息,今天小米有品上架了一款国产电子阅读器iReader T6电子阅读器,售价958元。 iReader T6于去年4月发布,主打第二代......

    05-13    来源:未知

    分享
  • 国家体育总局体育器材装备中心

      当前位置:首页> 工作动态 >正文 科技助力 保障先行—— 装备中心良乡基地电子标签拣货系统上线 发布时间:2019-05-24信息来......

    05-27    来源:网络整理

    分享
  • 深耕布局金融科技 汇中财富进化财富管理

      从大数据到云计算,再到人工智能,数字化浪潮迭代,作为金融版块之一的财富管理,在数字化浪潮下出现了一些新的业态......

    05-29    来源:网络整理

    分享
  • 关注 黑莓消息服务BBM今日正式停止个人版

      Emtek是黑莓公司于2016年协作经营音讯应用轨范BlackBerry Messenger消费者版本的搭档,周四他们在一篇博客文章中表现,技艺行业......

    06-02    来源:未知

    分享
  • 2019硬科技战略生态发布会在京举行

      本次活动吸引了200余位来自政府、中科院相关院所、研究机构、投资机构、硬科技代表企业、各大媒体齐聚一堂,探......

    06-04    来源:网络整理

    分享
  • 安徽省科学技术奖励大会召开 我校9项成

      4 月 11 日上午,安徽省科学技术奖励大会在合肥召开,会议颁发了 2018 年度安徽省科学技术奖。我校共获 1 项重大科技成就奖......

    06-05    来源:网络整理

    分享
返回列表
Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。