中国  

English  

你的位置:开云滚球「官方」kaiyun官网入口 > 新闻 > 开云体育在 Frontier 机器上-开云滚球「官方」kaiyun官网入口

开云体育在 Frontier 机器上-开云滚球「官方」kaiyun官网入口

发布日期:2024-11-26 06:02    点击次数:137

新闻

(原标题:用巨匠最大芯片打造超算开云体育,细节曝光) 若是您但愿不错等闲碰头,接待标星保藏哦~ 起首:内容来自nextplatform,谢谢。 劳伦斯利弗莫尔国度实验室、桑迪亚国度实验室和洛斯阿拉莫斯国度实验室在 HPC 社区中被简称为“三重实验室”,但这些 HPC 中心豪爽不错称为“尝试实验室”,因为它们历史上尝试过险些任何新的架构,以了解它在推动好意思国能源部的劳动方面可能有何远景。 桑迪亚国度实验室是前卫策动测试新架构的方位,目下它带着 Cerebras Systems 的第三代晶圆级系

详情

开云体育在 Frontier 机器上-开云滚球「官方」kaiyun官网入口

(原标题:用巨匠最大芯片打造超算开云体育,细节曝光)

若是您但愿不错等闲碰头,接待标星保藏哦~

起首:内容来自nextplatform,谢谢。

劳伦斯利弗莫尔国度实验室、桑迪亚国度实验室和洛斯阿拉莫斯国度实验室在 HPC 社区中被简称为“三重实验室”,但这些 HPC 中心豪爽不错称为“尝试实验室”,因为它们历史上尝试过险些任何新的架构,以了解它在推动好意思国能源部的劳动方面可能有何远景。

桑迪亚国度实验室是前卫策动测试新架构的方位,目下它带着 Cerebras Systems 的第三代晶圆级系统再次回首,但愿在一台着实联想用于运行 AI 推行和推理的机器上冲破传统 HPC 代码的性能阻遏。

两年前,桑迪亚从 Cerebras 收购了数目不祥的 CS-2 系统,每个系统皆有一个 CPU 主机和一个 WSE-2 晶圆级处理器,目的是将一些矩阵密集的 HPC 蓄意卸载到 WSE-2 引擎上的 16 位浮点中枢上。

为什么桑迪亚以至会斟酌将其 64 位或 32 位体式的蓄意精度裁汰四倍或两倍?因为这些 WSE-2 引擎(正如咱们在 2022 年 3 月详备先容的那样)将 850,000 个内核和 40 GB 的片上 SRAM 内存(蚀刻在 2.6 万亿个晶体管中)塞进一个餐盘大小的方形硅片中,具有 20 PB/秒的内存带宽和 6.25 千万亿次浮点运算的密集矩阵和 62.5 千万亿次浮点运算的稀少矩阵。

咱们的思法是,关于某些类型的劳动负载,若是问题合适内存,或者不错解析为跨越这些中枢的部分,那么在单个大型开辟上进行蓄意不错使 HPC 模拟运行得更快。

本年早些时候,桑迪亚国度实验室的一个磋议小组发挥了这少许,单个 CS-2 系统在某种分子能源学模拟中打败了橡树岭国度实验室的“Frontier”超等蓄意机。

更大的 Frontier 机器领有 37,632 个 AMD “Aldebaran” MI250X GPU 加快器,不错模拟晶格中的无数原子,但由于这些 GPU 集群的彭胀性较弱,它无法模拟永劫候舞动的原子。节点之间的蔓延使这成为不行能。

然而,使用改动的 LAMMPS 分子能源学模拟,桑迪亚缔造了一个测试,其中钨、铜和钽晶格由静态原子数构成——801,792,足以让一个 WSE-2 中枢保存一个原子的数据——然后模拟这些晶格受到发射冲击。与雄壮的 Frontier 系统中的 GPU 比拟,桑迪亚在一台 WSE-2 蓄意引擎上进行的 LAMMPS 模拟中每秒可处理的时候步数关于铜高 109 倍,关于钨高 96 倍,关于钽高 179 倍。这为 Cerebras 铁上的模拟提供了数十毫秒的时候,正如咱们其时指出的那样,有填塞的时候来骨子不雅察当你用能量戳晶格时晶格会发生什么。

在 Frontier 机器上,该阁下步调的彭胀在 32 个 GPU 时渐渐消弱,这令东说念主失望,何况标明关于某些类型的阁下步调来说,很难在单个蓄意开辟以外进行彭胀。

其时,咱们推测,若是 Sandia 升级到本年 3 月推出的 CS-3 系统中的 WSE-3 蓄意引擎,它就不错赢得更多时候(即模拟时候) 。借助 WSE-3 引擎,Cerebras 将晶体管缩小到 5 纳米(WSE-2 为 7 纳米),并将中枢数目加多到 900,000 个,但治疗到 8 宽 FP16 SIMD 单位,是 WSE-2 和 WSE-1 引擎中使用的 SIMD 单位宽度的两倍。咱们觉得 WSE-3 的时钟速率提高了约 5%,当你将时钟速率、中枢卓越和 SIMD 擢升相乘时,这便是 WSE-3 的性能是 WSE-2 的 2 倍的原因。

咱们忖度,通过从 WSE-2 移至 WSE-3,这种性能擢升可能会将钽晶格发射的模拟窗口从 40 毫秒加多到 80 毫秒。比拟之下,Frontier 机器上的这些节点模拟时候约为 200 纳秒。

嗯,看起来桑迪亚国度实验室的东说念主们思要取得一些 WSE-3 蓄意引擎并一探究竟。咱们还热烈怀疑他们思弄了了是否不错将模拟彭胀到多个晶圆上并冲破 1 秒模拟阻遏。

也许是为了这个目的,也为了其他目的,桑迪亚国度实验室和 Cerebras 也曾运转构建一个花名为“Kingfisher”的系统,该系统将以四个 CS-3 系统运转,并将在改日某个时候彭胀到八个系统。Kingfisher 集群将在传统的 HPC 模拟劳动和 AI 劳动上加倍英勇——固然是生成式 AI,但不一定仅限于此——这不错增强三实验室在国度核安全局的支撑下进行的处理,该局资助三实验室处理好意思国军方的核火器库存。具体来说,Kingfisher 是由核威慑高档模拟和蓄意东说念主工智能策动资助的。

桑迪亚磋议东说念主员 Thuc Hoang、Ann Gentile、Andrew Younge、Si Hammond、James Laros 和 Kevin Stroup 站在 Kingfisher 傍边。

在晓示 Kingfisher 系统的声明中,一直指引桑迪亚 CS-2 系统劳动的磋议东说念主员之一 James Laros 暗示,实验室正在探索使用改日版块的 WSE 蓄意引擎“用于 Mod-Sim 和 AI 劳动负载的组合”的可行性。咱们以前曾与 Cerebras 连合独创东说念主兼首席推论官 Andrew Feldman 开打趣说,宇宙着实需要的是一个领有 64 位 SIMD 引擎的 WSE,该引擎不错彭胀到 FP64 精度,以至不错裁汰到 FP4 精度,何况不错动态推论,可能是在晶圆上的不同块中,也可能是在代码运行时动态推论,因此表面上 HPC 中心的任何代码皆不错在 Cerebras 硬件上运行。

若是有填塞多的东说念主这样说,何况有填塞多的东说念主为此提供资金,也许这就会已毕。对咱们来说,这些皆不是笑翠鸟。Nvidia 不再专注于其 GPU 的 FP64 性能。

Kingfisher 系统的资本尚未公布,但咱们知说念,按照标价(不管 HPC 边界的标价是些许),客岁 G42 运转与 Cerebras 和谐,基于 CS-2 机器构建“Condor Galaxy”集群时,配备单个 WSE-2 的 CS-2 系统的资本约为 160 万好意思元。也许这意味着要取得 CS-3,价钱要飞腾 1.5 倍,或者可能飞腾 2 倍。在一个条目每一代皆物美价廉的宇宙里,230 万好意思元到 250 万好意思元可能是合理的。在一个需要更高性能且剿袭很少的宇宙里,320 万好意思元的 CS-3 节点资本是合理的。不管若何,咱们觉得桑迪亚不会为机器支付接近标价的价钱,但同期但愿匡助资助那些可能匡助其更好地运行模拟的公司。咱们不错详情地告诉你的是,Frontier 的 32 GPU 部分仅破耗约 425,000 好意思元,但它只可彭胀到这样大。

那么,加多原子数目和加多模拟时候对 NNSA 来说有什么价值呢?可能价值很大。

咱们期待进一步了解 Kingfisher 所作念的事情以及它是若何作念到的。

终末一件事:桑迪亚团队在 Cerbras 晶圆级系统上进行的分子能源学磋议将角逐本年的戈登贝尔奖。咱们但愿他们能获奖,这样 GPU 供应商们就得技术保合手警惕了。

https://www.nextplatform.com/2024/11/14/sandia-to-push-both-hpc-and-ai-with-cerebras-kingfisher-cluster/

半导体杰作公众号保举

专注半导体边界更多原创内容

关怀巨匠半导体产业动向与趋势

*免责声明:本文由作家原创。著述内容系作家个东说念主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或支撑,若是有任何异议,接待有关半导体行业不雅察。

今天是《半导体行业不雅察》为您共享的第3949期内容,接待关怀。

『半导体第一垂直媒体』

及时 专科 原创 深度

公众号ID:icbank

可爱咱们的内容就点“在看”共享给小伙伴哦开云体育

官网:
jichuangne.com

地址:
新闻科技园841号

Powered by 开云滚球「官方」kaiyun官网入口 RSS地图 HTML地图


开云滚球「官方」kaiyun官网入口-开云体育在 Frontier 机器上-开云滚球「官方」kaiyun官网入口