你的位置：开云集团「中国」Kaiyun·官方网站 > 新闻 > 开yun体育网领有220亿个晶体管-开云集团「中国」Kaiyun·官方网站

开yun体育网领有220亿个晶体管-开云集团「中国」Kaiyun·官方网站

发布日期：2024-10-05 06:33 点击次数：141

（原标题：又一颗芯片开yun体育网，挑战GPU）

如若您但愿不错往往碰头，接待标星储藏哦~

选录

关于一个30亿参数的LLM，一个带有16个IBM AIU NorthPole处理器的参议原型推理开辟提供了广宽的28,356token/秒的系统朦拢量和低于1 ms /token(每用户)蔓延，而16个NorthPole卡在一个紧凑的2U外形上仅耗尽672 W。专注于低蔓延和高能效，当NorthPole (12 nm)与一套GPU (7 / 5 / 4 nm)在各式功耗下进行比较时，在最低的GPU蔓延下，NorthPole提供72.7个更好的能效方针(token/s/ W)，同期提供更好的蔓延。

先容

大型话语模子(LLMs)还是在不同的AI任务中取得了显耀的性能基准，举例通过提供代码建议来协助编程，在尺度化测试中阐扬出色，以及匡助著作，博客，图像和视频的内容创建。

在LLMs的大界限部署中，止境是在东说念主工智能的大界限部署中，出现了两个主要且互相防碍的挑战，即：动力耗尽和反馈蔓延。

最初，由于LLM在锻练和推理方面皆需要无数的动力资源，因此需要一个可捏续的昔时计算基础设施来已矣其高效和凡俗的部署。跟着数据中心碳踪影的扩大，以及它们越来越受到动力适度，数据中心的动力成果变得越来越伏击。笔据寰宇经济论坛的阐述：

“当今，数据中心环境碳踪影主要分红两部分：锻练占20%，推理占80%。跟着东说念主工智能模子在不同领域的发展，对推理偏激环境踪影的需求将会升级。”

其次，很多应用要领，如互动对话和自主责任流，需要相称低的蔓延。在给定计算架构内，裁减蔓延不错通过裁减朦拢量来已矣，但这会导致能效着落。借用一句经典的系统格言进行改述：

“朦拢量问题不错通过资金处置，而蔓延问题则更为复杂，因为光速是固定的。”（改述自[10]，将“带宽”替换为“朦拢量”。）

GPU不错通过使用较小的批量大小来已矣更低的蔓延，但代价是朦拢量和能效的着落。此外，GPU分片通过在多个GPU上使用数据并行性来减少蔓延，但相似点燃了能效。岂论是否分片，GPU似乎皆际遇了蔓延下限的硬性适度。GPU在能效与蔓延之间的量度如图1所示。

图1：NorthPole（12 nm）在能量和系统蔓延方针上相干于刻下起头进的GPU（7 / 5 / 4 nm）的性能，其中系统蔓延是每个用户所资历的总蔓延。在最低的GPU蔓延（H100，点P2）时，NorthPole提供了72.7倍的更好能效方针（tokens / second / W）。在最好的GPU能效方针（L4，点P1）时，NorthPole则提供了46.9倍更低的蔓延。

因此，本文所探讨的一个关节参议问题是若何同期已矣低蔓延与高能效这两个互相防碍的主见。

NorthPole是一个推理加快器芯片和软件生态系统，从第一性旨趣共同联想，为神经收罗推理提供超卓的成果。尽管NorthPole并不是特意为LLM联想的，但令东说念主惊诧的是，本文解释了新式NorthPole架构不错已矣低蔓延、高能效的LLM推理(图1、图2和表1)。

表 I：性能测量收尾

测量了NorthPole和GPU系统的性能，按每卡计算。关于每个方针，#浮现越低越好，而"浮现越高越好。关于NorthPole 16卡开辟，功耗按每卡测量，总系统朦拢量按16张卡进行分辨。NorthPole蔓延通过扫数16张卡进行测量。P1、P2、P3、P4分别指代图1和图2中标志的点，浮现最高GPU能效方针、最低合座GPU蔓延、最高GPU空间方针和最顽劣效GPU蔓延。

本文的主要参议收尾如下：

关于一个参数目为30亿的大型话语模子（LLM），其模子结构源自IBM Granite-8B-Code-Base模子，并与Llama 3 8B和Mistral 7B[14]保捏一致，本文展示了一种配备16个NorthPole处理器的参议原型推理开辟。

在十足性能方面，该开辟提供28,356 tokens/sec的系统朦拢量，单用户蔓延低于1毫秒，同期在2U机型下，16个NorthPole卡的功耗为672瓦。

在相对性能方面，将12纳米的NorthPole与一系列GPU（分别为7 / 5 / 5 / 4纳米的A100 / L4 / L40S / H100）在不同功耗下进行比较，不错从图2(a)和图2(c)中看出：在最低的GPU蔓延（点P2）时，NorthPole提供了72.7倍更好的能效方针（tokens / second / W）和15.9倍更好的空间方针（tokens / second / transistor），同期蔓延仍低于2.5倍；在最好GPU能效方针（点P1）时，NorthPole提供了46.9倍更低的蔓延和2.1倍更好的空间方针，同期仍提供2.2倍更好的能效方针；在最好GPU空间方针（点P3）时，NorthPole提供了20.3倍更低的蔓延和5.3倍更好的能效方针，同期仍提供1.4倍更好的空间方针。

止境是，当将12纳米的NorthPole与5纳米的L4 GPU进行可比功耗比较时，从图2(e)中不错看出，在最高的L4朦拢量（低于50毫秒每token，点P1）时，NorthPole提供了46.9倍更低的蔓延，同期朦拢量提高了1.3倍；而在最低的L4蔓延（点P4）时，NorthPole提供了36.0倍更高的朦拢量（tokens / second / card），同期蔓延仍低于5.1倍。

图2：(a)–(d)面板显现了12纳米的NorthPole在能效、空间和系统蔓延方针上相干于刻下起头进的GPU（7 / 5 / 4纳米）的性能，其中系统蔓延是每个用户所资历的总蔓延。

面板(a)与图1交流，加多了点P3的标注。面板(a)和(c)使用单个GPU，而面板(b)和(d)使用分片本领，这可能裁减蔓延，但仅以点燃能效和空间成果为代价。在最低的GPU蔓延（H100，点P2）时，NorthPole提供了72.7倍更好的能效方针（tokens / second / W）和15.9倍更好的空间方针（tokens / second / transistor），同期蔓延仍低于2.5倍；在最好GPU能效方针（L4，点P1）时，NorthPole提供了46.9倍更低的蔓延和2.1倍更好的空间方针，同期仍提供2.2倍更好的能效方针；在最好GPU空间方针（A100，点P3）时，NorthPole提供了20.3倍更低的蔓延和5.3倍更好的能效方针，同期仍提供1.4倍更好的空间方针。

面板(e)显现了12纳米的NorthPole在朦拢量（tokens / second / card）和系统蔓延方针上相干于5纳米的L4 GPU的性能。在最低的L4蔓延（点P4）时，NorthPole提供了36.0倍更高的朦拢量；在最高的L4朦拢量（低于50毫秒每token，点P1）时，NorthPole提供了46.9倍更低的蔓延。用于计算每个能效方针的GPU功耗见表I。由于莫得可用的仪器来测量不同批量大小的骨子功耗，因此对扫数批量大小使用交流的功率，这可能会低估能效方针，但定性的收尾仍然诞生。

NorthPole架构

如图3所示，NorthPole处理器经受12纳米工艺本领制造，领有220亿个晶体管，面积为795平淡毫米。其架构受到大脑的启发，经过针对硅的优化，源于十个互补的联想公理，涵盖计算、存储、通讯和适度，使NorthPole在尺度AI推理任务中显耀高出其他架构，即使是与更先进工艺本领制造的处理器比较也阐扬优异。

相干NorthPole架构的详备公理，请参见[11]，[12]。简而言之，NorthPole将256个模块化中枢摆设在16×16的二维阵列中。每个中枢包含一个向量-矩阵乘法器（VMM），在INT8、INT4和INT2精度下，每个中枢每个周期分别扩充2048、4096和8192次操作。中枢计算还包括一个4路、32切片的FP16向量单元和一个32切片的激活函数单元。中枢阵列统共有192 MB的SRAM，每个中枢配备0.75 MB的SRAM。片上存储器与计算单元和适度逻辑空洞耦合，中枢存储器与计算之间的总带宽为13 TB/s。此外，每个中枢皆有4096根导线在水温情垂直主见交叉，用于通过四个专用片上收罗（NoCs）传递参数、指示、激活值和部分和。为了督察停顿，片上帧缓冲区配备32 MB的SRAM，将输入和输出数据的片外通讯与中枢阵列的片上计算解耦。

图3：NorthPole处理器：硅片（左），裸片（中），封装模块（右）。

开辟

NorthPole还是在一个PCIe Gen3 × 8卡中进行了原型联想，如图4所示，其中16个卡安设在一台现成的2U处事器中，构成了一个参议原型推理开辟，如图5所示。该处事器包含两颗Intel Xeon Gold 6438M处理器，每颗处理器具有32个中枢和60 MB缓存，主频为2.2 GHz。系统还配备了512 GB的4800 MHz DDR5内存。每个处事器处理器连络有两条PCIe Gen5 × 16总线，提供统共256 GB/s的PCIe带宽（双向）。这四条总线通过PCIe桥接器蔓延至系统的16个PCIe插槽，每个插槽上皆安设了一个NorthPole卡。这16个NorthPole卡最大使用可用的256 GB/s PCIe带宽的一半。

图4：NorthPole PCIe卡。

图5：参议原型开辟的领悟视图，展示了16个NorthPole PCIe卡的安设。NorthPole卡不错通过尺度的PCIe端点模子与主机进行通讯，或者通过每个卡上的附加硬件功能径直、愈加高效地相互通讯。

该系统运行Red Hat Enterprise 8.9，NorthPole使用内置的VFIO内核驱动，以便用户空间的软件概况管束硬件。系统使用IOMMU进行地址调治管束，并启用开辟欺压和杜撰化等安全功能，以便使用杜撰机或容器本领运行应用要领。

每个NorthPole卡通过驻留在每个卡上的DMA引擎给与和传输数据。这些DMA引擎安靖责任，不错以多种方式同期给与和传输张量。第一种举止是尺度的PCIe端点模子，主神秘领通过DMA引擎从主机内存中读取输入，并在计算完成后将张量写回主机内存。第二种举止期骗每个卡上的附加硬件功能，使NorthPole卡不错通过PCIe径直互相通讯，而无需进行主机内存之间的传输或在运行时进行特殊的软件管束。通过径直的NorthPole间通讯，不错使更大的模子跳跃多个NorthPole芯片，同期减少通讯蔓延和由纯软件管束系统领来的支拨。

将LLMs映射到NorthPole开辟

映射LLMs的计谋，如图6所示，受到了三个关节不雅察的启发。最初，关于富饶大的模子，通盘变换器层不错使用INT4样式的权重、激活值和KV缓存完全适配在单个NorthPole芯片的内存中（“w4a4”），而输出层则不错适配在两个芯片上。其次，如若权重和KV缓存完全驻留在芯片上，运行时只需在层间传输微型镶嵌张量，这在PCIe Gen3 × 8的带宽范围内。第三，不错通过在现成处事器中安设16个NorthPole PCIe卡，放荡拼装原型NorthPole开辟。

这默示了一种计谋，将每个变换器层映射到各自的NorthPole卡上，经受GPipe作风的活水线并行性，并将输出层跨两个NorthPole卡拆分，使用张量并行性，通过PCIe Gen3 × 8将层之间的镶嵌张量发送。在推理经由中，一个用户恳求的小批量（举例N个恳求）被分红M个相称的微批量，并通过16个NorthPole卡进行活水线处理。

天然活水线并行性已在LLMs锻练中得到期骗（莫得蔓延适度），但在推理中的使用受限于减少每个活水线阶段的安逸时刻或活水线气泡所需的大小批量。举例，有参议发现，高效锻练条件微批量数M轻便是活水线阶段数的四倍。小批量大小N受到以下身分的适度：（a）系统所需的每个token蔓延，以及（b）用于存储通盘小批量的KV缓存的可用内存。低蔓延计算和13 TB/s的片上内存带宽使NorthPole概况已矣极低的每个token蔓延，因此遴选N时的适度身分是用于在芯片上存储通盘KV缓存的内存。此外，咱们发现微批量数M便是活水线阶段数足以使活水线安逸时刻可忽略不计。

在本文阐述的本质中，咱们遴选了N = 28的小批量大小，分为M = 14个相称的微批量，从而使每个NorthPole卡计算的微批量大小为2。咱们在如斯小的批量大小下进行高效计算的架构联想遴选是已矣图1和表I中所示成果的关节。

LLM模子与锻练举止

LLM模子

用于测试咱们系统的模子基于开源的IBM Granite-8B-Code-Base模子，这是一个具有80亿参数的变换器解码器，包含36个变换器层，荫藏层大小为4096，FFN中间层大小为14,336，重主见头数为32，使用分组查询重主见（GQA）的键值头数为8，词汇表大小为49,152。为了得当带有16个NorthPole卡的单个处事器，咱们使用了该模子的30亿参数版块，包含14个变换器层和一个输出层，量化为w4a4精度，但其他结构保捏不变。

值得珍摄的是，这种模子设立在每层的基础上与Llama 3 8B[13]和Mistral 7B[14]相匹配，仅在层数、模子词汇表大小和使用的锻练数据上有所不同。

完全精度准确性的锻练

为了在量化后恢还原始模子的任务准确性，经受了以下要领来创建模子权重。最初，基于116种话语的1万亿个代码token，重新动手锻练一个基线模子，使用全FP16精度，战胜[4]的配方。接下来，对基线模子的输出层权重和输入，以及SiLU激活进行了INT8量化，而扫数其他权重、线性层输入和矩阵乘法输入则进行了INT4量化。临了，通过对来自锻练数据的Python话语子集的进一步85亿个token进行量化感知锻练，回话后量化准确性，学习率为8×10??，批量大小为128，经受LSQ算法。激活量化器的步长使用热启动进行锻练，在锻练的前250步中将学习率晋升200倍，以匡助快速得当数据。

在GPU上运行的基准FP16模子和在NorthPole上运行的量化模子在HumanEvalSynthesize-Python上的精度为pass@10，破绽在0.01以内(0.3001 GPU vs. 0.2922 NorthPole。与Granite-8B-Code-Base模子比较，合座锻练被简化为专注于硬件性能表征，而不是激动任务准确性的界限。

运行时应用

在推理经由中，如图6所示，token由在主机CPU上运行的高度活水线化用户应用生成，该应用通过使用分词器和镶嵌层将文本预处理为输入张量，将输入张量放入开辟中的第一个NorthPole卡，从开辟的临了一个NorthPole卡给与收尾输出张量，使用解码器和反分词器对输出张量进行后处理，并将生成的token轮回手眼下一个输入。用户应用还阐扬用户界面以及教导预填充等更高等的优化。

为了将神经收罗责任负载卸载到NorthPole，用户应用调器用有浮浅API的用户空间运行时库，在驱动化时设立NorthPole卡的层权重和KV缓存，并在运行时发送和给与输入与输出张量。权重和KV缓存设立后保留在片上内存中，运行时无需从片外流式传输。运行时库还管束片上帧缓冲区，以督察NorthPole中枢因短少输入数据或输出数据给与方而停滞。中间张量在卡之间传递，无需主机干扰，如第四节所述。

性能收尾

NorthPole 16卡开辟在30亿参数LLM上已矣了28,356token/秒的朦拢量。该LLM的序列长度设立为2048（1024个教导长度，生成1024个token），解码器经受讨论采样。

为了与GPU进行比较，咱们测量了两款针对低功耗推理的GPU（L4 和 L40S）及两款针对高朦拢量锻练的GPU（A100 和 H100）的单卡性能。扫数系统均运行交流的LLM模子和设立，NorthPole以w4a4精度运行，而GPU则以最好的w4a16精度运行，因为据咱们所知，莫得可用的w4a4 CUDA中枢。在咱们的GPU本质中，咱们期骗了GPTQ量化模子，并使用vLLM（版块0.5.4）Marlin中枢进行基准测试，以便与NorthPole进行比较。使用GPTQ量化通过裁减权重精度，同期保捏可接受的准确性，为GPU提供了最好的模子推感性能。此外，Marlin中枢被用来优化矩阵运算，止境是在处理寥落和密集矩阵乘法时。通过vLLM运行时的基准测试，使咱们概况评估朦拢量和蔓延，确保在给定硬件设立下的最好模子性能。在多个GPU卡的本质中，经受与可用卡数相称的张量并行性，以灵验获取通过NVLink的最小可能蔓延。咱们的本质标明，分片本领天然减少了蔓延，但导致GPU每卡的朦拢量着落。值得珍摄的是，NorthPole的超卓性能主要源于其广宽的片上内存带宽，其次才是较低的精度。

表I显现了NorthPole和GPU系统在每卡基础上的测量性能收尾。基本方针包括朦拢量、蔓延、空间和能量方针，界说如下。

关于输入教导的小批量生成的总token数为：

其中，MMM为微批量的数目，tok_seq_len为单个用户生成的输出token数。系统朦拢量是反馈输入教导的生成token总和（tokens gen），除以处理教导所需的总时刻，包括教导预填充时刻（prompt time）和token生成时刻（token gen time）：

朦拢量以每卡为单元进行比较，举止是将系统朦拢量除以系统中处理卡的数目：

蔓延是对特定用户生成输出token之间的平均时刻的度量，它是镶嵌token流经处理管说念所需时刻的总和，以及在生成token总和上平摊的教导预填充时刻：

相似地，勾通式1、2、4:

其中小批大小=小批大小珍摄，这是每个用户看到的系统蔓延。

通过系统中的卡片数目进行程序化，咱们蔓延了[11]中界说的空间和能量方针，以便概况比较具有不同卡片数目的系统。由此产生的空间和能量方针是每张卡的朦拢量，分别由每张卡的处理器晶体管数目和每张卡的功率归一化:

如若系统朦拢量与系统中活水线卡的数目成比例地蔓延，则卡的程序化将被对消，使空间和能量方针与系统中卡的数目保捏不变。常常，由于通讯和同步支拨，系统朦拢量在卡数目上呈次线性增长。

论断

咱们建议以下孝顺：

咱们展示了一个多卡NorthPole开辟的参议原型。

咱们解释了像LLM这么的大型神经收罗模子不错灵验地在多个NorthPole处理器之间拆分，蔓延了咱们之前的责任，后者显现单个NorthPole处理器在视觉推理任务（ResNet50、Yolo-v4）上的阐扬优于其他架构。

咱们解释了NorthPole独到的架构相称恰当LLM推理，使其在低蔓延和高能效的双重主见上显耀高出旯旮和数据中心GPU。

由于NorthPole开辟必须手脚一个合座使用，因此它对高朦拢量应用最为高效。

本初步论文为进一步参议能效优化、在相应更大NorthPole开辟上映射更大LLM、新的与NorthPole架构协同优化的LLM模子，以及昔时系统和芯片架构提供了一个跳板。

[1] T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin,S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei, “Language models are few-shot learners,” 2020. [Online]. Available: https://arxiv.org/abs/2005.14165

[2] J. Yang, H. Jin, R. Tang, X. Han, Q. Feng, H. Jiang, B. Yin, and X. Hu, “Harnessing the power of LLMs in practice: A survey on ChatGPT and beyond,” 2023. [Online]. Available: https://arxiv.org/abs/2304.13712

[3] M. Chen, J. Tworek, H. Jun, Q. Yuan, H. P. de Oliveira Pinto, J. Kaplan, H. Edwards, Y. Burda, N. Joseph, G. Brockman, A. Ray, R. Puri, G. Krueger, M. Petrov, H. Khlaaf, G. Sastry, P. Mishkin, B. Chan, S. Gray, N. Ryder, M. Pavlov, A. Power, L. Kaiser, M. Bavarian, C. Winter, P. Tillet, F. P. Such, D. Cummings, M. Plappert, F. Chantzis, E. Barnes, A. Herbert-Voss, W. H. Guss, A. Nichol, A. Paino, N. Tezak, J. Tang, I. Babuschkin, S. Balaji, S. Jain, W. Saunders, C. Hesse, A. N. Carr, J. Leike, J. Achiam, V. Misra, E. Morikawa, A. Radford, M. Knight, M. Brundage, M. Murati, K. Mayer, P. Welinder, B. McGrew, D. Amodei, S. McCandlish, I. Sutskever, and W. Zaremba, “Evaluating large language models trained on code,” 2021. [Online]. Available: https://arxiv.org/abs/2107.03374

[4] M. Mishra, M. Stallone, G. Zhang, Y. Shen, A. Prasad, A. M. Soria, M. Merler, P. Selvam, S. Surendran, S. Singh et al., “Granite code models: A family of open foundation models for code intelligence,” arXiv preprint arXiv:2405.04324, 2024.

[5] O. (2023), “GPT-4 technical report,” 2024. [Online]. Available: https://arxiv.org/abs/2303.08774

[6] D. McCandless, T. Evans, and P. Barton. (2024) The rise and rise of A.I. large language models (LLMs) & their associated bots like ChatGPT. [Online]. Available: https://informationisbeautiful.net/visualizations/therise-of-generative-ai-large-language-models-llms-like-chatgpt/

[7] B. Cottier, R. Rahman, L. Fattorini, N. Maslej, and D. Owen, “The rising costs of training frontier AI models,” arXiv preprint arXiv:2405.21015v1, 2024.

[8] S. Samsi, D. Zhao, J. McDonald, B. Li, A. Michaleas, M. Jones, W. Bergeron, J. Kepner, D. Tiwari, and V. Gadepally, “From words to watts: Benchmarking the energy costs of large language model inference,” 2023. [Online]. Available: https://arxiv.org/abs/2310.03003

[9] B. Ammanath, “How to manage AI’s energy demand — today, tomorrow and in the future,” 2024. [Online].

Available:https://www.weforum.org/agenda/2024/04/how-to-manageais-energy-demand-today-tomorrow-and-in-the-future/

[10] D. A. Patterson, “Latency lags bandwidth,” Commun. ACM, vol. 47, no. 10, p. 71–75, Oct 2004. [Online]. Available: https://doi.org/10.1145/1022594.1022596

[11] D. S. Modha, F. Akopyan, A. Andreopoulos, R. Appuswamy, J. V. Arthur, A. S. Cassidy, P. Datta, M. V. DeBole, S. K. Esser, C. O. Otero et al., “Neural inference at the frontier of energy, space, and time,” Science, vol. 382, no. 6668, pp. 329–335, 2023.

[12] A. S. Cassidy, J. V. Arthur, F. Akopyan, A. Andreopoulos, R. Appuswamy, P. Datta, M. V. Debole, S. K. Esser, C. O. Otero, J. Sawada et al., “11.4 IBM NorthPole: An Architecture for Neural Network Inference with a 12nm Chip,” in 2024 IEEE International Solid-State Circuits Conference (ISSCC), vol. 67. IEEE, 2024, pp. 214–215.

[13] AI@Meta, “Llama 3 model card,” 2024. [Online]. Available: https://github.com/meta-llama/llama3/blob/main/MODEL CARD.md

[14] A. Q. Jiang, A. Sablayrolles, A. Mensch, C. Bamford, D. S. Chaplot, D. de las Casas, F. Bressand, G. Lengyel, G. Lample, L. Saulnier, L. R. Lavaud, M.-A. Lachaux, P. Stock, T. L. Scao, T. Lavril, T. Wang, T. Lacroix, and W. E. Sayed, “Mistral 7B,” 2023. [Online]. Available: https://arxiv.org/abs/2310.06825

[15] Y. Huang, Y. Cheng, A. Bapna, O. Firat, M. X. Chen, D. Chen, H. Lee, J. Ngiam, Q. V. Le, Y. Wu, and Z. Chen, “GPipe: Efficient training of giant neural networks using pipeline parallelism,” 2019. [Online]. Available: https://arxiv.org/abs/1811.06965

[16] N. Shazeer, Y. Cheng, N. Parmar, D. Tran, A. Vaswani, P. Koanantakool, P. Hawkins, H. Lee, M. Hong, C. Young, R. Sepassi, and B. Hechtman, “Mesh-TensorFlow: Deep learning for supercomputers,” 2018. [Online]. Available: https://arxiv.org/abs/1811.02084

[17] M. Shoeybi, M. Patwary, R. Puri, P. LeGresley, J. Casper, and B. Catanzaro, “Megatron-LM: Training multi-billion parameter language models using model parallelism,” 2020. [Online]. Available: https://arxiv.org/abs/1909.08053

[18] S. K. Esser, J. L. McKinstry, D. Bablani, R. Appuswamy, and D. S. Modha, “Learned step size quantization,” in International Conference on Learning Representations, 2020.

[19] N. Muennighoff, Q. Liu, A. Zebaze, Q. Zheng, B. Hui, T. Y. Zhuo, S. Singh, X. Tang, L. Von Werra, and S. Longpre, “Octopack: Instruction tuning code large language models,” arXiv preprint arXiv:2308.07124, 2023.

[20] NVIDIA Corporation, “NVIDIA ADA GPU Architecture (V2.01),” 2023. [Online]. Available: https://images.nvidia.com/aemdam/Solutions/Data-Center/l4/nvidia-ada-gpu-architecture-whitepaperv2.1.pdf

[21] ——, “NVIDIA Ampere GA102 GPU Architecture (V2.1),” 2021. [Online]. Available: https://images.nvidia.com/aemdam/en-zz/Solutions/geforce/ampere/pdf/NVIDIA-ampere-GA102- GPU-Architecture-Whitepaper-V1.pdf

[22] ——, “NVIDIA H100 Tensor Core GPU Architecture (V1.04),” 2023. [Online]. Available: https://resources.nvidia.com/en-us-tensorcore/gtc22-whitepaper-hopper

半导体佳构公众号保举

专注半导体领域更多原创内容

眷注各人半导体产业动向与趋势

*免责声明：本文由作家原创。著作内容系作家个东说念主不雅点，半导体行业不雅察转载仅为了传达一种不同的不雅点，不代表半导体行业不雅察对该不雅点赞同或维持，如若有任何异议，接待谈判半导体行业不雅察。

今天是《半导体行业不雅察》为您共享的第3905内容，接待眷注。

『半导体第一垂直媒体』

及时专科原创深度

公众号ID：icbank

可爱咱们的内容就点“在看”共享给小伙伴哦开yun体育网

下一篇：体育游戏app平台试图开脱高通的调制解调器-开云集团「中国」Kaiyun·官方网站上一篇：开云体育GPU无疑是最大的孝敬着手-开云集团「中国」Kaiyun·官方网站

开云集团「中国」Kaiyun·官方网站

开云集团「中国」Kaiyun·官方网站

开yun体育网领有220亿个晶体管-开云集团「中国」Kaiyun·官方网站

相关资讯

栏目分类