前不久日本萝莉 porn,马斯克旗下的 xAI122 天建成十万卡集群,也让外界坚忍到算力集群对 AI 的进击性。(雷峰网雷峰网雷峰网)
之前坊间还流传一句话:处事器集群的范围越大,其测验出来的东说念主工智能推崇就越出色。
在这波海浪之下,全球科技巨头纷纷干涉巨资拓荒高性能 AI 联想集群,以耕种 AI 算法的效用和身手。谷歌推出了其 AI Platform,依托多模态生成式 AI 模子 Gemini,大幅耕种了在文本、图像、音频和视频处理上的身手。微软的 Azure AI Compute Cluster 整合了最新 AI 工夫,为拓荒者提供了从数据处理到模子测验的全认识扶持。(添加微信 Who123start,解锁独家科技内幕和行业趣闻)
行动国内最早推出大模子之一的百度,也展现出其精深的革新身手。11 月 6 日,在百度智能云举办的百舸媒体沙龙,深刻探讨"十万卡集群"的工夫革新、扩充经由偏激对 AI 行业的鼓动作用,并邀请百度隆起系统架构师、百度 AI 联想部认真东说念主王雁鹏在现场作念了共享和斟酌。
在线观看三级片以下是媒体与三位嘉宾在会上的对谈实录,雷峰网在不改革甘愿的情况下作念了剪辑和诊治:
Q:百舸的客户群是哪些?重心的行业客户是否之前有一些成效案例不错来共享?
A:咱们的客户主要分为两类。一类是大模子创企,他们需要万卡范围的联想身手,因而对快速拓荒和本钱法律解说有较高的需求。这类客户诚然数目较少,但其需求突出明确;
另一类是典型的互联网客户,他们的需求范围平日在千卡到 5000 卡之间。这些客户包括素养行业的公司。
这些互联网客户的主要需求是应用他们大王人的自少见据进行后期测验(Post Train),以顺应多样场景和优化,从而构建他们的数据飞轮。现在,这些测验需求依然是咱们的主要业务日本萝莉 porn,而推理需求相对较少。这也解说了为什么业界对 AI 算力落地效用仍存疑虑。展望在本年或来岁,算力需求仍将以测验为主,而推理和 SFT(小范围微调)的长尾客户将会增加,但总体资源需求仍低于头部客户。
Q:百舸客户的主要需乞降痛点是什么?咱们是如何责罚的?
A:各种客户的需求其实有许多共通之处,咱们不错一层层来分析。
1. 基础设施层面:这些客户首先需要一个精深的收集硬件互联架构。企业在尝试自行搭建大范围集群时,时时会遭遇收集上的坚苦。咱们的任务是为他们提供更好的收集硬件互联架构,使他们约略成效搭建一个大范围的联想集群。
2. 系统褂讪性:莫得陶冶的客户在自行搭建系统时,常会遭遇灵验测验时候过低的问题。这些褂讪性问题是客户面对的第二浩劫题,咱们需要匡助他们提高系统的可靠性和灵验测验时候。
3. 加快框架:在提供加快框架方面,咱们匡助客户优化并行计谋,耕种性能。通过更好的框架,咱们能权贵耕种联想速率,责罚加快问题。
4. 资源应用率:客户购买大王人资源后,需要灵验应用这些资源。他们可能既有推理任务又有测验任务,当先可能是为测验任务购买资源,但随后也需要应用这些资源进行推理。咱们通过任务夹杂部署,耕种资源应用率,确保资源约略被高效应用。
Q:您刚才花很大篇幅讲跨地域收集问题,能否例如评释试验效用?
A: 跨收集问题主要波及两个方面:一是当进行十万卡范围的部署时,如实需要跨地域的扶持;二是咱们云处事的身手。例如来说,咱们不错在云上两个机房同期部署联想任务,但客户在使用时统共感知不到互异。例如,即使客户使用的是 5000 卡的范围,咱们在不同场所分派资源,但使用体验依然一致,这是咱们的一大上风。
Q:面对不同客户需求,如 1000 到 5000 卡的范围,如何确保任务级别的夹杂移动的效用耕种?
A: 夹杂移动咱们仍是作念了许多职责,内容上是通过混书籍群扫尾不同特征的职责负载的夹杂。
例如,推理任务有波峰波谷,波峰时使用的资源更多,波谷时使用较少;而测验任务则需要固定数目的联想卡(如 1000 卡),若是资源不及,比如仅有 990 卡,任务将无法初始。
为了责罚这些问题,咱们提供了一个突出天的确部队机制,将业务视为假造部队,并确立优先级计谋。这些部队凭证试验情况动态诊治资源分派,当资源不再需要时,不错被其他部队的任务霸占,从而提高资源应用率。此外,咱们的框架约略自动重新分派并行计谋。例如,一个需要 1000 卡的任务,在资源不实时(如仅有 900 卡),约略诊治并行计谋以接续初始,从而确保任务的贯穿性和灵验性。
Q: 请肃肃聊一下 Checkpoint 措施,公共有不同的计谋,可能有些效用更好,有些则影响测验灵验时候和本钱,咱们在这方面是怎样作念的?
A: 原本的 Checkpoint 计谋是隔一段时候创建一个 Checkpoint,在故障发生后收复。然则,这种措施的纰谬是,若是每小时创建一次 Checkpoint,出现故障时平日会销耗一半的时候,即 30 分钟。因此,咱们但愿 Checkpoint 越密集越好,但这也带来新的问题。
当先的 Checkpoint 计谋需要罢手测验,将数据写入存储,这会破费大王人时候,因为存储带宽有限。那时停驻来写 Checkpoint 需要几分钟,这明显无法禁受,尤其在 Checkpoint 一样时。
第一阶段:改造为异步 Checkpoint,测验经由不中断,先将数据复制到内存,然后异步写入存储。这么不错镌汰 Checkpoint 时候,从原本的两小时一次镌汰到每 30 分钟一次。但依然存在瓶颈,如存储带脱期制。
第二阶段:引入触发式 Checkpoint。在正常情况下不创建 Checkpoint日本萝莉 porn,惟有在故障发生时才创建。许多 GPU 故障不会导致数据丢失,不错在故障点收复数据并存储。这种措施在大多数情况下灵验(95% 以上),仅在传统 Checkpoint 保留的情况下无回退和销耗。