特斯拉CEO埃隆·马斯克近日在社交媒体上透露,特斯拉自主研发的AI训练超级计算机Dojo即将迎来重大升级,第二代AI芯片Dojo 2将于"今年晚些时候"正式上线。这一消息迅速引发科技圈热议,因为马斯克此前曾表示Dojo 2在性能上可与英伟达旗舰级B200 AI训练系统相媲美。
Dojo超级计算机是特斯拉为训练自动驾驶系统FSD而专门设计的AI训练平台,其名称灵感来源于日语中的"道场",象征着持续训练与精进的理念。这个由数千个计算节点组成的庞然大物,每个节点都配备了独立的CPU和GPU,能够将复杂任务分割处理,大幅提升AI模型的训练效率。
然而,马斯克的野心显然不止于此。他特别强调:"一项新技术要经过三次重大迭代才能成为伟大的技术。Dojo2已经很好了,但Dojo3一定会更棒。"这番话暗示了特斯拉在AI芯片领域的长期布局,也引发了外界对Dojo系列芯片未来发展方向的无限遐想。
目前,初代Dojo系统已经进入量产阶段。这套被称为"晶圆上系统"的先进架构,采用台积电InFO_SoW集成技术,单个训练模块包含25个D1芯粒,并配备了专为高速网络互联设计的V1接口处理器。这种创新的架构设计,使Dojo在AI训练任务中展现出独特优势。
但特斯拉AI团队近期发布的报告也揭示了Dojo系统面临的挑战。由于制造缺陷和老化问题导致的静默数据损坏(SDC)正在困扰着超级计算机的稳定运行。与传统系统崩溃不同,这种问题不会立即显现,而是在训练过程中悄无声息地破坏数据完整性,可能导致数周训练得到的AI模型产生错误结果,甚至影响模型收敛速度。
更令人担忧的是,这类问题在模型训练完成后几乎无法检测,企业可能在不知情的情况下部署了基于损坏数据训练的AI系统。这无疑给自动驾驶等关键应用场景带来了潜在风险。特斯拉工程师们正在全力解决这一问题,而Dojo 2的推出或许将带来更可靠的硬件解决方案。
从技术迭代的角度看,Dojo 2的推出标志着特斯拉在AI芯片自主研发道路上迈出了坚实一步。马斯克将其与英伟达B200相提并论,显示出对产品性能的充分信心。但正如他所说,真正的技术突破可能需要等到第三代产品。这种分阶段、持续优化的产品开发策略,体现了特斯拉在AI基础设施领域的长期投入决心。
随着AI技术在各行业的深入应用,高性能训练芯片已成为科技竞争的新战场。特斯拉通过自主研发Dojo系列芯片,不仅为自身自动驾驶技术发展奠定基础,也可能在未来重塑AI计算市场的格局。当Dojo 2正式上线时,业界将有机会验证其实际性能是否真如马斯克所言,能够比肩甚至超越行业领军者英伟达的旗舰产品。
对于关注AI技术发展的观察者而言,更值得期待的是马斯克口中的"三次迭代"理论最终将把Dojo系列带向何方。如果前两代产品已经展现出如此潜力,那么未来的Dojo 3会带来怎样的革命性突破?这个问题的答案,或许将决定特斯拉在自动驾驶乃至更广泛AI领域的技术话语权。