GPT-4.5训练揭秘:10万块GPU齐上阵,遭遇“灾难性问题”
日期:2025-04-14 08:40:54 / 人气:41
近日,OpenAI史上最强大的模型GPT-4.5发布已一个多月,其背后的训练故事逐渐浮出水面。OpenAI联合创始人兼CEO萨姆·阿尔特曼与GPT-4.5的3位核心技术人员进行了一场深入对谈,首次披露了这款模型研发过程中的诸多不为人知的细节。

全员上阵,耗时超预期
GPT-4.5项目启动于两年前,是OpenAI迄今为止最周密的计划,涉及数百人团队协作。阿尔特曼称,为了这一项目,OpenAI几乎是“全员上阵”。然而,研发过程却耗时严重超期。
负责GPT-4.5预训练机器学习算法的Alex Paino表示,他们制定了一个很长的计划,涉及从系统到机器学习的整个技术栈。尽管进行了大量降低风险的运行测试,但模型训练仍然成为了难以提前完美规划的事情。系统架构师Amin Tootoonchian也提到,他们总是在带着许多未解决的问题开启训练,试图在运行过程中克服挑战。
10万卡集群暴露深层次故障
在集群规模从1万卡拓展到10万卡的过程中,OpenAI团队遇到了不少“灾难性问题”。Tootoonchian表示,这些问题并不是大规模训练阶段独有的,而是原本就经常出现,但规模提升后就会变成灾难性问题。特别是当团队并未提前预料到这些问题会恶化到如此程度。
其中,一个隐藏的小bug让集群频繁报错,直到训练进度条走过约40%才被揪出。这个bug是PyTorch上游的torch.sum函数出了问题,一个简单的求和运算。由于这个bug的特殊性,它只在某些无关紧要的边缘场景触发,导致定位过程充满戏剧性。
技术栈强大,5-10人可复刻GPT-4级别模型
尽管遇到了诸多挑战,但GPT-4.5的研发过程也帮助OpenAI打造了更为强大的技术栈。如今,他们仅用5-10人便可以复刻出GPT-4级别的大模型。从GPT-4到GPT-4.5,性能提升了约10倍,获得了“难以量化但全方位增强的智能”。
数据效率成突破关键,多集群架构成趋势
OpenAI团队已经意识到,要实现下一个10倍乃至百倍的性能提升,算力已不是瓶颈,关键在于数据效率。他们需要开发出能够利用更多算力,从同样数量的数据中学到更多知识的方法。
同时,系统正从单集群转向多集群架构。未来的训练可能涉及1000万块GPU规模的协作学习,其容错能力需要进一步提升。Tootoonchian表示,他们已经在探索如何构建与工作负载深度协同的容错机制,以显著降低运维焦虑。
作者:杏鑫娱乐
新闻资讯 News
- 美妆巨头抢滩医美:欧莱雅科技转...04-14
- 对标海外龙头,中国IP潮玩如何实...04-14
- 一场被“预演”的大风:北京如何...04-14
- GPT-4.5训练揭秘:10万块GP...04-14