不过 7 个月,华人 AI 巨星庞若明从 Meta 直接跳到了 OpenAI。 据传小扎曾为他开出高达 2 亿美金 的薪酬包,最终也没留住人。圈内都在问:他到底凭什么这么值钱?答案藏在一句行内黑话里——「既懂炼丹又懂建炉」。下面拆开讲清楚。
一、引言:当大家说一个人「值钱」时,到底在说什么?
庞若明(Ruoming Pang)是全球人工智能领域顶尖的华人技术专家,现任 OpenAI 研究员。圈子里常有人说他「特别值钱」——这话听着有点俗,但背后其实在说一件事:他身上有一种极其罕见的能力组合——既懂深度学习算法,又懂底层基础设施,而且两边都做到了顶尖。 用行内的话说:他不仅在机器学习算法上造诣深厚,更精通底层基础设施架构,堪称「既懂炼丹又懂建炉」的顶尖专家——炼丹是模型与训练,建炉是算力与系统,二者兼通者凤毛麟角。
这种组合为什么罕见?为什么值钱?对我们这些在互联网、AI 或技术行业里干活的人,又有什么可借鉴的?这篇文章就试着把「值钱」拆开来讲清楚:不追八卦,只谈能力结构和稀缺性。
二、大家说的「值钱」,到底指的是什么能力?
一句话概括:能把「模型怎么设计、怎么训练」想清楚,同时能把「算力、系统、工程」做到极致的人。
- 算法这一侧:模型架构(比如 Transformer、MoE)、训练目标、scaling laws、对齐与安全……本质是回答「模型在做什么、为什么有效、下一代该怎么设计」。
- 基础设施这一侧:GPU/TPU 集群、分布式训练(数据/模型/流水线/张量并行)、通信与内存优化、算子与编译……本质是回答「算法怎样在真实硬件和系统上高效、稳定地跑起来」。
大多数人要么偏算法(发论文、调模型),要么偏系统(搞集群、写 kernel),两边都做到顶尖且能打通的人,在业界非常少——换句话说,真正「既懂炼丹又懂建炉」的少之又少,所以一旦出现,就会被说「值钱」。
三、拆开看:「算法侧」和「基础设施侧」分别是什么?
3.1 深度学习算法这一侧
这里说的不是「会调参」,而是能设计、理解并推动下一代模型与训练方式的能力,包括:
- 模型与架构:Transformer、注意力机制、MoE 等,以及为何有效、如何扩展。
- 训练方法论:大模型预训练、指令微调、RLHF 的设计与数据配比、多阶段训练等。
- 理论与直觉:scaling laws、涌现、对齐与安全,以及和优化、统计学习的联系。
简单说:懂「模型在做什么、为什么有效、下一步往哪走」。
3.2 底层基础设施这一侧
这里说的不是「会部署」,而是能设计、实现并优化大规模训练与推理系统的能力,包括:
- 算力与硬件:GPU/TPU 集群、NVLink/NVSwitch、RDMA、内存与带宽瓶颈、算子与 kernel 级优化。
- 分布式与系统:数据/模型/流水线/张量并行、多机多卡调度、容错与弹性、通信库(如 NCCL)等。
- 软件栈与工程:CUDA、自定义 kernel、编译器(如 XLA)、图优化,以及把千亿/万亿参数模型真正训起来、推出去的能力。
简单说:懂「算法怎样在真实世界里高效、稳定地跑起来」。
四、为什么说这种能力「极其罕见」?
- 分工常态:算法专家更多在论文、架构和理论上深挖;系统专家更多在集群、通信和性能上深挖。两边交集有限,能跨过去并在两边都做到顶尖的人本来就少。
- 大模型时代的门槛:要做有影响力的算法,得懂 scaling、对齐、新架构;要把千亿/万亿模型真正训出来、用起来,又必须懂并行、通信、内存与调度。只懂一头,很容易卡在「想法落不了地」或「系统撑不住新算法」。
- 教育与实践的错位:学院里往往算法和系统分家;工业界里能同时接触超大模型算法与超大规模系统的人也不多。所以同时在这两条路上都走到前沿,既需要机会,也需要极强的学习与整合能力。
换句话说:不是「会一点算法又会一点系统」,而是「两边都达到业界顶尖,还能打通」——这种人才供给非常有限。
五、为什么「值钱」?——稀缺性与不可替代性
- 从想法到落地,损耗更小:既能设计下一代模型与训练方式,又能判断在现有系统上能不能跑、瓶颈在哪、该怎么改。减少算法与系统之间的信息损耗,加速从论文到产品。
- 能判断技术路线:大模型往哪走、该不该上某种新架构、先扩数据还是先扩算力……这类决策需要同时懂算法和系统。这类人可以直接参与或主导技术战略。
- 产业愿意为稀缺付费:顶尖实验室和公司争抢的,正是这种「算法+系统」双轨都强的人。稀缺性决定了市场愿意给出的回报。
所以「值钱」的本质是:在关键岗位上,具备不可替代的复合能力,且供给极少。
六、对我们有什么可借鉴的?——可复用的几点洞察
「算法+系统」是一种可追求的能力组合
不必人人都做到顶尖双轨,但可以有意地在算法理解与系统直觉之间搭桥:算法同学多了解一点分布式与硬件瓶颈,系统同学多了解一点模型架构与训练逻辑,都能提高判断力和协作效率。
稀缺往往来自「跨界且都够深」
与其在单一赛道上卷到极致,不如思考:你在哪两个领域的交叉处,能同时做到足够深? 这种交叉点往往更少人占据,也更容易形成不可替代性。
「值钱」是结果,能力结构才是原因
我们讨论庞若明「值钱」,本质是在讨论哪种能力结构在当下最稀缺、最被市场认可。对个人来说,更有用的是:看清这种结构,再结合自己的兴趣与条件,有意识地去补足或强化某一侧。
七、总结
庞若明之所以被说「值钱」,是因为他拥有极其罕见的、跨越「深度学习算法」与「底层基础设施」的综合技术能力——在算法侧能设计、理解并推动下一代模型与训练范式,在系统侧能设计、实现并优化大规模训练与推理基础设施,且两边深度都达到业界顶尖,并能打通。
这种能力结构在当下 AI 产业里供给少、需求大,因此稀缺且「值钱」。对我们来说,更值得带走的是:看清「算法+系统」双轨能力是什么、为什么罕见、为什么值钱,再思考自己可以在哪条轨道上加深、在哪条轨道上搭桥——这才是可以复用的洞察。