前阿里、字节大模型带头人杨红霞创业:大模型预训练,不是少数顶尖玩家的算力竞赛|智能涌现独家
2025年10月30日 16:26·36kr
采访|周鑫雨 邓咏仪
文|周鑫雨
编辑|苏建勋
在阿里、字节接连做了近7年大模型的杨红霞,身上有一种鲜明的挑战精神。
在阿里早期,她从内部的业务阿里搜索推荐系统,投身于初期并不被看好的大模型研究之路。
后来,她带领林俊旸(现通义千问负责人)、周畅(前通义千问大模型负责人)等这一轮中国大模型的核心人才,在达摩院磕出了通义千问的前身,M6 大模型。
2024年7月,杨红霞从字节离职创业后,被曝出仍要做模型相关技术的消息。
“阿里、字节大模型核心人物”的光环,没有盖住彼时市场上悲观的声音:入局太晚,创业公司怎么和大厂争?
时隔一年零三个月,杨红霞带着她的新 AI 公司 InfiX.ai,杀回了大模型赛道。
10月初,《智能涌现》与身在香港的杨红霞,在线上交流了她的创业近况。
她没有选择创业资源集中的北上广深,而是加入了香港理工大学。在杨红霞看来,前往香港是一个极具性价比的决定:
人工智能相关的产学研项目,拥有丰厚的资金和算力补贴;因为香港拥有全球领先的人才密度,公司得以快速组建了40人规模的团队。
出于种种考虑,杨红霞希望在访谈中只讨论技术,不透露商业化的细节。
但仅从技术中,就能窥见 InfiX.ai 的宏大版图:这一次,杨红霞不仅想和市面上的顶尖模型叫板,甚至想革新大模型的训练和落地范式。
当下主流的顶尖模型,包括GPT,都是由某个大机构主导的、“中心化”的。杨红霞解释,“(中心化的模型)需要集中投入非常多的数据、人力、算力资源”。
但 InfiX.ai 要做的恰恰相反:让大模型预训练“去中心化”,变成中小企业、研究机构,甚至个人都能参与的事。
这么做的核心原因在于,2023年中,彼时还在字节的杨红霞就发现,擅长解决通用领域问题的“中心化”模型,无法真正落地。
比如,不少数据敏感的企业有本地化部署模型的需求。一般而言,业界主流的解决方案,是基于企业的数据,对“中心化”模型进行后训练(比如微调、强化学习)。
然而,杨红霞对我们强调:“模型知识的注入只发生在预训练阶段,后训练提供的是规则。”就好比,预训练一段是 8 年制的医学博士生涯,后训练则是临床实习的过程。
这就导致,基于企业数据后训练的模型,在实际业务中仍然会出现不少“幻觉”。
“中心化”模型的研发经历,让杨红霞形成了创业的两个原始判断:
第一,大模型要落地,不能只依赖少数巨头机构,必须基于诸多企业数据预训练;
第二,为了让企业也能做预训练,必须要降低所消耗的资源。
围绕这两个判断,近期,InfiX.ai 开源了全球首个 FP8 训练“全家桶” (包括预训练、监督微调和强化学习),一项模型融合技术,以及基于此训练出的医疗多模态大模型和多智能体系统。
低比特模型训练框架 InfiR2 FP8:
相较于行业普遍采用的计算精度 FP16/BF16 而言,InfiR2 FP8 在模型性能几乎无损的情况下,既提升了训练速度,也节省了显存消耗。
△ InfiR2-1.5B-FP8 对⽐ BF16 基线在推理评测集上的性能表现,两者几乎持平。图源:企业供图
△ 显存占⽤、计算延迟与系统吞吐量测试结果。相较于 FP16/BF16,InfiR2 FP8 将端到端训练速度最高提升了 22%,显存峰值最高节省了 14%,端到端吞吐量最高提升了 19%。图源:企业供图
- 模型融合技术 InfiFusion:
不同领域企业和机构预训练出的不同尺寸、不同结构的领域“专家模型”,可以通过模型融合 (Model Fusion),打造融汇不同领域知识的大模型。
这一技术可以避免模型重复训练所造成的资源浪费。
- 医疗多模态大模型训练框架 InfiMed:
这一框架可以让基于小规模数据和算力资源训练出的小规模参数模型,在多项医学任务中展现强大推理能力。
△ InfiMed-RL-3B在7个benchmark的性能⽐较。比如,基于36K RLV(可验证奖励的强化学习)的小规模数据,训练出的医疗模型 InfiMed-RL-3B,在七大医疗基准测试中显著优于业界同尺寸的谷歌的医疗模型 MedGemma-4B-IT。图源:企业提供
- 多智能体系统 InfiAgent:
该系统能够代替人工,自动为多智能体分解和分配复杂任务,实现任务的自动规划和调度,降低了Agent系统的开发门槛和成本。
△InfiAgent 在多项标准基线上测试的结果。在需要多步推理的复杂任务(如 DROP)上,InfiAgent 领先最佳基线 3.6%。图源:企业提供
更进一步,是将这些注入了领域知识的模型,通过模型融合技术,成为更强大的模型——无需重复预训练,就能得到拥有更多知识的大模型。
这次创业,杨红霞将技术的落地领域,不仅先放在了医疗这块难啃的骨头,还将范围缩小到了最难攻克的癌症领域。
她告诉《智能涌现》:“一定要选一些特别有挑战的领域,让模型能力真正有区分度,证明我们的模型在这个领域是最好的。”
杨红霞创业初期,“去中心化”“模型融合”,对仍然信奉“大力出奇迹”的国内模型赛道而言,依然是边缘叙事。她记得,彼时面对合作方和投资人,还需要解释许多。
但在美国,“去中心化”的热潮已经逐渐涌起。2025 年 2 月,前 OpenAI CTO Mira Murati 成立了新公司 Thinking Machines Lab (以下简称“TML”),愿景是让个人开发者和初创企业,也能负担得起模型训练。
“我真没想到一家还没有实际业务落地的公司,只是宣布要做这件事,(种子轮)就能实现融资 20 亿美金、估值 120 亿美金。”
这个消息让杨红霞确定,“去中心化”会成为一种主流,“你可以想象到湾区这帮人对这件事有多么笃定”。
等到第二轮融资,她发现,质疑声明显减少了许多。从提出增资,到完成融资,InfiX.ai 只花了两周时间。杨红霞告诉我们,现在公司已经超融了。
在她描绘的图景中,未来,每家公司和机构都会有自己的专家大模型。不仅不同领域的专业模型可以融合,分布在中国和欧洲训练的模型,也可以带着跨国界的知识融合——模型融合会带来全球化的领域基础大模型。
“通用人工智能(AGI)不应成为一场仅限于顶尖玩家的算力竞赛,”杨红霞总结,“未来会成为一场‘全民协作’。”
以下是《智能涌现》与杨红霞的对话,内容略经编辑整理:
“中心化”带来技术突破,“去中心化”带来落地
智能涌现:简单介绍一下,为什么我们需要“去中心化”的模型训练?
杨红霞:我看到今天模型的落地有一个很大的鸿沟存在。我们和高精尖领域、中小企业、医院、政府机构聊,大家都想用生成式人工智能,但迟迟用不起来,核心原因是现在的中心化大模型没有他们所对应的领域数据。
需要强调的是,模型知识的注入只发生在预训练阶段。后训练阶段,模型接受的全是规则,用来告诉它怎么解决复杂任务。
所以模型在企业或机构的本地化部署,一定要启动持续预训练,因为医院、企业、机构大量的本地化私有数据和知识,在互联网上是无法获取的。
同时,现在不同企业或机构的数据是很难共同分享的,导致了现有范式下模型无法做到全球化和全行业化。
我相信未来每家公司都会需要大模型这样一个脚手架。所以第一件事,我们希望把脚手架做到最便宜、最易用、入门门槛最低,让每一家企业或机构都有自己本地化部署的模型。
第二件事,我们想通过模型融合的方式,把某个领域的模型做到全球化。比如不同医院的医疗专科模型融合起来,就能得到一个医疗领域的基础模型。
所以所谓的“去中心化”,就是在各个领域,集大家的能力,一起做好领域大模型。
智能涌现:你之前在字节和阿里做的都是“中心化”的模型训练,你对“去中心化”的关注是从什么时候开始的?
杨红霞:从2023年中开始,我们就有这样的想法了。
当时在业界,我举个简单的例子,当你的场景流量非常大,比如搜索推荐广告,不可能一直调用一个中心化的1.6万亿的大模型,你根本扛不住这种服务吞吐压力。
2021 年底,谷歌 CEO 宣布把谷歌所有的搜索引擎替换成 BERT(2018 年谷歌发布的大模型) 基座为主,前无古人。
当时 BERT 的最大模型 BERT-Large,参数量也只有 3.4 亿。所以工业界不可能在超大流量情况下每时每刻调用千亿参数量的模型。
2023 年中起,我们做了很多尝试,证明一件事,就是在一个垂直领域中,30 亿、70 亿、130 亿等小尺寸的模型,可以做得比 1.6 万亿参数的中心化大模型好。
到 2024 年中,我们验证了这个结论一定是正确的,领域的模型变小一定是未来的趋势。
智能涌现:2023 年中,你还在字节。当时无论是字节也好,还是整个业界也好,大家对“去中心化”的模型训练有共识吗?
杨红霞:当时更多的人和大厂,包括现在也是,还是以做中心化的模型去实现通用人工智能(AGI)为主。
相对而言,中心化路线上技术的挑战会少很多。只要把数据处理得足够干净,有足够多钱去请人,把人工智能的训练基础设施建得足够鲁棒和稳定,加上足够多的算力,我一定可以把模型的能力砸上去。
大家的使命也不一样。大厂肯定还是希望突破通用人工智能(AGI),当然这也是我特别想看到的一件事。
但即使在今天,各个大厂真正能做大模型核心研发的人还是非常非常少,大量的人还在做数据清洗,更不要提非大厂的机构。
各个领域的专家,比如医生,其实对大模型很感兴趣。但他们直接调用任何开源模型的 API 服务,其实效果都不好,全是幻觉(hallucination)。
智能涌现:那在阿里和字节的时候,你相信“中心化”这件事吗?这和你现在做的“去中心化”是截然不同的。
杨红霞:我肯定是相信的,包括我现在也相信。
因为中心化将所有的资源都聚集在了一起,所以它减少了一些技术上的挑战,一定会带来重大的技术突破。
但去中心化一定会让技术广泛应用在各个领域。所以我觉得两条路都是对的。
智能涌现:2024 年中,什么样的进展让你觉得去中心化的技术是对的?
杨红霞:在 2024 年初的时候我们已经验证了一件事,在一个垂直领域中,小模型可以超越大模型。
但那时很少有人关注到这一点,现在这已经是大家的共识了。比如 MIT Tech Review 在 2025 年十大突破性技术中,把小语言模型列为其中之一。
当你验证这一件事,就会自然而然想到直接把不同领域的模型进行融合,不要再去重新训练,就能得到拥有更多知识的大模型。
差不多在那个时间,Sakana AI 的创始人 Llion Jones,他也是 Transformer 的作者之一,已经实现了部分的工作。他们的成员阵容很豪华,现在估值也很高,第一轮领投的是软银,第二轮又是英伟达。
所以当时我们觉得去中心化应该也是一条非常值得期待和充满魅力的道路。
△ Sanaka AI 联合创始人 Llion Jones(左)和 David Ha(右)。图源:互联网
智能涌现:如果类比中心化的模型进展,团队进展到了哪个阶段?GPT-3 吗?
杨红霞:GPT-3 的判断应该比较准确,0-1 的阶段。
智能涌现:去中心化的 GPT-4 moment 会是怎样的?
杨红霞:其实我们现在在推动一件事,比如将这样一个 model fusion(模型融合)的平台,开源到 GitHub 和 HuggingFace 上。
商业等一些领域的数据很敏感,而且值钱,大家是不愿意将这部分数据贡献到开源社区的。无国界的、不强调商业价值的科学领域就好一些。
如果今天我们把全球科学领域上的所有模型 merge 起来,得到一个科学领域的 science foundation model,并且表现上超越今天的中心化模型,我觉得这有可能是一个 GPT-4 moment。
智能涌现:目前团队的工作都是开源的,什么阶段会考虑闭源?
杨红霞:目前还没想过。当下我们还是希望先把社区的第一步做好。因为开源都没做好的话,就不用想闭源了。
智能涌现:未来去中心化模型会代替中心化模型吗?
杨红霞:我觉得是共存的状态。
我比较喜欢看历史。举个计算机的例子,最开始计算机是超大规模的一体机(mainframe)。但今天每个人用的小手机都是一个分布式的、去中心化的小计算机。
每天你在手机上做的任何操作其实都是在编程,只不过手机的图形化用户界面(GUI) 封装得太好了,你不需要复杂的编程。
所以我认为大模型也是同样的。我非常相信中心化一定会带来重大的技术突破,但如果你想让你的技术广泛地被应用起来,去中心化一定是未来,跟计算机是一样的道理。
直到今天,我更加坚信这件事情了。因为我们在 model fusion(模型融合)上得到了一系列结果,包括模型融合scaling law的证明。
还有 OpenAI CTO Mira 成立了 Thinking Machines Lab。让我关注到的是,这家尚未有实际业务落地的公司,只是宣布要做这件事,就能实现融资 20 亿美金、估值 120 亿美金。
你可以想象到湾区这帮人对这件事有多么笃定。
△ 前 OpenAI CTO、Thinking Machines Lab 创始人 Mira Murati。图源:WIRED
智能涌现:湾区开始相信这件事,但国内对这项技术的态度是什么?你在融资的过程中,收到过怎样的反馈?
杨红霞:我们融资相对还是非常顺利的。第一轮融资的时候,让大家接受我们的思路,还是需要讲挺多的。
但那一轮也很快。我们的股东有一家非常顶尖的、国际化的投资机构,所以时间流程很长。但从大概(2024 年)11 月拿到 term sheet开始,到今年 3 月左右,我们就全部完成融资交割了。
现在已经到了第二轮融资(PreA)。从我们开始提出增资,到完成融资,只花了两周时间,现在已经超融了。
相比 TML 已经 120 亿美金的估值,我们非常便宜,就几亿美金。我不需要这么多融资,尤其我们现在走的是低资源训练的路。
我想做有挑战性的领域
智能涌现:团队这次推出了医疗多模态大模型的低资源训练框架 InfiMed。为什么你选择先从医疗领域做起?
杨红霞:大模型是一个“大杀器”。它就是要去解决人类非常有挑战性的一些问题。
我信奉一个理念,如果今天拿一些简单的任务,或者一些简单的benchmark,根本没办法区分大模型的能力。因为它有可能都表现得挺好,你无法得知哪个领域表现得更好,同时成本也很高。
在模型上我们已经花了那么高成本,那总归要带来一些重大突破,去突破能够影响很多人的领域。
另一方面,一定要选一些特别有挑战的领域,让模型能力真正有区分度,证明我们的模型在这个领域是最好的。
比如说医疗,我们选的是癌症这个场景,没选别的。未来老龄化是普遍的,影响人群很广泛。同时癌症筛查非常复杂,它的数据就是多模态,分子、血液的影像比文本复杂很多。
智能涌现:做有挑战性的事,这样的研究风格是你一以贯之的吗?还是创业后才有的?
杨红霞:我一直这样。
比如最早在阿里的时候,我做的是推荐系统,这是互联网最核心的应用。但当时我主动选择去做大模型,相当于放弃了推荐系统这个最有技术热度、最火的应用,去做一个当时还没获得普遍认可的技术。
做推荐系统的时候,我们中间还测试过不少方向。比如当时 Graph Neural Network(图神经网络)火过一段时间,我们投入了不少人力、物力去进行研发,包括周畅、林俊旸,大家都在做这件事。
但我们发现图神经网络不好用,就果断放弃了。后来大家又一起去做了大模型。所以我们可以非常开放和谦虚地接受技术上的挑战和新方向。
智能涌现:从大厂到创业,你会感受到资源的落差吗?团队会怎么分配有限的资源。
杨红霞:我们肯定不能像大厂那样(投入)。但说实话,今天大厂有多少资源是被完全利用的?真正能拿到手的技术研发资源,可能远小于你的想象。
虽然现在资源有限,但我们提倡的就是低资源的模型训练,所以也不需要那么多资源。一旦资源受限,那就充分发挥你的技术能力。
智能涌现:提高团队资源利用率的核心是什么?
杨红霞:判断正确的方向。
我发现谷歌在技术探索上,更倾向于给予团队和个人充分的自主空间,支持大家尝试不同的方向。不过这种模式下,资源可能会相对分散,导致部分方向难以形成足够的突破力度。
而 OpenAI 的思路不太一样,他们当时聚焦于 “next token prediction” 这一个核心方向,这让我觉得,如果能有核心技术人员精准把控方向,团队齐心协力聚焦一处,往往能提升成功的概率。
智能涌现:公司在研究或商业上的竞争对手是谁?你之前提到了 Sanaka AI 和 TML。
杨红霞:我和同学们说,我们从来不是盯住某一家公司,而是永远盯住我们关心的领域中最好的发布。比如我们做医疗,目前谷歌的 MedGemma 现在是领域中最好的,那我们就要用更小的尺寸更低的资源做得更好。
比起商业化竞争,我们更关注技术本身,在每一点上做到极致。实话讲,我还是希望更纯粹一点。
智能涌现:去中心化、模型融合路线上已经有了 Sakana AI,你还有哪些研究的空间?
杨红霞:Llion Jones 是做 evolutionary algorithm(遗传演化算法) 出身的,这一算法学习的效率会比较高一些,但它有个强要求,就是所谓的 model merging,必须基于同构的模型。
比方说 model merging 的模型必须都基于 Llama 3.2 finetune(微调)得到,但 Llama、DeepSeek、千问,这些异构的模型无法实现融合。
看到这些成果后,我们也觉得异构模型的融合一定是一条可以探索的路。所以这是我们在2024年7月正式开始创业的契机。
△ 模型融合的Scaling Law。图为对不同融合方法和不同融合的模型个数上进行了大规模实验验证。图源:企业供图
智能涌现:要实现异构的模型融合,难点有哪些?
杨红霞:难点挺多的。去中心化完全没有可以抄作业的对象,不像中心化,最开始都是从 GPT-3 开源开始抄。Sanaka AI 最开始有一些发布,我们都去尝试了,发现并不完全有效。
如今模型在专业领域的提升,可以认为是后训练,比如 finetune(微调)和强化学习,可以简单理解为只要调整一个函数。
但多个模型的融合,意味着你要兼顾多个函数, 而且每个模型的参数量是巨大的,而且要考虑到模型之间的冲突。在理论上要难得多。
所以我们需要突破很多点。比如范式的定义。之前没人定义过 model fusion 的 SFT(监督微调)和强化学习该怎么做,我们把它定义出来了。
一般情况下,大家做 SFT 是采取Cross Entropy(交叉熵损失函数),我们采用的是 Graph-based Loss(基于图的损失函数)。
前者更多地是实现了 token 层面的对齐,但我们不仅实现了token层面的对齐,同时通过图,加入全局语义依赖关系的对齐。
类似于这样一步一步的突破,叠加起来实现了模型能力的提升。
智能涌现:什么时候在技术上才有突破?
杨红霞:大概在今年 2 月份,我们的 model fusion(模型融合)第一次发布,实现了四个异构模型的融合。
这四个模型在 18 个推理 Benchmark(包括解数学题、写代码、指令遵从、语义推理等)上平均得分 75-77 分。
我们上来就选择了一条相对更困难的路线。Sakana AI 也好,TML 也好,都选了同构的路线。同构的模型融合比较好做,但我们选择了异构的。
2 月份我们发布异构模型融合时,性能评测从 77 分提高到了 79 分。虽然只有 2 分的提升,但还是让我们看到了一些曙光。
我们目前结合 Graph-Based loss 以及强化学习的泛化性,最高得分已经逼近 88 分,我觉得这是质的突破。
智能涌现:创业后的技术研发节奏,和大厂相比有改变吗?
杨红霞:我有个信念,最优秀的团队是不需要天天拿着小鞭子在后面看着。
当你把一群特别优秀的人放在一起,他们之间的相互赶超加上超强的自驱力会自然的推着他们持续向前,完全不用担心研发节奏。
但创业后还是要给团队一些重大发布时间节点的规定的。实话讲,这个阶段大模型赛道上大家都在集中发力,所以时效性是一件特别重要的事。
智能涌现:你怎么规划发布的时效?
杨红霞:毕竟我们团队中有很多博士生,所以技术成果的发布,我们一般会关注最顶尖的几个人工智能会议。
同学们取得了有效的研究成果后再顺手把论文写一写,并发布到社区,大家都觉得挺好。
但现在人工智能的会太多了,有些最近质量下滑得也很厉害。所以目前我们只看三个会:
一个是 NeurIPS,每年大概 5 月投稿;第二个是 ICLR,每年 9 月投稿;第三个是 ICML,每年大概 1 月投稿。
当然不排除期间有重大发布。比如我们的医疗模型 InfiMed-RL 用 7B 的参数规模超过了 GPT-5,这个成果肯定是马上就要发的,不需要等。
智能涌现:对应用层的公司来说,我们常听到快比完美更重要。对你而言,快和完美怎么平衡?
杨红霞:我们在追求时间点的同时,对结果质量的要求是相当高的。
我一直和大家讲,所有发出去的成果代表我们的技术声誉。声誉和口碑是一步步积累的。同时但凡有一次发布结果不尽如人意,大家马上就会产生质疑。
所以哪怕不发,我也会要求成果的质量。
如果没有耐心,钱很快会烧完
智能涌现:从大厂的研究员到大学教授和创业者,你需要适应不同的身份吗?
杨红霞:其实不太需要,因为我自己比较纯粹,我一直把注意力分配在技术上,说白了在哪里无所谓。
但在创业过程中,我找到了一群特别牛的做技术的同学们。大家对去中心化的认可度非常高,就一起干。
智能涌现:2024 年 5 月左右你从字节离职后,其中一个动作是加入香港理工大学。这个决定是怎么做出的?
杨红霞:先说结论,大疆、商汤都是香港的大学孵化出来的,所以香港的大学有非常好的孵化基因。
我参加了一个名叫 RAISe+(产学研1+计划)的项目,就是香港区政府拿出 100 个亿(元),给 100 个大学教授孵化项目。
而且这部分资助并不占公司股份,只是为了更好的促进产学研之间的转化,相当于“白给”你了,当然你需要在 5 年左右的时间里 IPO。
还有一个项目是香港数码港超算中心的人工智能资助计划,一般通过评审,在算力上就有 70% 的减免折扣。我们是有史以来唯一获得 90% 减免折扣的团队。
港理工在这方面就更极致。我们学校在各个城市不是成立分校,而是成立了研究院,跟本地政府一起把教授的成果在本地进行转化。
加入港理工之前,我在学术界没有待过一天。一般拿到正教授的,肯定要在学术界待很长时间。但当时我都没有面试,就直接拿到了港理工的正教授教职。
当时校长和我说,你不用面试,我们看好你的技术和影响力。这点很打动我。
△ 香港理工大学。图源:视觉中国
智能涌现:受到数据、市场等资源的限制,还是很少有AI企业选择在香港。
杨红霞:大模型在内地发展得非常好,包括我自己原来在内地有很多资源链接。
但香港有自己比较独到的优势,比如在教育上。香港面积不大,但有 8 所大学,其中 5 所大学在全球的QS排名到了 100 以内。
全球任何一个城市都没有这么高的人才密度。我们博士生的资质是相当强的。
智能涌现:筹备去中心化模型训练的创业,需要哪一些资源?
杨红霞:一般生成式 AI 的初创公司,假如融到了 100 块钱,80 块钱要搞算力,20 块钱要搞人。大家可能都是“二八原则”。
我们对人的能力要求是非常高的,比如说能做 FP8 这件事的人不多,一般做算法的人还是在 PyTorch(Meta 开发的深度学习框架)层。
GPT-4 发布的时候,OpenAI 只有 200 多人。我当时把所有人的简历都看了一遍。
现在 OpenAI 大概有 3000 多人,随着团队规模扩大,内部管理面临着相应的挑战。从市场反馈和实际使用体验来看,GPT-5 的发布表现尚未达到部分用户的预期。
所以核心技术的突破,人数根本不是关键,人的质量才是关键。每一个进我们团队的人,我们有非常严格的把控。
所以我们现在也就接近 40 人。从技术研发的角度来讲,是一个很好的人员规模。大概有一半的人背景非常强,我觉得他们都可以拿到大厂的 special offer。
智能涌现:你对人才的要求是什么?
杨红霞:第一,代码能力一定要超级强,我们有非常严格的考核。很多时候候选人简历很漂亮,但代码层可能直接就被我们筛掉了。
第二,要有很强的好奇心。说白了相较于中心化的模型训练,去中心化是一个很新的技术,还有很多东西值得探索。比如低比特很多东西你没法照抄,你要自己做很多探索和研发。
第三点特别重要,一定要有非常好的合作态度。我觉得大模型时代一定是集团军作战,绝不可能说现在有三四十人,每个人分头去搞一点小事情,那我们永远不可能做特别大。
至于有没有特别好的大模型背景,其实都不要紧。
智能涌现:团队是怎么分工的?
杨红霞:我们有几个大的技术方向:基础模型、模型融合、应用。比如像基础模型部分,我们关注的是低比特,其中一拨人就关注大语言模型的预训练,一拨人关注在多模态模型的预训练。
但每个方向我没有划分算法、AI Infra(AI 基础架构)这些岗位,我对同学的要求是数据、算法、AI Infra 端到端都要做,他们要学会从不同角度来理解模型训练这件事。
智能涌现:你之前帮阿里和字节都搭建过模型团队。自己创业建立团队和在大厂大团队有什么不同吗?
杨红霞:好像没有什么不同。原来在大厂,我也经历过要做一个新方向,然后从 0 到 1 去搭建团队。招人的过程其实是一样的。
确实可能因为我们之前做的工作有比较好的影响力,所以招博士生也好、公司招人也好,找我们的人挺多的。
我觉得创业公司的一个好处是灵活,在大厂各个团队的分工会限制得相对死一点。我们公司只要你学有余力,工作有余力,任何一个模块你都可以去尝试和探索。
我们团队有原来在大厂的成员,但过去一年成长的速度远快于在大厂。因为在大厂,他可能只能天天做微调的数据构造,或者 benchmark 构造工作。
但在创业公司,端到端都可以做,任何人都可以做一些模型训练全链路中不同层面的事,原来这是想都不敢想的。
智能涌现:你怎么平衡学术研究和商业化落地?前者其实要求有耐心,但后者要求快。
杨红霞:从我们的角度来看,两者是没有区别的。把技术做到极致好,在商业化上才有极强的竞争力。
我们的商业化在慢慢跑起来,感兴趣的潜在客户非常多,我们其实完全不愁订单的。
智能涌现:InfiX.ai的商业模式是什么?
杨红霞:我们还不想谈过多商业化的事,希望能关注在技术本身。
我们的商业化其实有 3 个模式,但有点涉及到商业机密了。要相信我们规划得挺好!
智能涌现:作为一个创业团队,你怎么平衡比较纯粹地关注在技术上,和商业化的压力?你有受到过来自外界在商业化层面上的压力吗?
杨红霞:我觉得大家一定要有耐心。如果没有耐心,哪怕你很快起来、看上去很风光,其实钱很快就烧完了,也没有什么产出。
OpenAI 2015 年就成立了,但中间有大概七八年,直到 2022 年 10 月 GPT-4 的发布,大家才停止了质疑。之前 GPT-1、GPT-2、GPT-3 的发布,没有任何的商业化。
国内我也很尊敬 DeepSeek,即使梁文锋非常富有,他仍旧非常笃定,就要把技术做到极致。
所以我们希望先将所有精力都放在技术上。如果你的技术是断崖式的领先,就不用担心商业化。
欢迎交流!




