从Sora惊恐到即梦反杀,中国的AI视频生成之路
2026年3月9日 20:34·36kr
马年春晚,《贺花神》美轮美奂的画面刷屏全网。紧随其后,支撑这场视觉奇观的Seedance 2.0模型开放API调用,价格一秒一块钱。
时间倒回两年前,AI视频生成还是一个被认为“中国完全做不出来”的赛道。OpenAI的Sora在2024年初横空出世,一支“女生走在东京街头”的60秒视频,画面逼真程度堪比实拍,而彼时的国产视频模型,大多只能生成5—12秒的画面,表情僵硬、手指穿模、物理穿帮都是常态,效果一眼假。
Sora如同一记耳光,把中国AI行业抽懵了。面对技术威慑,中国AI产业不能坐以待毙,开始像小说《三体》中人类面对智子的技术封锁一样,进入各显神通的“面壁计划”,最终完成了从Sora惊恐到即梦反杀的逆袭,把画面质量卷上天际,生成价格卷到地板。这段历史,值得在当下AI视频生成全面爆发的时间节点回顾一下。
Sora降临,中国AI的至暗时刻
2024年初Sora的出现,直接让中国AI行业陷入了至暗时刻。那段时间,我的朋友圈里满是对中国视频生成技术技不如人的吐槽。
大家的恨铁不成钢,既来自肉眼可见的技术鸿沟,也有脑补的灾难想象。
视频生成比文本生成要复杂得多,需要同时解决空间维度的物体形态一致性、时间维度的运动连贯性、物理规律的准确模拟,还有音画同步等一系列难题。与Sora一对比,国产模型输得毫无还手之力。
比落后更可怕的,是这一技术壁垒看似无法逾越。
彼时全球主流的视频生成模型,是MidJourney、Runway、DALL·E这些海外产品。国内既没有Sora的DiT架构那样的核心技术壁垒,也没有充足的英伟达顶级显卡。行业于是悲观地推演:中国与海外的技术代差根本无法追赶,中国做不出自己的视频大模型。
总结一下Sora对中国AI带来的冲击,是多方面的。此前,国内AI产业的发展多依托应用层创新,而视频生成属于硬核技术赛道,没有应用层的捷径可走,一下子让行业的短板被无限放大。
而且,算力卡脖子、高质量视频训练数据匮乏等先天条件的差距,也让行业产生了追赶无望的情绪。国内从业者陷入了一场关于“要不要追赶Sora”的路线之争,多数企业不愿意第一个吃螃蟹,更让逆袭显得遥遥无期。
幸好,人类面对外部威胁,从来不会坐以待毙。中国AI产学各界很快行动起来,化身破解Sora危机的面壁者。
威慑纪元,类Sora模型的三路大军
在Sora的技术威慑下,学术界、大厂、垂类企业,走出了三条不同的突围路径,逐步缩小与Sora的差距。
首先出发的是学术派。
一个极具反差的现象是:类ChatGPT的国产大语言模型破局,由百度、阿里等企业引领,而类Sora的国产视频生成模型突破,最先动起来的却是学术界。
Sora发布的次日,清华大学就火速申请了文生视频相关专利,率先完成技术卡位。此后,清华联合生数科技,研发出原创的Diffusion与Transformer融合架构,一举打造出中国首个长时长、高一致性、高动态性的视频大模型,成为国内视频生成技术的开山之作。
学术界面对Sora威胁的积极主动对标态度,并非偶然。
一方面,类Sora模型的核心在于架构创新,高校和科研机构没有企业的商业包袱,能够聚焦底层技术,进行原创性的探索。此外,视频生成模型的研发是算力吞金兽,单靠企业的投入难以支撑长期的试错,而学术界能依托政策倾斜、政府算力补贴和科研基金,进行高风险、高投入的硬核研发。2024年底,我造访长春人工智能算力中心,该中心总规模300P的智能算力,其中200多P都被北京某高校的Sora对标项目占用,来自全栈国产化的算力支持、长春市的算力补贴政策,让科研团队有了复现Sora的底气。
紧接着出击的,是大厂中的数据派,快手可灵、字节即梦相继上线。
2024年3月,即梦AI依托字节跳动自研Seedream和Seedance模型,开启内测。2024年6月,快手自主研发的视频生成大模型可灵上线,技术路线对标Sora,支持生成1080p分辨率、最长2分钟的视频。
很多人会疑惑,为什么是即梦和可灵?答案是它们背靠头部视频内容平台,手握数十亿级涵盖生活、电商、剧情等各类场景的短视频语料,为模型研发提供了高质量的数据基础。模型推出后,还能借助视频内容生态启动数据飞轮,快速迭代。比如可灵在快影App开放测试入口,吸引平台内数百万创作者参与使用,这些源于真实创作场景的用户生成内容,又反哺模型迭代。
数据派大厂,走出了一条高效的技术追赶之路,那其他企业呢?
并非所有企业都选择全面对标Sora,昆仑万维、阿里等企业走出了第三条路:聚焦垂类场景,打造差异化优势。
Sora的通用型视频生成能力固然强大,但在实际使用中,用户的需求更多是精准解决某一领域的问题。于是,这些企业放弃了对通用型模型的盲目追赶,转而针对具体的业务场景,解决用户的实际痛点。
比如昆仑万维的天工大模型,将目光锁定在AI短剧制作场景。短剧制作对角色表情、道具还原、剧情连贯性要求极高,而此前的通用模型往往存在表情僵硬、道具失真的问题。天工大模型针对性地攻克了这些痛点,在角色表情生成、道具一致性、视频生成时长和控制性上做出优化,更适配短剧、电商广告等创作者的需求。
阿里则将重心放在生态构建与技术开源上,背靠阿里研究院和阿里云的算力支持,打造出通义万相、Qwen-Image-2.0等视频生成模型,并选择将核心技术开源。开源不仅吸引了海量开发者参与模型的优化,更让阿里的AI视频能力快速嵌入到钉钉等SaaS工具、淘宝等电商服务中。
三支大军的并行探索,最终彻底扭转了外界对中国AI视频生成的悲观预期。然而,比技术更大的挑战,才刚刚到来。
商业迷雾中,算账与算力的拉扯
技术搞定了,还得算经济账。与Sora、runway这类海外视频模型不同,中国AI视频生成的商业化探索,从一开始就面临着更严峻的挑战。
一方面,类Sora模型没有成熟的商业模式可借鉴,海外市场仅能依靠售卖API、按token计费的单一方式变现;另一方面,国内用户的付费习惯尚未完全养成,企业用户和个人用户的付费意愿都低于海外。也就是说,前面打造出来的那些视频生成模型,每一分投入都是在超前烧钱。
在这样的背景下,倒逼中国企业探索AI视频生成技术的低成本落地办法。
算力,是AI视频生成的核心成本,也是此前中国企业的最大痛点。面临显卡供应限制,国内企业不得不另辟蹊径,从模型架构和硬件适配两个维度进行双重优化。
生数科技的Vidu模型打造了原创的U-ViT端到端高效生成架构,结合国产芯片的特性进行优化,用更少的算卡达到海外模型的同等效果。
商汤的Seko 2.0完成多款国产芯片适配后,单集短剧的算力成本直接减半。原本生成一条AI广告需要500元的算力消耗,适配国产芯片后,几十块钱就能搞定。
如果说算力优化是节流,商业模式的创新就是开源。
面对国内用户“免费一停,感情归零”的现状,中国企业在海外的订阅费、token包等模式之外,还探索出了诸如平台与商家按广告收益分成、与创作者按内容播放量分账、为企业提供定制化的视频生成服务等新的变现模式。
比如创作者用快手可灵生成电商广告短视频,挂载平台内商家的商品链接,平台会根据视频的播放量、商品点击转化率,与创作者进行广告收益分成;红果短剧与制作商合作,利用seedance模型来降低制作成本,再根据AI漫剧的播放量与制作商进行分账。
可以说,中国电商、短剧、直播等丰富的互联网场景,是AI视频生成技术走出商业迷雾的关键。通过把技术价值与商业收益相绑定,让国产AI视频生成模型摆脱了只烧钱、难盈利的困境,在算力消耗与商业回报的极限拉扯中,逐步探索着可持续的商业化路径。
破圈之后,全民狂欢的幸福与隐痛
2025年,是中国AI视频生成的破圈元年,广泛走进了大众生活。
曾经需要下载专门APP、访问网页、输入复杂指令prompt才能使用的AI视频工具,在抖音、剪映等国民级应用中,实现了“拍同款”式的傻瓜操作。春节期间,个性化的AI拜年视频,成了潮流人士新年祝福的新方式。马年春晚,则是AI视频破圈的最高潮,字节跳动的Seedance 2.0模型参与《贺花神》等舞台视觉,让亿万观众直观感受到了中国AI视频生成的效果。
但吸引全民玩起来的同时,一系列AI视频生成的暗面,也随之浮现。
普通用户最大的烦恼,就是排队。春节高峰期,生成一个10秒的AI视频,最长需要等待12小时。如今恢复到日常使用,生成一段短视频的排队时间也需要4小时以上。这糟糕的使用体验,让很多用户不得不为爱充值,成为模型的付费用户,但即使花了钱,排队问题也并没有得到彻底解决。
用户苦于排队的现象背后,是仍然未解的商业魔咒。
随着AI视频生成技术的破圈,大量新用户涌入,平台的资源消耗也指数级增加。而AI视频生成的算力成本,远高于普通互联网产品,所以无法像以前支撑免费社交、免费视频那样,长期承担免费用户的算力成本。而这些新进入的免费用户,到底是爽一把就走,还是能转化为长期付费用户,还是未知数。没有确定性的商业回报,AI视频平台也就没有动力划拨更多算力资源,而糟糕的排队等待体验,又会进一步劝退用户的付费意愿。
何时能打破这个C端的商业化僵局,犹未可知,B端的问题就迎面而来。
春节过后,一些回归横店的演员们发现,曾经忙碌的片场冷冷清清,未来两个月都没有新剧开拍。
一问才知道,在短剧领域,大制作公司纷纷成立AI组,将核心制作环节交给AI,小公司则直接全面转成AI制作,不再招聘真人演员。春晚上的技术欢呼声尚未散去,AI对影视行业的绞杀已经开始。
以前,短剧平台会为中小承制方提供剧本库、给予保底激励,但年后,这些平台开始AI化转型,不再提供新的剧本资源,并加大对AI短剧制作的投入。红果平台还推出了针对性的补偿与激励政策,对选择使用AI技术进行短剧制作的合作方,按AI剧本等级给予不同额度的保底补偿,其中S+档AI剧本保底可达8万元。
AI吞噬短剧,证明了国产视频生成模型的能力之强,不再需要低效抽卡,对于群演、基础剪辑、简单文案撰写等重复性工作,已经可以靠AI进入工业化流水线式生产,显著提效。但这些岗位往往也吸纳了大量的就业人口。一旦从业者不能与行业一起转型,就会产生对AI技术的不满与抵触。
全民当导演是技术破圈的起点,但商业化瓶颈仍然存在,社会层面的连锁反应才刚刚拉开序幕。这些都是中国AI视频生成领域将长期面临的课题。
尾声:没有终点的远征
回头看从Sora惊恐到即梦反杀的历程,中国AI产学各界的从业者,在技术封锁、算力卡脖子、商业模式空白的多重困境中,各显神通,打破小院高墙。
当然,这条路远没有走到终点。排队的问题需要解决,模型的BUG需要修复,AI与真人演员的共存需要探索,商业化模式需要完善……
但正如《三体》中所说:“给岁月以文明,而不是给文明以岁月。”科技的发展,本就是在解决问题中前进的过程。而中国科技最擅长的,就是在困境中突围,在解决问题中成长。
有理由相信,那些曾经困扰、如今仍在考验中国AI视频生成技术的难题,终将被逐一破解,正如我们经历过的每一次危机时刻那样。
本文来自微信公众号 “脑极体”(ID:unity007),作者:藏狐,36氪经授权发布。






