

跟着小米新模子的推出,“天才青娥”罗福莉再度成为焦点。其实在AI科学家圈子里,女性数目天然相对较少,但也绝非罗福莉一颗独苗。在字节逾越,就有一位罗福莉式的东谈主物。
她便是Seedance 2.0视频生成模子的预历练负责东谈主,曾妍。
一般聊起Seedance 2.0,环球浩繁意象的东谈主是掌舵东谈主吴永辉、研发负责东谈主周畅、视频生成期间中枢负责东谈主蒋璐。
很少有东谈主知谈,曾妍的存在,相似无可或缺。
因为预历练是整个模子的“基石”,它决定了模子的才智上限。
大多数东谈主把预历练当成“喂数据”,但确实的高东谈主知谈,预历练是在“塑造模子的寰宇不雅”。
数据怎样配比、架构怎样想象、历练策略怎样休养,每一个决议都在决定模子能看到什么、走漏什么、生成什么。
不管你背面怎样奋勉优化,预历练只好没作念好,这个模子就一辈子够不上Seedance 2.0现如今的高度。
不仅是孝顺大,曾妍的晋升速率在字节亦然相配快的。
从她毕业干预字节开动算起,到目下的4-2职级,曾妍只是花了5年时辰。
4-2职级对应高档总监/巨擘架构师层级,属于公司中枢策略级期间主干,年包(含基本工资、年终奖、股票)浩繁在500万以上。
她到底作念了什么,才有如斯成立?让咱们从她的肄业之路提及。
01
从西交到字节
说真话,当我第一次看到曾妍的阅历时,并莫得合计至极惊艳。
1997年诞生,西安交通大学本科,加拿大蒙特利尔大学狡计机硕士。这条旅途放到目下的AI圈里太常见了。
但接下来发生的事,就不那么“行动”了。
2021年9月,曾妍以校招生身份加入字节逾越 AI Lab,滥觞职级是算法工程师。
入职仅两个月,曾妍就以第一作家身份在arXiv上发表了论文《Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts》,也便是自后环球熟知的X-VLM模子。

这篇论文贬责的问题,用大口语说便是:怎样让 AI 既能看懂“大时事”,又能戒备到“小细节”。
传统的视觉语言模子有两个极点。一种是“粗线条”派,只看图像举座和文本的对应关系,就像你给AI看一张相片,它只可说“这是海滩”,但说不出更多了。
另一种是“显微镜”派,依赖昂然的研究检测器去抠每个物体,天然能看到细节,但狡计本钱高得吓东谈主,还得依赖大量东谈主工标注数据。
曾妍建议的X-VLM,便是取两者之长处。
它能同期学习从举座到局部、从场景到物体、从粗到细的多端倪视觉想法,并与文本中的不同粒度信息精确对皆。
能够我用一个我最近刚学会的话来描述:既见丛林,又见树木。
这个“多粒度对皆”的念念想,在那时看起来只是个学术改变,但它为曾妍自后担任Seedance 2.0预历练负责东谈主埋下了伏笔。
因为视频生成的预历练,骨子上亦然个多粒度建模的问题。
你要想生成一个面子的视频,那就既要把执举座叙事节拍,让一段视频有连贯的故事线;又要铁心每一帧的细节质地,确保东谈主物样貌不变形、物体领路适应物理规则;还要建速即序维度上的关联关系,让前后帧之间的过渡天然畅通。
这刚和X-VLM的底层逻辑是一致的。
接下来的两年,曾妍就像开了挂一样。
她以第一作家身份在TPAMI、ICML、CVPR、ACL、NAACL等外洋顶会发表了八篇论文,还担任了TPAMI、ICML、NeurIPS、ICLR、ACL、EMNLP等顶会的审稿东谈主。
2023年,一个要害调动点到来了。
字节逾越确立大模子盘考部门Seed,曾妍和地点团队一同转入。
这个时辰节点你得放在大配景下看,2022年底ChatGPT横空出世,2023岁首各大公司纷纷All in大模子,字节也在这波波浪中休养了期间策略。
曾妍擅长的多模态预历练,在视频生成这个新战场上,能阐述她的全部实力。
在Seed部门,曾妍行为第一作家主导了两个首要名堂,分裂是CCLM和Lynx。
先说CCLM(Cross-View Language Modeling)。
这个名堂让AI模子同期学会“跨语言”和“跨模态”的走漏才智。CCLM通过斡旋的预历练框架,让在英文图像-文本数据上历练的模子,不错零样本移动到汉文、日文等其他语言的多模态任务上。
说白了,便是让 AI 学会“举一反三”——在英文视频上学到的走漏才智,能径直用到汉文、日文、西班牙文的视频上。
再说Lynx。
这是一个系统性盘考如何历练GPT-4作风多模态大语言模子的名堂。2023年恰是GPT-4刚发布的时候,环球都在摸索怎样作念出“能看图谈话”的大模子。
曾妍团队通过一系列对比实验,找出了模子架构想象、历练数据配比、辅导微调策略等要害身分,最终作念出了 Lynx 模子,在多模态走漏和辅导侍从才智上都阐发出色。
用东谈主话说,便是盘考“怎样造出一个既能看懂图片又能畅通对话的AI”,况兼搞明晰了哪些身分确实首要。
确实让曾妍“出圈”的,是2023年年底的PixelDance。
这个名堂的论文题目很挑升旨意思,叫《如何让像素舞蹈》(Make Pixels Dance: High-Dynamic Video Generation)。它贬责的是视频生成领域一个始终存在的矛盾,如何均衡动态性和踏实性。
你想想,若是一个AI生成的视频动作幅度很大、画面变化剧烈,看起来如实纯真意思,但很容易出现画面崩坏、变装变形、物体顷刻间消灭这些“灵怪事件”。
反过来,若是你追求踏实性,让变装和场景保持一致,东谈主物样貌不突变,那生成的视频就容易僵硬,像幻灯片切换而不是畅通的动态影像。
曾妍团队的冲突在于,他们在预历练阶段就建立了严格的时序不停。
传统的视频生成模子都是先生成视频,然后再一帧一帧去修补。PixelDance则是让模子学会了在保持一致性的前提下生成动态内容。
中枢改变点是在扩散模子框架中,ued官方网站引入首帧+末帧的双图像辅导,互助文本辅导承接不停视频生成,同期在汇注会构中新增时序卷积与时序戒备力层,从生成的泉源就锚定了视频的起止状况,从而保证大动态动作下的主体与场景一致性。
就像历练一个舞者,从一开动就教她在保持均衡的前提下作念大幅度动作。
PixelDance的生效,让曾妍在字节里面的地位赶快提高。
2024年,她从算法工程师晋升为算法盘考员,成为Seed团队中最年青的盘考员之一。这个晋升不单是对她学术才智的认同,更首要的是,她证明了我方能把盘考效劳升沉为执行产物。
在大厂里,这两种才智的别离,就像会作念菜会通开餐厅的别离。
02
从 PixelDance 到 Seedance 2.0
挑升旨意思的是,PixelDance便是Seedance的前身。
Seed代表字节的大模子部门,dance则保留了“让像素起舞”的核激情念。这个更名不单是品牌策略,更象征着模子从盘考原型向生意产物的转变。
2025年6月11日,字节崇拜发布了Seedance 1.0,曾妍是该模子的中枢研发负责东谈主。
天然直至2026年2月,曾妍才被字节官方阐明为Seedance 2.0 视频模子预历练负责东谈主,但知情东谈主士爆料,早2025年下半年时,曾妍就仍是崇拜牵头Seedance 2.0的预历练全经过职责,成为该名堂的中枢一号位。
她的+2 leader是周畅,+3 leader是Seed团队负责东谈主吴永辉。
Seedance 2.0中枢期间冲突之一是双分支扩散变换器架构,这是曾妍团队在预历练阶段就确立的基础架构。
传统视频生成模子禁受“先画后配”的方式。即先生成视频画面,再单独生成或匹配音频。
这种式样的问题在于,音画分离导致同步性差,东谈主物谈话时嘴型对不上,配景音乐的节拍与画面情怀脱节,音效出现的时机与画面动作不匹配。
Seedance 2.0通过视频与音频并行生成的式样,分享褪色个走漏编码器,从根源上竣事了音画原生协同。
这个架构想象的要害在于,让模子在生成每一帧画面的同期,就研讨对应的音频应该是什么样的,而不是等画面全部生成完再去“配”音频。
著作开始我就讲了,预历练是整个模子才智的基石。
曾妍在这个阶段需要处理海量的视频数据,建立视觉、文本、音频等多模态之间的对皆关系。
她通过引入“跨分支校准模块”,及时校准视频与音频的节拍、情怀与场景匹配度,确保嘴型与台词同步、音效与画面契合、配景音乐与情怀氛围一致。
预历练阶段把悉数的多模态对皆关系、物理规则、领路方式都塞进模子里,成为“默许项”。后续模子只好调用到相关内容,就会坐窝给出预历练时的末端。

它不是绵薄地让模子记取历练数据,而是让模子从海量数据中索取出浩繁规则,变成对寰宇的基础走漏。
Seedance 2.0生成时长1分钟的2K视频仅需60秒,比上一代Seedance 1.5 Pro快了30%。
速率提高的背后,是曾妍团队在预历练阶段对模子架构、历练策略、数据配比的细巧调优。
她的团队迭代速率极快,在预历练阶段就完成了扩散模子的多轮优化。
优化戒备力机制减少冗余狡计,改良噪声调动策略加速管理速率,精选高质地历练数据提高样本效劳。
每一个优化点单独看都不起眼,但累积起来便是质的飞跃。模子规模越大,历练本钱越高,每一个百分点的效劳提高都意味着数百万元的本钱纯粹和数周的时辰镌汰。
Seedance 2.0还竣事了多镜头叙事才智。这意味着模子不仅能生成长视频,还能走漏“全景-中景-特写”的专科分镜逻辑,自动计算镜头切换,生成带有蒙太奇效果的完竣叙事序列。
这个才智很猛进度上依赖于曾妍在预历练阶段投喂的字节逾越海量短视频数据。
抖音每天产生数以亿计的短视频,这些视频天然大多是泛泛用户拍摄,但其中不乏优秀的镜头语言和叙事手段。
曾妍团队从这些数据中筛选出高质地样本,让模子学习到了东谈主类导演的镜头语言和叙事节拍。这种从数据中索取出的“导演直观”。
03
曾妍与罗福莉
同为女性AI科学家,曾妍和罗福莉在模子研发中,都擅长寻找“均衡点”。
在DeepSeek时期,罗福莉参与的DeepSeek-V2,通过MoE架构的稀少激活,把推理本钱降到了GPT-4 Turbo的七十分之一,但是性能却与顶尖的闭源模子十分临近。
这就像想象一个大型藏书楼,天然藏书百万册,但每次查询只需要打开其中几本,而不是把悉数书都搬出来。这种“按需激活”的机制,让大模子的本钱突然下落,却不怎样耗损性能。
罗福莉在性能与本钱之间,找到了这么一个均衡点。

到了堪称“性价比之王”的小米,罗福莉把DeepSeek的精神贯彻到底。她主导团队与北京大学承接研发资源管理系统ARL-Tangram,让模子的算力本钱直降71.2%。
但是本钱下落并不虞味着性能下落。使用了该期间的万亿参数的旗舰模子MiMo-V2-Pro,在Artificial Analysis全球大模子空洞智能排名榜上位列第八、国内第二。
罗福莉证明了一件事:性价比不是某个名堂的只怕,而是一种不错跨平台复制的法子论。
曾妍的均衡点则是前文提到的动态性和踏实性,让视频生成模子又能讲好故事,又有画面张力和视觉冲击力。
两东谈主不同的是行状计算。
罗福莉从阿里跳到幻方,再到DeepSeek,这条旅途是“从大厂到创业公司,从工程利用到模子盘考”。
曾妍则是在字节里面通盘深耕,5年时辰完成了从校招毕业生,坐到了4-2的位置。
两条旅途莫得落魄之分。
在AI大模子这个烧钱、拼资源、看始终集会的领域,年青的期间东谈主才依然不错通过对问题的深化走漏,在短时辰内作念出要害孝顺。
有可能他们盘考的方针,你听都没听过,但便是有用。
她们的故事才刚刚开动ued中国体育。
NBA篮球投注app官网下载