《2024计算机行业:Sora技术深度解析.docx》由会员分享,可在线阅读,更多相关《2024计算机行业:Sora技术深度解析.docx(30页珍藏版)》请在第壹文秘上搜索。
1、华福证券HUAFU SECURITIES CO,TD证券研究报告I行业专题报告计算机行业行业评级强于大市(维持评级)2024年2月25日Sora技术深度解析证券分析师:施晓俊执业证书编号:S0210522050003研究助理:请务必阅读报告末页的重要声明李杨玲王思0华福证券ML A KtX L Klt CX . MU投资要点Sora横空出世引领多模态产业革命。美国时间2月15日,文生酶大模型Sora横空出世,能够根据文本指令或静态图像生成1分钟的视频。其中,视频生成包含精细复杂的场景、生动的角色表情以及复杂的镜头运动,同时也接受现有视频扩展或填补缺失的帧。总体而言,不管是在视频的保真度、长度、
2、稳定性、一致性、分辨率、文字理解等方面,Sora都做到了业内领先水平,引领多模态产业革命。此外,当Sora训练的数据量足够大时,它也展现出了一种类似于涌现的能力,从而使得视频生成模型具备了类似于物理世界通用模拟器的潜力。拆解视频生成过程,技术博采众长或奠定了Sora文生视频领军地位。从技术报告中,Sora衩濒生成过程大致由视频编码+加噪降噪+视频解码三个步骤组成,视濒压缩网络、时空PatChes、transfOrmer架构、视频数据集等技术与资源在其中发挥了重要作用。视频压缩网络:过往VAE应用于视频领域通常需插入时间层,Sora从头训练了能直接压缩视频的自编码器,可同时实现时间和空间的压缩,
3、既节省算力资源,又最大程度上保留视频原始信息,或为Sora生成长视频的关键因素,并为后续处理奠定基础。时空patches:1)同时考虑视频中时间和空间关系,能够捕捉到视频中细微的动作和变化,在保证视频内容连贯性和长度的同时,创造出丰富多样的视觉效果;2)突破视频分辨率、长宽比等限制的同时显著提升模型性能,节约训练与推理算力成本。Transformer架构:1)相比于U-Net架构,transformer突显ScalingLaw下的暴力美学,即参数规模越大、训练时长越长、训练数据集越大,生成视频的效果更好;2)此外,在transfOrmer大规模训练下,逐步显现出规模效应,迸发了模型的涌现能力。
4、视频数据集:Sora或采用了更丰富的恻顷数据集,在原生视濒的基础上,将DALL-E3的re-captioning技术应用于视频领域,同时利用GPT保障文字-视频数据集质量,使得模型具有强大的语言理解能力。投资建议:我们认为,在视频压缩网络与时空PatCheS提高计算效率与利用原生视频信息的基础上,transformer或取代U-Net成为扩散模型主流架构。可拓展性更强的anSformer需要更为有力的算力支持才能保障视频生成质量,同时相比于大语言模型,视觉数据的训练与推理算力需求更大,因而算力有望成为确定性最高的受益赛道。此外,Sora发布有望形成多模态产业站鱼效应“,激励其他多模态厂商的良性
5、发展。建议关注:1)Al算力:云赛智联、思特奇、恒为科技、海光信息、寒武纪、景嘉微、中科曙光、浪潮信息、拓维信息、四川长虹、工业富联、神州数码等;2)AI+多模态:万兴科技、虹软科技、当虹科技、中科创达、大华股份、海康威视、漫步者、萤石网络、汉仪股份、美图公司、云从科技。风险提示:技术发展不及预期、产品落地不及预期、AI伦理风险等。华福证券HL AhL MX l lU g Co. Ll U 1.Sora引领多模态革命,技术与资源突显优势 2.博采众长,Sora技术开拓创新 3.投资建议 4.风险提示1.1 Sora横空出世,引领多模态产业革命美国时间2月15日,文生视频大模型Sora横空出世,
6、能够根据文本指令或静态图像图表:Sora和其他模型优势对比总览生成1分钟的视频。其中,视频生成包含精细复杂的场景、生动的角色表情以及复杂的镜头运动,同时也接受现有视频扩展或填补缺失的帧。总体而言,不管是在视频的保真度、长度、稳定性、一致性、分辨率、文字理解等OpenAlSora能力项其他模型60秒4则时长最多十几秒1920x1080与1080x1920I-Ia匕A固定尺寸方面,Sora都做到了业内领先水平,引领多模态产业革命。此外,当Sora训练的之间任意尺寸如16:9,9:16,1:1等数据量足够大时,它也展现出了一种类似于涌现的能力,从而使得视频生成模型具备了类似于物理世界通用模拟器的潜力
7、。1080P视频清晰度UPSCQle之后达到4K支持文本生成视频支持图表Sora与业内主流视频生成模型对比支持图片生成视频)支持公司名称生成功能最长时长时长可延展相机控制(平移/变焦)动作控制支持支精文生视频-Runway图生视频4S支持文本编辑视频支持D;,文生视频2/向前/向后扩展扩展视频仅支持向后扩展,IKa图生物濒八VVJGenmo文生视频6S支持视频连接,不支持IJenmO图生视频bjV文生物濒支持真实世界模拟I支持Kaiber图生视频16SXX视频生视频强运动相机模拟I弱Stability图生视频4SX文生视频强Q依赖关系进行建模弱Sora图生初濒60S强影响世界状态(世界交互)弱
8、资料来源:datalearner,新浪新闻图数室,华福证券研究所4资料来源:datalearner,新浪新闻图数室,华福证券研究所0华福证券ML AU SU-L华福证券ML A KtX LKinfcS (X . Llll 1.Sora引领多模态革命,技术与资源突显优势 2.博采众长,SOra技术开拓创新 3.投资建议 4.风险提示2.1视频压缩网络实现降维,或为长视频生成基础华福证券HLUMJCUKlnUC.LIDOPenAl训练了降低视觉数据维度的网络,该网络接受原始视频作为输入,并输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并随后生成视频。与之对应,Sor
9、a训练了相应的解码器模型,将生成的潜在表示映射回像素空间。压缩网络本质上是将高维数据映射至低维空间,低维空间中每个点通常对应原始高维数据的潜在表示,在复杂性降低和细节保留之间达到最优平衡点,实现提升视觉保真度的同时降低算力资源消耗的作用。VAE为图片生成领域的常见图片编码器,应用到视频领域则需要加入时间维度以形成视频框架。例如,2023年发布的VideoLDM通过将视频拆解为每一帧,之后插入时间对齐层,从而实现了视频生成。Sora从头训练了能直接压缩视频的自编码器,既能实现空间压缩图像,又能在时间上压缩视频。我们认为,在时空维度上压缩视频,既节省了算力资源,又最大程度上保留视频原始信息,或为S
10、ora生成60s长视频的关犍因素,并为后续时空patches和transfomer架构处理奠定基础。图表:VideoLDM在图片编码器基础上加入时间维度图表:VAE技术原理图,由编码器和解码器组成资料来源:Medium, Towards Data Science,华福证券研究所资料来源:Blattmanneta/AlignyourLatents:High-ResolutionVideoSynthesis7withLatentDiffusionModels),华福研究所2.2时空patches统一视频分割,奠定处理和理解复杂视觉内容的基石 Sora借鉴LLM中将文本信息转化为token的思路,针
11、对视频训练视觉patch,实现视觉数据模型的统一表达,实现对多样化视频和图像内容的有效处理和生成,之后通过视频压缩网络分解为时空patches,允许模型在时间和空间范围内进行信息交换和操作。 从Sora技术报告来看,时空patches或借鉴谷歌ViViT操作。/ViViT借鉴ViT在图片分割上的思路,把输入的视频划分成若干个tuplet,每个tuplet会变成一个token,经过spatialtemperalattention进行空间和时间建模获得有效的视频表征token. 传统方法可能将视频简单分解为一系列连续的帧,因而忽略了视频中的空间信息,也就是在每一帧中物体的位置和运动。我们认为,由于
12、连续帧存在时空连续性,Sora的时空patches可同时考虑视频中时间和空间关系,能够更加精准生成视频,捕捉到视频中细微的动作和变化,在保证视频内容连贯性和长度的同时,创造出丰富多样的视觉效果,灵活满足用户的各种需求。资料来源:Google Research (ViViT:A Video Vision Transformer),华福证券研究所8HL AuJ MX L KI11kC . LI D2.2Sora时空patches突破视频长宽比、分辨率等限制OpenAI表示,过去的图像和初濒生成方法通常会将初濒调整大小、裁剪或修剪为标准尺寸,而这损耗了被顷生成的质量。例如,ViT通常需要将图像调整为
13、固定的分辨率与尺寸进行处理,并仅能分解为固定数量的PatCheS,因而限制了灵活处理不同尺寸、分辨率视频的建模.Sora或借鉴谷歌NaViT中“Patchn,Pack”的方法,在训练效率、模型适应性和推理灵活性等方面具有显著优势。1)允许从不同图像中提取多个patch打包在一个序列中,从而实现可变分辨率并保持宽高比。2)NaViT相比ViT具有较高计算性能。例如,使用四倍少的计算量,NaViT到达顶级ViT的性能.此外,NaViT可以在训练和微调过程中处理多种分辨率的图像,从而在各种分辨率下都能表现出优秀的性能,在推理成本方面给NaViT带来了显著的优势。我们认为,经过patch化之后,Sora无需对数据进行裁剪,就能够对不同分辨率、持续时间和长宽比的视频和图像的原始数据进行训练,既极大程度上利用原始信息保障生成高质量图片或视频,又显著提升模型性能,节约训练与推理算力成本。图表:ViT需调整图像为标准尺寸并分解为固定数量patches资料来源:GoogleResearchl Brain Team (AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE),华福证券研究所图