投资快报

计算机行业快报：OPENAI重磅发布SORA 视频生成领域的里程碑

2024-02-19投资快报

　　2 月16 日，OpenAI 重磅发布文生视频模型Sora，Sora 在视频时长与视觉效果等方面相较于Pika、Runway 等主流文生视频工具有了极大幅度的提升。具体来看，Sora 生成的视频具有超长时长、世界模型、多镜头切换的三大特性：
　　1）超长时长：Sora 可生成长达一分钟的高清视频，而此前Pika、Runway 等模型生成的视频时长仅在20s 以内，在视频时长大幅提升的同时，视频具有连贯性，即使人物和其他场景元素被暂时遮挡或离开视野，仍能保持一致性；2）世界模型：Sora 不仅能够深入理解用户提示，还学会了物理世界的部分规律，比如一个人吃汉堡后会留下咬痕、火车车窗上会产生逼真的倒影，而Runway等模型的拟真程度则相对较弱；
　　3）多镜头切换：Sora 可在单个视频中设计出多个镜头，并且能在多角度的镜头切换中，实现角色和视觉风格的一致性，而Runway 等绝大部分模型只能生成单镜头视频。
　　相较于此前的视频生成模型，Sora 在底层模型和算法上的创新点主要体现在以下三个方面：
　　1）采用Transformer 架构的扩散模型：不同于Runway Gen1、Stable VideoDiffusion 等扩散模型主要采用经典的U-Net 架构，Sora 用Transformer 架构替换U-Net 架构，大幅提升模型扩展性；
　　2）训练视频数据保持原始大小：不同于其他视频生成模型通常预先将视频调整、裁剪或修剪为标准大小，例如裁剪为分辨率为256×256 的4s 视频，Sora 在原始大小的数据上进行训练，一方面数据采样更灵活，可以对宽屏1920×1080p视频、垂直1080×1920 视频以及介于两者之间的所有视频进行采样，这使Sora可以直接以原始宽高比为不同设备创建内容，另一方面可以改善构图和取景，在经过方形裁剪后的视频上训练的模型有时主体仅部分可见，而Sora 生成的视频取景得到了明显改善；
　　3）为训练视频生成详细的文字描述：其他文生视频模型通常在大型文本-视频对数据集上进行训练，而Sora 采用了DALL·E 3 和GPT 的研究成果，通过为视频训练数据生成或补充详细的字幕描述，提升训练效果，使模型预测更准确。
　　目前Sora 仍存在一定局限性，包括无法模拟复杂场景的物理特性、难以理解特定场景下的因果关系、误解用户提示中的空间细节信息，有待于后续的进一步完善和提升。目前Sora 模型已向部分专家开放，以评估潜在的风险，同时也正在向部分设计师、电影制作人、视觉艺术家等授予访问权限，以获得使用反馈。
　　投资建议：Sora 的发布意味着继文字生成和图像生成后，视频生成技术取得了　　突破性的进展，而今年也将成为视频生成的元年，在投资机会上，一方面，应用层我们建议重点关注创意、设计、教育等多模态特别是视频生成强相关及率先落地的领域，相关标的包括万兴科技、美图公司、科大讯飞、海康威视、金山办公、虹软科技、焦点科技等；另一方面，视频生成模型对算力需求较文本显著提升，体现在视频训练素材增加了时间维度，大幅提升了训练数据量，并且涉及到高维数据压缩与解压缩等过程，复杂度通常更高，因此，重点关注国产AI 算力相关标的，包括寒武纪、海光信息、龙芯中科、云天励飞、景嘉微、云赛智联、浪潮信息、紫光股份、中科曙光、优刻得、青云科技等。
　　风险提示：AI 技术发展不及预期；行业竞争加剧；下游需求不及预期。

很赞哦！ ()

上一篇
AI关键词“OpenAI入局算力、Sora与RTX-AI”

春节期间，全球AI热点涌现，利好频出。OpenAI带头执行AI芯片投资计划并发布文生视频新品Sora，英伟达正式发布此前已经有所展示的AI本地部署RAG工具Chat with RTX，谷歌更新Gemini至

元宇宙

元宇宙网

投资快报

计算机行业快报：OPENAI重磅发布SORA 视频生成领域的里程碑

AI关键词“OpenAI入局算力、Sora与RTX-AI”

相关文章

文章评论