Sora是OpenAI推出的一款AI视频生成工具,于2024年12月10日正式上线。这一事件标志着OpenAI在视频生成领域的重要进展,也引发了广泛关注和讨论。Sora的上线是在经过长达十个月的等待之后实现的。自今年2月首次预告以来,Sora一直保持着神秘面纱,仅向少数艺术家、知名演员和导演提供试用服务。此次正式发布,立刻引发了全球网友的热烈反响,服务器一度被挤爆,导致新用户注册被迫间歇性暂停。
Sora是OpenAI推出的AI视频生成工具,能根据文本、图像和视频输入创造新视频,支持1080p分辨率和最长20秒的视频生成。基于DALL.E和GPT模型,Sora基于transformer架构,理解和模拟现实世界,提供创意表达平台。Sora包含剪辑工具,支持用户编辑视频,且具备社区功能,支持作品分享和再创作。Sora成为通往更广泛人工智能应用的重要一步,目前对ChatGPT Plus和Pro的付费用户开放。
Sora利用先进的文本解析技术,能够准确理解用户的文本指令,并根据这些指令生成具有丰富细节和情感的视频内容。这表明Sora通过学习和理解复杂的文本形式,实现了文本到视频的转换。
在训练阶段,Sora使用视频压缩网络将输入的视频或图片数据压缩到低维的潜在空间中。这一过程有助于模型更好地处理不同分辨率、持续时间和宽高比的视觉数据。
Sora将视频视为一个时空立方体,并将其分割成小的“空间时间补丁”,这些补丁包含图像颜色随时间变化的信息。这种分解方法有助于模型捕捉视频中的动态变化。
在生成阶段,Sora从静态噪声开始,逐步去除噪声,通过扩散模型逐步生成清晰的视频内容。这一过程类似于从模糊图像逐步消除噪音直至形成清晰视频的过程。
Sora能够根据用户的文本指令生成长达一分钟的高质量视频,并支持多种视觉数据类型和分辨率。此外,它还能从静态图像中生成视频或扩展现有视频。
Sora的新版本——Sora Turbo在功能上有了显著的提升,支持更快的视频生成速度,并且能够生成最高1080p分辨率、最长20秒的视频。此外,Sora还新增了Storyboard、Remix、Re-cut等功能,大幅提升了视频再创作能力,并优化了视频生成速度及生成方式。
类似于电影中的分镜,用户可以通过文字设计视频帧或上传图片作为静态视频帧,并在视频帧之间预留时间,Sora会自动将这些视频帧串联起来形成一段完整的视频。
通过不同的文字描述对视频中的元素进行替换、删除或重构,例如可以将图书馆变成宇宙飞船。
智能识别并剪切出视频中的最佳帧,并将其导入Storyboard中,拓展该视频帧。
将两个视频无缝合并为一个视频。其功能是把当前视频和其他视频的元素进行过渡融合,能巧妙地将不同视频中的特色元素整合在一起,打造出兼具各视频优点且过渡自然的全新视频内容,为视频创作增添了更多可能性。这个功能,这不是剪映中那种转场过度,而是无缝衔接循环。
视频目前支持五种风格,Balloon World(气球世界)、Stop Motion(定格动画)、Archival(档案材料)、Film Noir(黑白电影)、Cardboard & Paper(纸工艺品)…
今年以来,国内企业开始加速研发并迭代AI视频生成产品,产品能力不断提升,应用场景持续拓宽。Sora正式上线同时视频创作能力显著提升,开始从创作工具向生产力工具转变,随着以Sora为代表的AI视频生成工具持续迭代,未来其向多种应用场景的渗透有望加速。
新版本Sora Turbo显著提升了视频生成速度,同时扩展了视频生成方式,支持从文本、图片到视频的生成,同时支持生成最高1080p分辨率、最长20秒的视频,并兼容多种屏幕比例。
新界面设计更加友好,便于用户使用文本、图像和视频提示,提供了更加丰富的功能体验,如社区Explore功能,用户可以分享自己生成的AI视频,共同创造和分享。
Sora的推出也面临了一些技术挑战,如服务器过载和视频生成速度缓慢等问题。目前,Sora仅对ChatGPT Plus和Pro用户开放,提供不同的视频生成数量、分辨率和时长限制。尽管如此,Sora的上线被视为OpenAI在视频生成领域的一次突破,为视频内容创作者提供了新的创作工具。
例如,它可能无法准确地模拟咬饼干后饼干上没有咬痕的情况,或者混淆空间细节,如左右方向。
Sora的生成能力可能导致虚假信息的扩散,增加诈骗和误导性内容的风险。OpenAI正在通过增加服务器容量、优化算法和加强系统监控等措施来提高系统的稳定性和安全性。
Sora的上线不仅展示了OpenAI在AI视频生成领域的强大技术实力,也为未来的AI视频生成应用奠定了基础。随着技术的不断进步和应用场景的拓展,Sora有望在未来发挥更大的影响力。