OpenAI 的文本到视频人工智能 Sora 是未来主义的现实

Sora 是 OpenAI 在过去一年中一直致力于开发的文本转视频模型,它可以根据文本提示生成长达一分钟的高清 1080p 视频。

它是更广泛的生成人工智能领域日益拥挤的子集中最新的文本到视频模型,加入了Runway 的 Gen 2Pika Labs 的 PikaMeta 的 Emu。OpenAI 表示,“Sora 能够一次生成整个视频,或者扩展生成的视频以使其更长。” 该模型还可以利用静态图像生成视频。 


Sora 最有趣的方面之一是它使用补丁,即类似于 ChatGPT 模型基础的“令牌”的小型数据集合。“在较高的层面上,我们首先将视频压缩到低维潜在空间,然后将表示分解为时空补丁,从而将视频转换为补丁。” 时空补丁是视频序列中的空间(视觉)和时间(时间)信息。 


补丁允许 Sora 将视频或图像分解为更小的块,以便单独分析和处理。这降低了分析特定视频或图像中的视觉信息的复杂性。视频和图像等视觉数据被称为“高维”数据。例如,1000×1000像素的图像有100万个维度。处理如此多的维度在计算上是昂贵的。通过将视频或图像减少为更小的块(或者更确切地说,减少为这个较低维的潜在空间),您可以通过允许模型专注于不同块之间的差异来提高模型的性能。

OpenAI 将 Sora 描述为一种扩散变换器模型,它通过多个步骤逐渐变换压缩的静态噪声块来制作视频。 

推荐推门
搜索
标签
«    2024年5月    »
12345
6789101112
13141516171819
20212223242526
2728293031
网站分类
文章归档
 
Copyright © 2021张少学习分享网 All Rights Reserved 黔ICP备2021004591号