短视频制作demo 效果追上Sora，字节跳动一口气发布两款视频生成模型

用户投稿 2025年09月28日 17:30:07 82 0

效果追上Sora，字节跳动一口气发布两款视频生成模型

界面新闻记者 | 肖芳

界面新闻编辑 | 文姝琪

9月24日，字节跳动一口气发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed两款大模型，面向企业市场开启邀测。

目前，新款豆包视频生成模型正在即梦AI内测版小范围测试，未来将逐步开放给所有用户。但从发布会现场展示的视频生成效果来看，无论是语义理解能力，多个主体运动的复杂交互画面，还是多镜头切换的内容一致性，豆包视频生成大模型都表现出不错的效果。

比如，其中一个视频输入是，“特写⼀个⼥⼈的面部，有些⽣⽓，戴上了⼀副墨镜，这时⼀个男⼈从画⾯右侧⾛进来抱住了她。”视频画面显示，其不仅遵循了这个复杂指令，还能够按指令的时序去完成连续的动作，两个主体之间也能比较顺畅的进行交互，而且人物表情也比较准确传达了指令所描述的情绪。

而一位提前拿到内测资格的创作者体验生成的视频也显示，其生成的视频不仅能够遵循复杂指令，让不同人物完成多个动作指令的互动，人物样貌、服装细节甚至头饰在不同运镜下也保持一致，接近实拍效果。

一位多模态大模型科学家看完上述创作者使用豆包视频生成的视频后告诉界面新闻，如果demo效果保真的话，豆包视频生成大模型确实是相当不错了。从学术角度或者模型能力角度来说，其肯定达到了Sora的水平，尤其在在人物动作上非常棒。

字节跳动旗下火山引擎总裁谭待在发布会接受界面新闻等媒体采访时透露，豆包系列大模型并不是按照某个固定的时间计划发布的，有好东西就尽快推出。“我们的逻辑是推出的产品要质量可靠，有充分用户反馈，不能是半成品。就像视频和语言模型发布一样，不一定要抢第一，要推出成熟的产品。”

但在一位行业观察人士看来，这个节点一口气发布两款视频生成模型，对字节跳动更大的意义在于“拥有”。Sora发布之后，国内从业者都期待字节跳动能够第一个做出来中国版Sora，最后却是快手第一个做出来了“可灵”，而且效果还不错，字节跳动必然承受了一些压力。

并未过多公布模型技术细节

据界面新闻了解，豆包视频模型支持黑白、3D动画、2D动画、国画、水彩、水粉等多种⻛格，同时支持1:1、4:3、16:9等多个比例，能够适配电影、电视、电脑、手机等多场景。

相较于可灵等国内其他视频生成模型，豆包视频模型技术细节上略显神秘，并未对外公布太多信息。

此前，快手方面对外公布的信息显示，可灵背后的技术原理和Sora类似，都是把常用于视频生成人工智能的扩散模型与Transformer架构相结合，这有助于其理解更大的视频数据文件并更有效地生成结果。和Sora相比，可灵的一个关键优势是依托于快手短视频平台，数亿用户上传了大量可用于训练可灵的视频数据。

据谭待介绍，豆包视频模型经过剪映、即梦AI等业务场景的持续打磨和迭代，深度优化的Transformer结构，则大幅提升了豆包视频生成的泛化能力。同时，豆包视频生成模型基于DiT架构，让视频在大动态与运镜中自由切换，拥有变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力。

他强调，在镜头切换时可同时保持主体、风格、氛围的一致性是豆包视频生成模型的技术创新所在。

界面新闻从多位大模型从业者处了解到，人物动作是当下视频生成模型共同面临的挑战，Sora做得也不够好。目前，Sora看起来主要还是以运镜和基础动作为主，复杂动作比较差，豆包视频模型生成的demo已经有了明显提升。

但这仅限于豆包视频模型生成demo展现出的水准，几位从业者均表示，实际的水准比较难判断。

谭待在采访中明确表示，这两款视频生成模型并不是期货，字节跳动已经在内测API和应用，预计国庆节后会公开更多API。

已规划视频生成模型商用方向

界面新闻在发布会现场发现，此次前来参加发布会的人多到严控进场的程度，绝大多数参会者都是火山引擎的合作伙伴和对大模型有潜在需求的企业客户。

谭待在发布会现场也向这些合作伙伴和潜在客户介绍了豆包视频生成模型的商用方向，包括电商营销、动画教育、城市文旅、微剧本等企业场景，同时也能为专业创作者和艺术家们提供创作辅助。

这和此前可灵探索的商用方向基本一致，但字节跳动更务实一些。可灵推出后，快手高调推出了由可灵深度参与制作的奇幻微短剧《山海奇镜之劈波斩浪》，并于近日联合李少红、贾樟柯等9位知名导演启动了完全依托视频生成大模型制作电影短片“可灵AI”导演共创计划，试图以此来证明视频生成大模型在影视制作领域的可用性。

从《山海奇镜之劈波斩浪》的探索来看，可灵真正深入参与影视剧制作仍然有较大难度。和外界想象差异较大的是，这部微短剧虽然画面均由AI生成，但整部影片并不是又AI一气呵成，而是使用可灵大模型的文生图和图生视频功能生成了很多时长5秒的分镜头，再由后期剪辑团队人工剪辑而成。从成本降幅来看，其带来的价值也不如外界预期的那么大，整体的降幅不超过四分之一。

豆包视频生成模型的侧重点在于电商营销等对视频内容质量要求相对较低的场景中。在上述多模态大模型科学家看来，从目前各个视频生成模型的能力来看，它们距离商用影视创作有多远还有点难说，但应用在电商营销等场景中已经完全够用。

字节跳动并未在发布会上公布豆包视频生成模型在商用场景的定价。谭待表示，视频模型和语言模型应用场景不同，定价逻辑也不同。要考虑新、老体验和迁移成本，而最终能否广泛应用取决于是否比以前生产力ROI提升很多。

但他强调大模型价格已不再是阻碍创新的门槛。今年5月，豆包大模型公布低于行业99%的定价，引领国内大模型开启降价潮。火山引擎披露的数据显示，截至9月，豆包语言模型的日均tokens使用量超过1.3万亿，相比5月首次发布时猛增十倍，多模态数据处理量也分别达到每天5000万张图片和85万小时语音。

在谭待看来，大模型的应用成本已经得到很好解决，行业要从卷价格走向卷性能，支持更大的并发流量正在成为大模型行业发展的关键因素。

一句话生成60秒逼真视频，OpenAI文生视频模型Sora刷屏，原来可以这样玩

风口财经记者刘建

开发出热门聊天机器人ChatGPT后，OpenAI继续在生成式人工智能上翻新花样。2月16日，OpenAI推出新的AI大模型Sora，该文生视频大模型可通过快速文本提示创建“逼真”和“富有想象力”的60秒视频。“文生视频”模型Sora包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色，也可以根据静态图像制作动画。Sora不仅了解用户在提示中提出的要求，还了解这些东西在物理世界中的存在方式。

文本生成视频，效果逼真

目前OpenAI官网上Sora相关的信息有限，“我们正在教AI理解和模拟运动中的物理世界，目的是训练模型，帮助人们解决需要真实世界交互的问题。”并称Sora能够从文本说明中生成长达60秒的视频，Sora还能在一个生成的视频中创建多个镜头，体现人物和视觉风格。

Sora可以一次性生成整个视频，也可以扩展生成的视频，使其更长。OpenAI表示：通过让模型一次生成多帧画面，我们解决了一个具有挑战性的问题，即：即使生成的主体暂时离开视线内，也能确保主体不变。

OpenAI表示，Sora建立在过去对DALL-E和GPT模型的研究基础之上。它采用了DALL·E 3的技术，能够在生成的视频中更忠实地遵循用户的文字说明。除了能够文生视频外，该模型还能根据现有的静态图像生成视频，并能准确、细致地对图像内容进行动画处理。该模型还能提取现有视频，并对其进行扩展或填充缺失的帧。

目前OpenAI官网上已经更新了48个Sora生成的视频demo，色彩艳丽，效果逼真。

来自OpenAI Sora的AI生成视频图像：猛犸象在雪地中行走

以上截图的视频文字提示如下：几头巨大的长毛猛犸象踏着雪地走来，它们长长的毛发随风轻扬，远处是白雪覆盖的树木和壮观的雪山，午后的光线伴着飘渺的云朵和远处高悬的太阳，营造出温暖的光晕，低机位拍摄的景象令人惊叹，捕捉到了大型毛茸茸的哺乳动物，摄影和景深都非常漂亮。

动态的光影表现也有印象深刻的案例，如一位女性在东京路灯的霓虹灯下行走的视频，以及阿马尔菲海岸教堂的鸟瞰图，以及一个卡通怪物好奇地跪在融化的蜡烛前等。

来自OpenAI Sora的AI生成视频图像：一位女性在东京路灯的霓虹灯下行走

以上截图的视频文字提示如下：一位时尚女性走在东京的街道上，街道上到处都是温暖的霓虹灯和动画城市标志。她身穿黑色皮夹克、红色长裙和黑色靴子，手拿黑色钱包。她戴着太阳镜，涂着红色唇膏。她走起路来自信而随意。街道潮湿而反光，与五颜六色的灯光形成镜面效果。许多行人走来走去。

在部分场景中，Sora的效果足以“以假乱真”，一段8秒的东京地铁车厢窗户视频中，除了行车过程中，列车窗户上的反射外，视频中间人物倒影也非常逼真。

网友直呼game over

Sora公布后，OpenAICEO山姆-奥特曼请社交媒体用户在线发送文字提示的创意内容。

如一位来自新罕布什尔州的自由摄影师在X上给出的提示：“由一位祖母级社交媒体博主进行的自制意式团子烹饪指导课，场景设置在乡村风格的托斯卡纳乡下厨房，并配有电影级灯光。”Altman在约一小时后回复了一个逼真的视频。

奥特曼此举，对外展示了Sora模型即时生成视频的能力。

东吴证券观点此前表示，近年视觉算法在泛化性、可提示性、生成质量和稳定性等方面突破将推动技术拐点到来以及爆款应用出现。3D资产生成、视频生成等领域受益于扩散算法成熟，但数据与算法难点多于图像生成，考虑到LLM对AI各领域的加速作用以及已出现较好的开源模型，2024年行业或取得更大的发展。

2023年末至2024年初，Pika、HeyGen等AI文生视频应用陆续出圈，验证了多模态技术的不断进步与成熟。刚刚公布的的Sora模型无疑加剧了这一赛道的激烈竞争。

网友直呼game over，工作要丢了：

甚至有人已经开始“悼念”一整个行业：

还有网友表示，电影业要彻底颠覆了。以后只要能写剧本就能直接拍电影了，不是“拍”电影，而是“生成”电影。以后从导演到演员再到摄影，都要失业了。

一位YouTube博主Paddy Galloway发表了对Sora的感想，他表示内容创作行业已经永远改变了，并且毫不夸张。“我进入YouTube世界已经15年时间，但OpenAI刚刚的展示让我无言…动画师/3D艺术家们有麻烦了，素材网站将变得无关紧要，任何人都可以无壁垒获得难以置信的产品，内容背后的‘想法’和故事将变得更加重要。”

Sora仍有较大改善空间

Sora视频一出，立刻震惊业界。尽管这不是首个AI视频，其他企业也有类似文本生成视频的AI模型，谷歌正在测试名为Lumiere的模型，Meta则有名为Emu的模型，还有人工智能初创企业Runway也在开发相应产品来帮助制作视频，但外媒指出，人工智能专家和分析师表示，Sora 视频的长度和质量超出了迄今为止所见的水平。

一位硅谷AI公司的从业者表示，根据她的使用体验，Sora在演示视频中展现的能力远远超Pika和Runway，“Pika只能生成3-15秒的视频，Sora能直接生成一分钟的视频。从画面效果和时长来看，Sora肯定是一个重要突破。”

美国有线电视新闻网(CNN)援引市场研究公司ABI research的高级分析师海登的话报道称，“Sora”可能会对数字娱乐市场产生重大影响，因为新的个性化内容将在各个渠道上传播。

Sora有时会生成不合情理的动作，譬如在跑步机上倒着跑步

但目前的Sora仍然有很多需要完善的地方。OpenAI提示：当前的Sora模型也有弱点，它可能难以准确模拟复杂场景中的物理现象，也可能无法理解具体的因果关系。

Sora在提示空间细节方面会混淆左右，也无法理解因果关系的具体实例，比如制作了一个视频，视频中有人咬了一口饼干，但之后饼干上没有咬痕。

Sora生成的视频：五只小狼在一条砾石路上嬉戏追逐，周围长满了草

Sora生成的视频中，动物或人会凭空出现，特别是在包含许多实体的场景中。此外，Sora难以精确描述随时间推移发生的事件，例如跟踪摄像机的特定轨迹。

Sora生成的视频：一把普通的塑料椅子在沙漠中被发现，人们小心翼翼地挖掘并掸去沙子。在这个例子中，Sora没有将椅子建模为一个刚性物体，导致不准确的物理交互。

OpenAI表示，计划与一个专家团队合作测试最新模型，密切关注错误信息、仇恨内容和偏见等。OpenAI还表示正在开发帮助检测误导性信息的工具，比如检测分类器可以判断视频是何时由Sora生成的。其文本分类器可检查并拒绝违反使用政策的文本输入提示，例如极端暴力、性内容、仇恨图像、名人肖像等。“我们还开发了鲁棒性的图像分类器，用于审查每个生成视频的帧，以帮助确保它在显示给用户之前符合我们的使用政策。”

OpenAI表示，Sora将首先提供给网络安全教授，以评估产品的危害或风险。一些视觉艺术家、设计师和电影制作人也能获得Sora的访问权限，以此收集关于创意专业人士如何使用Sora的反馈。

Demo视频文件如何转MP4格式?

1/6首先,我们需要下载安装格式工厂软件,并来到软件的主界面当中。2/6然后,我们需要找到自己的demo文件,并将demo文件拖到格式工厂的界面当中。3/6接...

《咒》Demo试玩流程详解，实况解说全面解析?-ZOL问答

Demo全程实况解说视频。观看后,相信你会对游戏有更深入的理解,希望能帮到所有想一探究竟的玩家们讨论回答(5)对于喜欢恐怖游戏的朋友们,特别是《咒》这部电影...

怎么把自己打的CS录制的DEMO转换成视频格式上传到土豆等网站?

建议不要用CS的DEMO,用屏幕录像专家,这个简单方便,直接生成AVI、WMV等格式,去网上找,有破解版的,琢磨个半小时你就会用了建议不要用CS的DEMO,用屏幕录像专家,...

怎么将DEM格式转换成视频文件?

这样做就可以将demo转换成视频文件了:首先开始播放你的demo,用SKPlayer1.1播放或者在console里输入playdemodemo1都行。然后,按录制Movie按键(F9)就可...

cs2demo如何换成视频文件?

要将cs2demo转换成视频文件,可以使用录屏软件,如Bandicam、OBS等,将cs2demo的屏幕录制下来,然后将录制的视频保存为所需的视频格式,如MP4、AVI、FLV等。录...

怎么观看demo以及HLTV的录制与建立-ZOL问答

2.在游戏过程中,使用键盘快捷键或鼠标点击来记录demo。这将保存一段记录在游戏文件中的视频和音频片段。3.下载并安装一个支持此特定游戏版本的录像软件。...

求歌词罗马音和翻译Sugar的遥

[color=blue]遥haruka遥远限り無く広がるこの宇宙(そら)見上げてkagirinakuhirogarukonosoramiagete仰望无边无际的天空僕ら夢見る歩き続...

csgo怎么转换成视频格式?

CSGO录制的游戏回放可以导出成.mp4格式的视频文件,具体操作步骤如下:1.打开CSGO游戏,点击左上角的“观看”按钮,进入“订阅”界面2.点击左侧的“我的比赛...

新手如何快速开发微信小程序?-ZOL问答

先去微信开发者工具官网下载工具,注册个账号,然后找些入门视频看看,跟着做几个小demo就差不多了建议先学一下HTML、CSS和JavaScript基础,然后直接上手用微信开...

《祇女神之路》Demo攻略详解，全程视频带你领略塔防战术?-ZO...

3条回答:对于喜欢探索的玩家们,卡普空新作《祇女神之路》的Demo已经上线了。想要了解如何一步步通关的朋友,千万不要错过11的游戏世界精心准备的详尽视频攻略。...

本文地址： http://www.saicdiss.com/article/a254c29a.html

文章来源：用户投稿