发布信息

阿里把视频生产线开源了:一个人,真的能干翻整个MCN

作者:本站编辑      2026-04-24 11:59:50     0
阿里把视频生产线开源了:一个人,真的能干翻整个MCN

最近 GitHub trending(GitHub官方热榜) 上看到一个阿里开源的项目项目名字叫 Pixelle-Video (6.2k star)

阿里AIDC(阿里巴巴国际站数字商务集团的人工智能团队)开源的。

简介就那么一行字:“AI 全自动短视频引擎”。

没多想就点进去了,结果第一眼就给我干沉默了。

这玩意儿到底能干啥?

简单说,你随便扔个主题给它,比方说“为什么应该养成阅读习惯”,它能在几分钟之内给你吐出一个能直接发的短视频——不是那种套模板的垃圾货,是文案、画面、配音、BGM 全齐活的那种。

哦对了,它连配音都能克隆你的声音。

我当时脑子里就四个字:这合法吗?

随便拿 demo 跑了条视频出来,看完之后我坐在椅子上呆了好一会。不是震惊于效果有多惊艳——虽然确实还行——而是突然意识到,这玩意儿的效率,简直是把内容生产那层窗户纸直接给捅破了。

<<< 左右滑动见更多 >>>

视频转为了 GIF 格式,所以看起来卡卡的

它把活拆得太干净了

整个项目的思路一点都不花哨,就是把一条短视频的生产流程彻底拆开,每个环节扔给最合适的 AI 去干。

第一块,写稿。 接的是通义千问、GPT-4o、DeepSeek 这些大模型。你给个主题,它给你写脚本。你能指定风格,也能自己直接贴现成的文案,跳过这步。

第二块,出图。 对接 ComfyUI 或者线上的 RunningHub。它能把文案里每一句话自动配上插图,还能让你自定义画风,比如“极简黑白火柴人风格”。可玩性其实挺高的。

第三块,配音。 各种 TTS 方案都有,Edge-TTS、Index-TTS 啥的。最离谱的还是那个声音克隆——传一小段你自己的录音,它就能用你的调调念完整个文案。这功能要是被某些人拿去用,场面不敢想。

第四块,视频合成。 内置了好几套模板,横竖屏都有,自动把刚才生成的那些东西拼到一起,加个背景音乐就完事儿了。

这个拆分逻辑其实挺鸡贼的。短视频本来就是流水线作业,以前非得一个人全揽,质量肯定顾头不顾腚。现在把每个环节交给最强的 AI 模型,效率直接飞起。官方给的说法是,跑一个五分镜头的视频,一般几分钟就完活。

说实话,比我预想的快太多了。

对小白极度友好,好到有点意外

我认真翻了翻使用文档——说真的,现在很多开源项目就真的是“把代码开源了而已”,根本跑不起来。但 Pixelle-Video 明显不是那种画饼货。

Windows 用户直接去下那个一键整合包就完事了:

  • 下载解压
  • 双击 start.bat
  • 浏览器自己弹出来 Web 界面
  • 把 API Key 填上(通义千问或者 DeepSeek 的都行)
  • 开干

不用你装 Python,也不用配置 uv,甚至连 ffmpeg 都提前打好了。这在开源圈里,真的算良心到姥姥家了。

macOS 或者 Linux 也没多麻烦,几行命令的事儿:

git clone https://github.com/AIDC-AI/Pixelle-Video.gitcd Pixelle-Videouv run streamlit run web/app.py

成本这块就更不用担心了。想白嫖的话,LLM 用本地 Ollama(完全免费),再加上本地部署的 ComfyUI 跑图,全程零花费。要是想省点事又不想花钱,通义千问的 API 便宜得要死,差不多也是零成本。当然,你要不差钱非要用 OpenAI 和 RunningHub 云端跑,那也随你,只是没必要。

生态这东西,居然已经有模有样了

一个刚出来不久的开源项目,大家最怕的就是社区一片死寂,有问题没人答。但 Pixelle-Video 目前看下来,这块意外的成熟。

GitHub 页面上列了一堆已经能玩的资源:

  • 好几种 TTS 工作流
  • 声音克隆模板
  • 静态的、动态背景的、图片背景的各种视频模板
  • 跟 ComfyUI 的深度整合(懂行的可以直接拖进自己工作流)
  • 作品生成后能自动推送到微信、飞书、钉钉、Telegram,甚至发邮件……

这些东西出来之后,意味着你根本不需要会敲代码,下了整合包就能用;要是你本来就在玩 ComfyUI,那直接装个节点就把这套流程集成进去了。

这种感觉不像一个刚发布几个月的项目,更像是内部打磨了很久才拿出来公开的玩意儿。我都怀疑是不是阿里内部有人自己用得挺爽,顺手就给开源了。

阿里这波节奏,是真的很紧凑

随便翻了一下最近几个月的发布节奏,挺有意思的。

Pixelle-Video 不是个单打独斗的孤例,它上面还有俩配套的项目:

  • Pixelle-MCP:把 ComfyUI 变成 MCP 服务器,让 AI 助手能直接调动 ComfyUI 干活。
  • FlowGram:一个帮开发者快速搭 AI 应用流程的框架。

感觉上,AIDC这边差不多是一个月往外出一个新的东西。那股子紧迫感隔着屏幕都能闻到——AI 内容生成这条赛道现在还是群魔乱舞的蓝海阶段,谁先抢住位置谁就能卡住生态。

更关键的是,他们居然把这套核心引擎给开源了。

开源什么概念?就是谁都能免费用、随便魔改、集成到自己产品里拿去卖。大厂以前哪有这么大方。

感觉他们真急了。

准备去干短视频了

整个下午我啥也没干,就在那儿反复折腾这个项目。

越用心里越冲动。

之前你要是想做条能看的短视频,哪怕是个三分钟的,脚本得写一两个小时,素材得自己拍或者到处扒,剪辑再耗上大半天,最后找音乐找配音又是一个钟头。没有半天时间根本下不来,还得有台好相机、有个干净的背景、有一张勉强能上镜的脸。

哪怕是用其他的 AI,要么成本巨高,要么麻烦的要死。哪有现在这种随便给个主题,几分钟就能出来的方便!虽然效果说不上多惊艳,但是成本低呀!

以前因为生产效率卡在那里,一个人卯足劲也就能玩转一两个号。现在生成成本趋近于零了,一个人能不能同时搞十个号?上百个号?通过矩阵把流量吃干抹净?

这些问题的答案我现在给不出来,但我知道,Pixelle-Video 这种东西冒出来,就已经标志着某个转折点到了。

在内容严重过剩的时代,真正的稀缺品不再是你能产出多少数量,而是你那颗脑袋里还能蹦出多少别人想不到的点子。

最后说两句

如果你只是好奇想玩玩,或者自己就是做短视频、搞自媒体的,这玩意儿真的值得摸一把。

GitHub 直接搜 Pixelle-Video 或文章底部 点击原文 就能直达

Windows 的兄弟下整合包,macOS/Linux 的朋友敲那几行命令,用不了一根烟的功夫就能跑起来。

它或许不能马上让你财务自由,但一定能让你看见那个正在快速逼近的未来。

大时代嘛,没人能躲,那就迎上去呗。

看完觉得还行,就随手点个赞或者在看,感激不尽。下次有有意思的东西再聊。

相关内容 查看全部