行业企业

阿里把视频生产线开源了:一个人,真的能干翻整个MCN

 作者：本站编辑  2026-04-24 11:59:50  0

最近 GitHub trending(GitHub官方热榜) 上看到一个阿里开源的项目项目名字叫 Pixelle-Video (6.2k star)。

阿里AIDC（阿里巴巴国际站数字商务集团的人工智能团队）开源的。

简介就那么一行字：“AI 全自动短视频引擎”。

没多想就点进去了，结果第一眼就给我干沉默了。

这玩意儿到底能干啥？

简单说，你随便扔个主题给它，比方说“为什么应该养成阅读习惯”，它能在几分钟之内给你吐出一个能直接发的短视频——不是那种套模板的垃圾货，是文案、画面、配音、BGM 全齐活的那种。

哦对了，它连配音都能克隆你的声音。

我当时脑子里就四个字：这合法吗？

随便拿 demo 跑了条视频出来，看完之后我坐在椅子上呆了好一会。不是震惊于效果有多惊艳——虽然确实还行——而是突然意识到，这玩意儿的效率，简直是把内容生产那层窗户纸直接给捅破了。

<<< 左右滑动见更多 >>>

视频转为了 GIF 格式，所以看起来卡卡的

它把活拆得太干净了

整个项目的思路一点都不花哨，就是把一条短视频的生产流程彻底拆开，每个环节扔给最合适的 AI 去干。

第一块，写稿。 接的是通义千问、GPT-4o、DeepSeek 这些大模型。你给个主题，它给你写脚本。你能指定风格，也能自己直接贴现成的文案，跳过这步。

第二块，出图。 对接 ComfyUI 或者线上的 RunningHub。它能把文案里每一句话自动配上插图，还能让你自定义画风，比如“极简黑白火柴人风格”。可玩性其实挺高的。

第三块，配音。 各种 TTS 方案都有，Edge-TTS、Index-TTS 啥的。最离谱的还是那个声音克隆——传一小段你自己的录音，它就能用你的调调念完整个文案。这功能要是被某些人拿去用，场面不敢想。

第四块，视频合成。 内置了好几套模板，横竖屏都有，自动把刚才生成的那些东西拼到一起，加个背景音乐就完事儿了。

这个拆分逻辑其实挺鸡贼的。短视频本来就是流水线作业，以前非得一个人全揽，质量肯定顾头不顾腚。现在把每个环节交给最强的 AI 模型，效率直接飞起。官方给的说法是，跑一个五分镜头的视频，一般几分钟就完活。

说实话，比我预想的快太多了。

对小白极度友好，好到有点意外

我认真翻了翻使用文档——说真的，现在很多开源项目就真的是“把代码开源了而已”，根本跑不起来。但 Pixelle-Video 明显不是那种画饼货。

Windows 用户直接去下那个一键整合包就完事了：

下载解压
双击 start.bat
浏览器自己弹出来 Web 界面
把 API Key 填上（通义千问或者 DeepSeek 的都行）
开干

不用你装 Python，也不用配置 uv，甚至连 ffmpeg 都提前打好了。这在开源圈里，真的算良心到姥姥家了。

macOS 或者 Linux 也没多麻烦，几行命令的事儿：

git clone https://github.com/AIDC-AI/Pixelle-Video.gitcd Pixelle-Videouv run streamlit run web/app.py

成本这块就更不用担心了。想白嫖的话，LLM 用本地 Ollama（完全免费），再加上本地部署的 ComfyUI 跑图，全程零花费。要是想省点事又不想花钱，通义千问的 API 便宜得要死，差不多也是零成本。当然，你要不差钱非要用 OpenAI 和 RunningHub 云端跑，那也随你，只是没必要。

生态这东西，居然已经有模有样了

一个刚出来不久的开源项目，大家最怕的就是社区一片死寂，有问题没人答。但 Pixelle-Video 目前看下来，这块意外的成熟。

GitHub 页面上列了一堆已经能玩的资源：

好几种 TTS 工作流
声音克隆模板
静态的、动态背景的、图片背景的各种视频模板
跟 ComfyUI 的深度整合（懂行的可以直接拖进自己工作流）
作品生成后能自动推送到微信、飞书、钉钉、Telegram，甚至发邮件……

这些东西出来之后，意味着你根本不需要会敲代码，下了整合包就能用；要是你本来就在玩 ComfyUI，那直接装个节点就把这套流程集成进去了。

这种感觉不像一个刚发布几个月的项目，更像是内部打磨了很久才拿出来公开的玩意儿。我都怀疑是不是阿里内部有人自己用得挺爽，顺手就给开源了。

阿里这波节奏，是真的很紧凑

随便翻了一下最近几个月的发布节奏，挺有意思的。

Pixelle-Video 不是个单打独斗的孤例，它上面还有俩配套的项目：

Pixelle-MCP：把 ComfyUI 变成 MCP 服务器，让 AI 助手能直接调动 ComfyUI 干活。
FlowGram：一个帮开发者快速搭 AI 应用流程的框架。

感觉上，AIDC这边差不多是一个月往外出一个新的东西。那股子紧迫感隔着屏幕都能闻到——AI 内容生成这条赛道现在还是群魔乱舞的蓝海阶段，谁先抢住位置谁就能卡住生态。

更关键的是，他们居然把这套核心引擎给开源了。

开源什么概念？就是谁都能免费用、随便魔改、集成到自己产品里拿去卖。大厂以前哪有这么大方。

感觉他们真急了。

准备去干短视频了

整个下午我啥也没干，就在那儿反复折腾这个项目。

越用心里越冲动。

之前你要是想做条能看的短视频，哪怕是个三分钟的，脚本得写一两个小时，素材得自己拍或者到处扒，剪辑再耗上大半天，最后找音乐找配音又是一个钟头。没有半天时间根本下不来，还得有台好相机、有个干净的背景、有一张勉强能上镜的脸。

哪怕是用其他的 AI，要么成本巨高，要么麻烦的要死。哪有现在这种随便给个主题，几分钟就能出来的方便！虽然效果说不上多惊艳，但是成本低呀！

以前因为生产效率卡在那里，一个人卯足劲也就能玩转一两个号。现在生成成本趋近于零了，一个人能不能同时搞十个号？上百个号？通过矩阵把流量吃干抹净？

这些问题的答案我现在给不出来，但我知道，Pixelle-Video 这种东西冒出来，就已经标志着某个转折点到了。

在内容严重过剩的时代，真正的稀缺品不再是你能产出多少数量，而是你那颗脑袋里还能蹦出多少别人想不到的点子。

最后说两句

如果你只是好奇想玩玩，或者自己就是做短视频、搞自媒体的，这玩意儿真的值得摸一把。

GitHub 直接搜 Pixelle-Video 或文章底部点击原文就能直达

Windows 的兄弟下整合包，macOS/Linux 的朋友敲那几行命令，用不了一根烟的功夫就能跑起来。

它或许不能马上让你财务自由，但一定能让你看见那个正在快速逼近的未来。

大时代嘛，没人能躲，那就迎上去呗。

看完觉得还行，就随手点个赞或者在看，感激不尽。下次有有意思的东西再聊。

下一篇： 白酒行业进入存量竞争,散酒凭什么能做出增量市场?
上一篇： 5月上海新国际博览中心展会排期!

行业企业

阿里把视频生产线开源了:一个人,真的能干翻整个MCN

它把活拆得太干净了

对小白极度友好，好到有点意外

生态这东西，居然已经有模有样了

阿里这波节奏，是真的很紧凑

准备去干短视频了

最后说两句

相关内容查看全部 

白酒行业进入存量

【溧阳市酒类行业

全面向C:白酒行业

【企业动态】盘古

寻地屈孕酮片生产

日产 1000 吨铁矿

——猕猴桃浓缩汁

高速钢轧辊生产线

【行业深度研究】

走进企业看信心|

阿里把视频生产线开源了:一个人,真的能干翻整个MCN

它把活拆得太干净了

对小白极度友好，好到有点意外

生态这东西，居然已经有模有样了

阿里这波节奏，是真的很紧凑

准备去干短视频了

最后说两句

相关内容 查看全部 

相关内容查看全部 