口播视频创作者在后期剪辑时,往往要面对大量重复表达、临时改口、语气词堆积与长时间静音。自动剪辑工具虽然能检测音量波动,却难以理解语义逻辑,导致“删错重点”或“保留重复”。字幕识别同样存在问题,尤其涉及技术名词与英文缩写时,识别准确率明显下降,后期校对耗时不低。
手动逐句检查虽然稳妥,却会让 20 分钟素材拉长为数小时工作量。对于经常发布课程讲解、技术分享或产品演示的创作者而言,这种重复劳动会显著影响更新频率。团队协作时,剪辑标准也难以统一,导致视频风格前后不一致。
Videocut Skills 将语义理解能力与自动剪辑流程结合,通过 Claude Code Skills 构建专用 Agent,专为口播视频设计。它在传统音量检测基础上增加语义审核与词典纠错机制,让 AI 参与决策环节,同时保留人工确认步骤,兼顾效率与可控性。

Videocut Skills是什么?
Videocut Skills 是基于 Claude Code Skills 构建的视频剪辑 Agent,面向口播视频自动优化场景。它通过语义分析识别重复句、口误与纠正表达,并结合自定义词典修正专业术语字幕,最终生成可人工审核的剪辑方案。其定位是“AI 辅助口播剪辑流程工具”,而非单纯的音量剪辑插件。
开源地址:https://github.com/Ceeon/videocut-skills
核心功能
Videocut Skills 主要面向技术博主、课程讲师与知识型内容创作者。核心价值在于利用语义理解减少人工排查时间,并通过词典机制提升字幕准确率。
- 语义理解分析——逐句判断重说与纠正内容,避免简单模式匹配
- 静音检测——自动标记 >0.3 秒静音,可自定义阈值
- 重复句检测——相邻句开头 ≥5 字相同自动删前保后
- 句内重复清理——识别“好我们接下来好我们接下来”类重复结构
- 专业词典纠错——支持 API、Claude Code、MCP 等术语修正
- AI 审核网页——生成可视化页面供人工确认
- 自动 FFmpeg 剪辑——确认后执行精准时间轴裁切
- 偏好自更新——记录静音阈值与语气词保留规则

使用场景
当创作者需要快速处理 10–30 分钟口播素材时,Videocut Skills 可作为半自动剪辑流程工具使用,既节省时间,又保留人工判断空间。
| 人群/角色 | 场景描述 | 推荐指数 |
|---|---|---|
| 技术博主 | 剪辑课程讲解与产品演示视频 | ★★★★★ |
| 在线讲师 | 批量优化录播课程 | ★★★★★ |
| 自媒体创作者 | 提升口播视频节奏 | ★★★★☆ |
| AI 内容创作者 | 减少术语字幕错误 | ★★★★★ |
| 小型内容团队 | 统一剪辑标准 | ★★★★☆ |
操作指南
新用户首次使用时需完成模型与环境安装,后续剪辑流程相对顺畅。
- 将项目克隆至 Claude Code 的 skills 目录
- 复制
.env.example为.env并填写 API Key - 打开 Claude Code 输入「/videocut:安装」
- 等待自动安装 Python、FFmpeg、FunASR 与 Whisper 模型
- 输入「/videocut:剪口播 视频.mp4」启动剪辑流程
- 浏览器打开审核页面,确认或取消标记
- 点击「执行剪辑」生成剪辑后视频
- 如需字幕,执行「/videocut:字幕」并确认后烧录
(首次安装需下载约 5GB 模型文件,建议预留磁盘空间。)
支持平台
Videocut Skills 运行于 Claude Code 环境,依赖 Python、Node.js 与 FFmpeg。支持 macOS、Linux 与 Windows(需具备相应开发环境)。通过本地命令触发流程,剪辑与字幕处理在本地执行,转录步骤依赖云端 API。
产品定价
Videocut Skills 本身为开源项目,可免费安装使用。使用过程中涉及云端转录 API 调用与模型下载,相关费用由用户自行承担。
常见问题
Q1:是否完全自动剪辑?
不是。Videocut Skills 会生成 AI 审核结果页面,用户确认后才执行剪辑,避免误删重要内容。
Q2:字幕准确率如何?
通过 Whisper large-v3 模型生成字幕,并结合自定义词典纠错,专业术语识别效果优于常规自动识别工具。
Q3:是否会上传完整视频?
流程中通常仅提取音频用于转录,视频剪辑在本地完成。具体取决于所使用的转录 API 设置。
开发者小结
Videocut Skills 将语义分析引入剪辑流程,是对传统音量裁剪工具的一种补充。它适合频繁制作口播内容、希望减少重复劳动的创作者与技术团队。对剪辑精度要求极高或偏好纯手工控制的用户,仍可能需要后期微调。作为 Claude Code Skills 生态中的专用 Agent,它更强调流程效率与字幕质量,而非复杂视频特效处理能力。
