Shuyi’s Newsletter

字幕还要自己改?我做了个 Skill 让 AI 自己全干了

将这种迭代循环纳入到工作流中,可能给你后续工作带来显著的「复利」改善

Wang Shuyi's avatar
Wang Shuyi
Jun 07, 2026
∙ Paid

刚需

昨天我翻了一下我公开发布的视频的索引,发现仅在 B 站上,就已经接近 350 个了。

不过其中加了字幕的,占比不多。

因为啥?我懒啊。

早先,加字幕得手动弄。一个长视频下来,时间花得比录课还多。那时候自不必说了,甭管观众如何呼吁,我是不为所动的。

后来有了 AI,按说这活儿应该简单了。专业工具(例如立青的 BibiGPT 或剪映)识别准确率确实不低,出来的字大部分都对。但是不行,总有那么一些错误明晃晃摆在那里,必须得整体过一遍才能发现。这导致后续手工调整依然非常繁琐。所以很多视频,我依然选择不加字幕,避免这些错误贻笑大方;或者被观众呼吁得烦了,则干脆 AI 直出字幕,您凑合看吧。

最近参加教创赛,需要给长视频加字幕,而且对质量要求很高。我于是想:能否让 AI 出字幕的时候,自动处理常见问题,端到端高质量输出?甚至还能把我原先不曾做过的章节分割 —— 就是你在 B 站某些视频里看到的底 / 顶部进度条 —— 也自动烧录进去?

想法有了,刚需驱动,于是我就动手做了一个 Skill,专门处理视频字幕和章节进度条等问题。这算是教创赛视频制作的副产品。没想到,这个过程里,我收获了很多东西。

比如 6 月 5 日,我给自己的新书《AI 高质量论文写作法》做宣传视频。出版社的营销编辑建议我把字幕给加上。出于路径依赖,我还是先试了剪映的自动字幕。识别的倒是挺快,不过稍一检查就发现,哪怕这短短几分钟的视频里也净是错,例如:我自己的名字「王树义」认错了,写成了「王书一」,字幕里的 AI 全成了小写的 ai,「玉树芝兰」写成了树枝的「枝」—— 这些都得我亲手去改。

我叹了口气,换用这个 Skill 重新处理同一个视频,这类问题它自己就抓出来修对了。成品我从头过了一遍,竟然一处要改的都没找到。

今天咱们就来分享一下我制作这个 Skill 中积累的经验,在文章末尾,我也会把这个 Skill 的完整内容一并分享给你。

在讲怎么解决之前,我想先聊一个问题 —— 字幕的毛病,到底出在哪?

痛点

你可能觉得,字幕的问题不就是识别不准嘛,错别字呗。说实话,我以前也是这么想的。直到我做教创赛录课视频字幕添加,带着团队小伙伴一次次检查手工调整字幕,一次次被折磨,我才意识到事情没那么简单。

第一个问题,也是最烦人的:断句碎。

自动字幕按什么断句?主要是按音频里的停顿和静音。问题是,讲课的人说话不是播音员,中间会换气、会停顿、会重复连接词。结果就是 —— 一条字幕在半句话的地方被拦腰截断。

你想象一下这个画面:你正在讲「我们在使用大语言模型的时候」,说到「大语言」三个字,换了口气,字幕就在「大语言」后面断开了。下一句从「模型的时候」开始。读者看到的是什么?一条「我们在使用大语言」,一条「模型的时候」。每个字都对,但观众看起来完全不是那么回事。

如果说这些常见词汇中间被断开的时候,观众还可以凭借着对常识的理解自动脑补,那更要命的是专业词语被中间断裂。「信息管理系统」,在「信息」后面断开;「机器学习」,在「机器」后面断开。字都没错,但语义全碎了。你读着这些断成残片的字幕,得自己在脑子里拼回去 —— 这比没有字幕还累。特别是对于一些专业入门初学者来说,可能听得一头雾水

第二个问题:专有名词系统性翻车。

这个更隐蔽,也更让人头疼。通用的语音识别模型没见过你那个领域的词,它就按发音硬猜:Trae 变成 Tray,Claude 变成 Cloud,「汶上县」听成「上线」,「鲁棒」变「鲁邦」。这些错误有个共同特点:发音上完全合理,语义上基本离谱。你通读校对的时候,如果不熟悉这些词,根本看不出来——因为它们读着「顺」,但意思全错了。

还有几个问题,虽然不像前两个那么扎眼,但也让人头疼:静音段冒出「请不吝点赞、订阅、转发」这种 AI 脑补出来的话 —— 这是语音识别的幻觉,行话叫 ASR 幻觉,ASR 就是自动语音识别;识别结果里混入「這」「門」「課」等繁体字,肉眼极难发现 —— 这是简繁混杂。

你看,字幕的问题,远不只是「错别字」那么简单。

那到底哪个才是主要矛盾?我以前凭直觉,觉得错字最多 —— 毕竟改的时候,满眼都是红笔圈出来的错别字嘛。

直到我做了一次量化复盘。

做法不复杂:把 AI 自动生成的字幕,和我自己逐条手工精调之后的版本做 diff—— 就是逐条对比两个版本的差异,然后把每一处修改分类 —— 你改的是断句,还是错字,还是别的什么?

结果让我吃了一惊:大约 77% 的人工修改是断句问题,只有约 13% 是错字。(以文本被改动的字幕条为单位,两个视频合计四百多处修改。样本谈不上大,但方向足够清晰。)

换句话说,我花大力气在校对错别字,但真正让我头疼的、占了大头的问题,是断句。

还有一个容易被忽视的交付方式问题:很多工具默认把字幕烧录进画面,但创作者经常并不想要硬字幕——平台有自己的字幕轨,烧录后无法回退,不利于多平台分发。字幕应该是可分发的资产,而不是焊死在视频里的零件。

出路

问题重新定义了,解法也就不一样了。

我做的这个 Skill,叫 video-subtitler。说「做」,其实更像当导演:问题怎么定义、方案怎么取舍、质量怎么验收,这些是我的活儿;代码是我指挥 Claude Code 写的 —— 它写,我挑毛病,它再改。这个 Skill 不是在「识别 + 校对」的老路上修修补补,而是围绕「修对的东西」重新设计了整条流水线。核心思路有三层。

先说专有名词怎么治:三个独立证据源互相校验。

不是靠人眼通读,而是让三个独立的证据源交叉验证:幻灯片 OCR—— 把画面里的文字识别出来 —— 提供屏幕上实际写着的专有名词和数字,Web 检索逐个核实人名地名,上下文语义逐条复查同音字。三个来源对上了,才算过关。打个比方,这就像三个互不串供的证人,分别从不同角度指认同一个人 —— 比一个人反复看十遍可靠得多。

光修得对还不够,还得验得住:LLM 做菜,脚本验收。

LLM 就是大语言模型,语义判断交给它;质量验收交给脚本 —— 脚本是死的,同样的字幕给它,每次都按同一把尺子量,这种「每次结果都一样」的可靠,行话叫确定性。它把每一条字幕都查一遍,不是抽几条看看,不合格不放行。为什么这么分?因为语义判断和验收是两件不同的事 —— 判断需要理解力,验收需要确定性。

最后是你拿到手的东西:默认轻交付。 默认交付 SRT 字幕文件——一种通用的字幕文本格式,哪个平台都认——加逐字稿,而不是直接把字幕焊进视频。你拿到一个焊死的视频,和拿到一个可以随时改的字幕文件,感受完全不同。烧录是可选项,你明确要求了才做。

验证

思路归思路,效果怎么样?

最核心的变化在断句——普通流程主要按静音间隙断,半句截断是常态;这个 Skill 不按静音断,而是理解语义后再切。修的就是那个占 77% 的问题。这个问题修对了,字幕的「读着累」就从根本上缓解了。

然后是专有名词 —— 普通流程靠校对者凭感觉抓;这个 Skill 用三源交叉验证,OCR、Web 检索、上下文语义,三个来源对上了才算过关。领域词也不用每个视频从零开始,验证一次,后续视频自动复用。

其余的,质量验收从人眼通读,变成脚本逐条把关 —— 像安检口,每条字幕都得过这道门禁,不合格就拦下;交付从默认烧死变成默认 SRT 加逐字稿;章节从手敲时间戳变成自动生成章节文件,B 站、YouTube 各一份,格式都对好了 —— 每一项都是把「凭运气」变成「有保障」。

回到开头那个例子。6 月 5 日的新书视频,剪映连我的名字都认错;这个 Skill 处理同一个视频时,语音识别一样把「王树义」听成了「王书一」—— 但画面里明明白白写着「王树义」,OCR 一比对就现了形,它自己改了过来。

「玉树芝兰」靠 Web 检索核实,连两本书名该加的书名号都补上了。等成品到我手上,从头过一遍,一处要改的都没找到。一个视频的样本当然说明不了一切,但不是我眼神不好,而是修对了东西,问题就真的少了。

效果有了。下面我来跟你聊聊,我踩坑之后获得的一些经验教训。

Keep reading with a 7-day free trial

Subscribe to Shuyi’s Newsletter to keep reading this post and get 7 days of free access to the full post archives.

Already a paid subscriber? Sign in
© 2026 Wang Shuyi · Privacy ∙ Terms ∙ Collection notice
Start your SubstackGet the app
Substack is the home for great culture