这个事儿说起来,也挺让人唏嘘的。
我原本,是想给你介绍一款新的语音转录工具来着,叫做 SuperWhisper 。
我是在 Cortex Futura 的视频里 发现的它。
这款工具可以干啥呢?就是你语音输入,它通过本地的 Whisper 模型把语音转录成文字,然后根据你的 prompt 进行简单的修改,粘贴到当前的位置。
SuperWhisper 这款应用相对于从前给你介绍的 Tana AI command 方式,以及 AudioPen 语音输入,有以下的优势:
安全。无需把资料上传到服务器。因为调用的是本地模型,数据都在本地处理,更加安全;
速度快。这里实际上已经用上了「转写 + 润色」环节,尤其使用小模型时速度飞快;
成本低。如果你使用的是英语,那干脆就可以免费使用了;但如果你用更大的模型,或要求使用中文和其他语言,则需要缴纳订阅费;
便捷。不用离开当前应用,直接快捷键开始说。说完了内容就粘贴到当前位置,一气呵成。
岔开说一句,总有人留言问我:
王老师,现在明明有那么多语音输入法你不用,为什么非得折腾这些 AI 语音转写呢?
此处简单回复:
首先,这些 AI 转写工具,在语音转文字之外,还有一个修改调整润色功能,可以保证你的输入尽可能准确,符合你自己的语言习惯,将来好复用。或者至少,将来你看到的时候,还能明白是什么意思。
其次,语音输入法往往在你输入的时候往外蹦字儿。这会吸引你的注意力,诱惑你去检查输出内容是否符合你的意思,导致你经常忘记自己脑子里宝贵的点子。
闲言少叙,说回到 SuperWhisper,我觉得对于英语用户,这简直就是个近乎完美的好工具啊。
只可惜,我现在还不习惯完全用英语来思考和嘟囔,所以第一时间果断付费了。
在我的 M1 Macbook Pro 上,它运转非常好。我用起来很开心,记下了不少笔记。
只可惜,在我的 18 款 Mac Mini 上(Intel 芯片),这东西根本就用不了,一听写就崩溃。
试过几次都一样,这下给我整崩溃了。没办法,我申请退款。
估计你也能猜出来,这退款申请,也是 ChatGPT 帮我写的。
很快,人家就给了答复,非常爽快答应退钱。
在这封回信里,开发者提到了他确实在尝试改进 Intel Mac 上的程序稳定性。看来,我遇到的问题绝非孤例。
钱退回来了。可我的快捷语音录入需求,该怎么办呢?
我决定自己编程做一个出来。
要在以前,这种想法会立刻被我仍在一边 —— 并非我经过努力也写不出这样的程序,而是投入的成本太高了。我简单分拆了一下 SuperWhisper 的功能,它涉及以下的一些技术要点:
在 macOS 上以系统默认音频设备录音;
用快捷键终止录音过程,存成合适的音频文件;
用 Whisper 把音频转变成文本;
用 ChatGPT 对文本进行修改调整;
把修改后的文本贴到当前位置。
这里面,后三项我在之前的应用中都实现过,修改与实施相对容易。把它们组成一个流程,然后用快捷键调用,可以使用 Keyboard Maestro 来完成。但是前面这两项,涉及用 Python 处理音频,我确实毫无经验啊。
Keep reading with a 7-day free trial
Subscribe to Shuyi’s Newsletter to keep reading this post and get 7 days of free access to the full post archives.