Shuyi’s Newsletter

Share this post

User's avatar
Shuyi’s Newsletter
如何用 GPT-4o with Canvas 交互式修改润色语音转写稿?
Copy link
Facebook
Email
Notes
More

如何用 GPT-4o with Canvas 交互式修改润色语音转写稿?

谁说用户与 AI 的交互,只能是一问一答呢?

Wang Shuyi's avatar
Wang Shuyi
Oct 19, 2024
∙ Paid

Share this post

User's avatar
Shuyi’s Newsletter
如何用 GPT-4o with Canvas 交互式修改润色语音转写稿?
Copy link
Facebook
Email
Notes
More
1
Share

刚需

我平时 喜欢用语音来输入内容。有时候,我还会先制作视频,然后 把视频转化成博客文章。这里面既需要语音转文本的技术,也需要把口语化的文本转换成书面的文章。这种工作流程,我之前的文章里已经跟大家介绍过 很多自动化的工作流,用来润色语音内容。最近的一个例子是,我用 o1 preview 加上自己做的 Python 工作流 (https://open.substack.com/pub/wangshuyi/p/o1?r=3fbs5&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true),一站式地把语音稿件变成最终的播客。

不过,你可能也发现了,我们之前做的大多是端到端的处理,就是这边输入初步转写的语音文本,用提示词告诉 AI 我们想要的样子,然后期待输出最终结果。整个过程中,缺少中间的交互。发现输出的结果不好,也只能重新来过。

另外,大语言模型的上下文长度,尤其是输出长度有限制。因此在从前,我不得不把长文拆开来处理,之后再把结果合并。这一来很麻烦,二来拆开后很多上下文信息丢失,对润色的质量会产生不利影响。

自从 ChatGPT 诞生以来,我们一直习惯于对话这种交互模式,不管是在窗口中对话,还是调用 API 来输入输出,似乎这样的方式理所当然。但其实交互的形式,原本就应该多种多样。

最近 ChatGPT 更新,加入了一个 GPT-4o with Canvas 的 Beta 测试模式,给用户了提供一个 「画布」。

这样的改进,让很多人对 OpenAI 的用户交互方式信心大增。

前些日子,我看到不少视频作者已经测试了 Canvas 模式下的文章编辑功能,确实非常直观。例如当你把一篇文章放到画布上的时候,就会有若干默认选项。

上图里,从上到下这五个功能分别是:

  • 加入 emoji 符号(主要用于小红书一类的文案撰写);

  • 最终润色(是加上章节标题,使结构更清晰);

  • 设置读者等级(从幼儿园到研究生都有);

  • 调整长度(可以浓缩,也可以扩展);

  • 给出修改建议(有点类似 Word 里面的批注)。

这些功能虽然很基础,但对于写作者来说非常实用。难怪很多人觉得 Canvas 对编程的帮助一般(相对于 Cursor 或者 Claude 3.5 Sonnet 的 artifacts),而对写作的帮助更大。

前些日子我也对 Canvas 模式做了测试,但结果让我非常失望:

直接让 GPT-4o with Canvas 提出建议帮助修改,得到的内容还是非常有 「AI 味」;换而言之,就是「缺乏人味儿」。跟对话方式一样,GPT-4o with Canvas 经常对长文本无缘无故进行压缩。当然,你可以让它帮助扩展内容,但扩展的效果我很不满意 —— 它很难想到合适的例子来有效扩充表述的深度以增强说服力,而只是把原文进一步地掰开揉碎,重新阐述,显得特别啰唆。

我很快就放弃了 Canvas ,继续用自己原先的工作流。不过一天早上,我受到启发,突然想到了这个东西该怎么用 —— 右侧的那些按钮只是快捷方式,它们可以帮助入门用户以更友好、更自然的方式来与 AI 交互,但没有人规定我们在用 Canvas 的时候不能用提示词啊。

于是我马上就动手尝试,把提示词的能力加入了进来,效果立竿见影。于是我写下这篇教程,用实际例子给你详细演示一下 Canvas + 提示词的方式,如何帮我们有效修改润色文章。

样例

我使用的文本样例,是前几天参加《火花公开课》讨论的音频转录稿件。

这次公开课,还给参与嘉宾颁发了感谢信。

我讲了大概 15 分钟左右。我用 Groq Whisper 转录之后,文本没有分段,大概是这个样子的:

尽管 Whisper 现在能力越来越强,但语音识别还是不够精准。这里面不仅有专有名词识别错误,还包括了标点符号的问题。后文你都可以看到。

下面我们就以它为基础,尝试在 GPT-4o with Canvas 中进行处理。想想看,如果一篇这样的稿件都能处理好,那么你自己码字儿出来的内容,转换起来就愈发顺畅了。

模式

首先,你需要在 ChatGPT 里面选择 ChatGPT 4o with canvas 模式。

注意你开启了这个模式,ChatGPT 也并不一定真的打开 Canvas (画布)。你需要在对话框中直接输入”new canvas” 。

开启 canvas 的画面还是挺有意思的,很有现代感。

下面咱们把文稿贴在右侧 canvas 区域。

至此,基础准备工作就完成了。下面我们来输入提示词,进行处理。

Keep reading with a 7-day free trial

Subscribe to Shuyi’s Newsletter to keep reading this post and get 7 days of free access to the full post archives.

Already a paid subscriber? Sign in
© 2025 Wang Shuyi
Privacy ∙ Terms ∙ Collection notice
Start writingGet the app
Substack is the home for great culture

Share

Copy link
Facebook
Email
Notes
More