Shuyi’s Newsletter

Share this post

User's avatar
Shuyi’s Newsletter
GPT-5 好使吗?

GPT-5 好使吗?

实测 20+ 小时编程、检索、写作、讨论之后的心得体会,分享给你。

Wang Shuyi's avatar
Wang Shuyi
Aug 09, 2025
∙ Paid

Share this post

User's avatar
Shuyi’s Newsletter
GPT-5 好使吗?
Share

2025 年 8 月 8 日早上,我醒来的时候,GPT-5 已经正式上线了。

我没有想到的是,这次 OpenAI 居然如此激进,把之前乱七八糟各种 GPT 型号一概隐藏,只给了用户 3 个模型。

我很兴奋,把这个消息发到了知识星球。

旋即,就有星友要求我测试一下效果。

这自然,也是我正想要做的。于是,一整天,我都在高频利用 GPT-5 以及那两个衍生增强款(Thinking 和 Pro)。当然,其间我也使用了 Agent 功能。我测试了各种任务,现在可以把结果跟你念叨一下了。

编程

GPT-5 的编程,非常强悍。

真的只需要一句话,它就能给你弄个游戏出来。

这个 3D 版坦克大战,我之前使用 Claude Code, Flowith 等都编写过。但是第一稿出来的效果,我整体上并不满意。

而这次,效果出乎意料地好。首先是能玩儿,其次是好玩儿、刺激。我给儿子看了,他也想玩,但是作业没写完,我没让。

其实生成的源代码,只有一个 HTML 文件,大小才 17KB。

我把可以直接用浏览器玩耍的 HTML 文件,连同带音效的录制结果,都放在了 这个 Notion 链接,你可以查看。

注意这里使用的,不是增强模型(Thinking 和 Pro),而是 GPT-5 的基础款。

估计你也已经看了 OpenAI 的官方 GPT-5 发布视频,所以对这样一个简单的前端游戏嗤之以鼻 —— 人家都能一句话做个带 NPC 卫兵的城堡游戏出来,这算得了什么?

没错,这个样例无法说明 GPT-5 编程能力的上限和边界。但是这种一次成型、好玩儿的游戏,会让人对模型更有信心。在如今这个 Benchmark 不断刷新,模型实际使用效果越来越拉跨的时代,咱们作为普通用户的体感与第一印象,往往比那些繁花似锦的评测数据更值得参考。

然而这一天多,很多人评测后,褒贬不一。有的认为编程能力显著提升,有的却不以为然。

不过你得注意,第一印象很可能是因为特殊原因得来的,那就是刚刚上线时的故障,导致 GPT-5 「降智」。这是 Sam Altman 的帖子。

那提到,GPT-5 上线第一天,自动切换器故障…… 因而你的体感可能是暂时结果,第二天就会好起来。我觉得这个原因或许可以解释得通,下面这位星友反馈的问题。

所以,建议你抽空重新尝试一下。避免第一印象的偏颇。

为什么我要提及这游戏是 GPT-5 基础款编写出来的呢?因为价格和可访问性。

访问

要知道,随着 GPT-5 推出,不少第三方应用已经支持该模型,甚至是免费支持。

例如 Genspark 的对话模式。结合网络搜索功能,给出的答案还是比较靠谱的。只不过,思考时间好像会更长一些。

当然了,免费肯定也有限度。这个你得查看各家的说明。但无论如何,这些渠道让我们有了更多的选择,总是好事儿。

再比如,Visual Studio Code 中的 Github Copilot 订阅,也可以用 GPT-5 。第一次对话,需要手动 Enable GPT-5 Preview 功能。

我立即动手尝试,用它做了个 3D 版本的贪吃蛇。

实话讲,效果有些诡异。不过我觉得修改起来,也就是一两轮对话的事儿。

同样,我把游戏打包,连同视频 放在了这个 Notion 页面中。你可以让 GPT-5 或者 Claude Code 帮助你按照自己的想法继续修改。

检索

说完了编程,咱们看看检索。

我在这篇文章里跟你说过,我对 o3 的喜爱,就是它能够无缝集成检索功能,帮我完成很多基础调研与知识学习。

这个论断,对 GPT-5 大抵也适用。而且,GPT-5 的速度,要更快一些。

例如这个查询「给我介绍贵阳的重要景点」,GPT-5 秒回,连思考都省略掉。

根据我的实际体验,还是很准确的。

例如黔灵山,那猴子是真多啊。

提醒一下,猴子还抢东西呢。别问我怎么知道的。

然后我又试了下面这个问题 ——「贵阳最大的社区是哪个?」:

嗯,「花果园」,我也同意。

你看,常识性的问题,GPT-5 处理起来游刃有余。只不过,如果你用它调研的是最新的内容,务必小心。

例如我让它调研 Cursor Agent ,于是问:

我听说 Cursor 出了 Agent, 可以调用 ChatGPT-5 吗?怎么用?

GPT-5 给出的结果是这样的:

它通过搜索,提及 Cursor 支持 GPT-5。但是整个儿答案里,都没有提 Cursor Agent 一句。也就是「所答非所问」。

同样的问题,发给 GPT-5 Thinking。画风立刻变了,搜索的关键词和方向非常准确。

思考 1 分钟后,GPT-5 Thinking 才给出答案。

很明确,它说 「Cursor 的 Agent/CLI 都已经支持调用 OpenAI 的 GPT-5」,还给出了 Cursor Agent 中的调用 GPT-5 方式。

非常好。

从这个例子,你可以发现,如果你的查询是常识类,或者确信在 2024 年前出现在知识库中,那么 GPT-5 足可以胜任;但是如果查询的问题很新颖,那么还是使用 GPT-5 Thinking 比较保险。

你说 GPT-5 Pro ?它不是用来干这个的。杀鸡焉用宰牛刀啊。

直觉

提到这几款模型的差别,我想给你看看,昨天安替老师的帖子。

这么简单的数学题,也能算错?将信将疑,我也让 GPT-5 试了一下。果然 GPT-5 的回答让人瞠目结舌。

居然还好意思列出「计算过程」,你这 1.11 ,是从哪里凭空冒出来的?

好在,GPT-5 Thinking 回答是这样的:

GPT-5 Pro 沉思将近一分钟后,这样答:

看来,连算个简单的算数,都得上 Thinking 或者 Pro 模式了呗?

难怪有人调侃说,GPT-5 智商只有 57 分。

我不知道 GPT-5 处理这道题,具体错误原因在哪里。大语言模型本来也不擅长解数学题。只是,遇到不擅长的事情,聪明如 GPT-5 应该用工具啊。这么强悍的 Agent 工具调用能力,怎么都不肯用呢?

我猜测更主要的原因,是 GPT-5 似乎过于自信了,认为这样的小任务,自己凭直觉就可以搞定。

但事实证明,GPT-5 你还是老老实实拿计算器吧。

写作

我对 GPT-5 写作的第一印象,还不错。

还是用的我的历史小人物小说写作提示词。

主题为:

2001 年,上海,一个刚刚大学毕业的都市白领

GPT-5 给出了详细的构思。

这是它第一章部分内容。

从历史场景还原,到情节和人物设定,都还不错。

5 章写完,GPT-5 还给出了一个细节考据表:

很严谨嘛,提示词遵从也不错。只不过,你千万不要完全相信最后一列的出处,因为一个链接都没有,无法验证。对于这样的资料来源,咱们还是保守一些比较好。好在小说嘛,写错了也无非贻笑大方,不会带来什么直接且紧急的后果。

然而,当我真正用它来整理资料写博客时,我发现了严重的问题。

长长的资料灌注进去,得出的结果却那么「言简意赅」。

就说这插图,我原本给了 10 好几张,最后仅仅剩下来 3 张。

我非常恼火 —— Sam ,你快把 GPT 4.5 还给我!

但是我旋即明白了问题所在。其实,这和当初 GPT 4.5 的弱点是一样的 —— 输出长度限制。

其实如果你对比 API 输出限制,会发现 GPT-5 的 128K 输出长度在「御三家」(OpenAI, Google, Anthropic)里面并不算短。然而实际使用起来,你会发现在官网对话里,Claude 4.1 Opus 和 Gemini 2.5 Pro 输出长文基本上都是一次搞定,而 GPT-5 却如同挤牙膏一般。如果你不指定可以多批次输出,那么它就会倾向于「简洁明快」风格。

这是我在归藏老师的群里找到的一张图,来源未知。但如果真是这样,我还得庆幸自己是 Pro 订户,不然输出长度会更加糟糕。

我的体感判断,是 GPT-5 在写作上着实没有什么改进,但如果说相比于 GPT-4o 都有明显退步,我觉得有些夸张了。

价值

那么,GPT-5 的价值究竟在哪里呢?

Keep reading with a 7-day free trial

Subscribe to Shuyi’s Newsletter to keep reading this post and get 7 days of free access to the full post archives.

Already a paid subscriber? Sign in
© 2025 Wang Shuyi
Privacy ∙ Terms ∙ Collection notice
Start writingGet the app
Substack is the home for great culture

Share