GPT-5 好使吗？

实测 20+ 小时编程、检索、写作、讨论之后的心得体会，分享给你。

Wang Shuyi

Aug 09, 2025

∙ Paid

2025 年 8 月 8 日早上，我醒来的时候，GPT-5 已经正式上线了。

我没有想到的是，这次 OpenAI 居然如此激进，把之前乱七八糟各种 GPT 型号一概隐藏，只给了用户 3 个模型。

我很兴奋，把这个消息发到了知识星球。

旋即，就有星友要求我测试一下效果。

这自然，也是我正想要做的。于是，一整天，我都在高频利用 GPT-5 以及那两个衍生增强款（Thinking 和 Pro）。当然，其间我也使用了 Agent 功能。我测试了各种任务，现在可以把结果跟你念叨一下了。

编程

GPT-5 的编程，非常强悍。

真的只需要一句话，它就能给你弄个游戏出来。

这个 3D 版坦克大战，我之前使用 Claude Code, Flowith 等都编写过。但是第一稿出来的效果，我整体上并不满意。

而这次，效果出乎意料地好。首先是能玩儿，其次是好玩儿、刺激。我给儿子看了，他也想玩，但是作业没写完，我没让。

其实生成的源代码，只有一个 HTML 文件，大小才 17KB。

我把可以直接用浏览器玩耍的 HTML 文件，连同带音效的录制结果，都放在了 这个 Notion 链接，你可以查看。

注意这里使用的，不是增强模型（Thinking 和 Pro），而是 GPT-5 的基础款。

估计你也已经看了 OpenAI 的官方 GPT-5 发布视频，所以对这样一个简单的前端游戏嗤之以鼻 —— 人家都能一句话做个带 NPC 卫兵的城堡游戏出来，这算得了什么？

没错，这个样例无法说明 GPT-5 编程能力的上限和边界。但是这种一次成型、好玩儿的游戏，会让人对模型更有信心。在如今这个 Benchmark 不断刷新，模型实际使用效果越来越拉跨的时代，咱们作为普通用户的体感与第一印象，往往比那些繁花似锦的评测数据更值得参考。

然而这一天多，很多人评测后，褒贬不一。有的认为编程能力显著提升，有的却不以为然。

不过你得注意，第一印象很可能是因为特殊原因得来的，那就是刚刚上线时的故障，导致 GPT-5 「降智」。这是 Sam Altman 的帖子。

那提到，GPT-5 上线第一天，自动切换器故障…… 因而你的体感可能是暂时结果，第二天就会好起来。我觉得这个原因或许可以解释得通，下面这位星友反馈的问题。

所以，建议你抽空重新尝试一下。避免第一印象的偏颇。

为什么我要提及这游戏是 GPT-5 基础款编写出来的呢？因为价格和可访问性。

访问

要知道，随着 GPT-5 推出，不少第三方应用已经支持该模型，甚至是免费支持。

例如 Genspark 的对话模式。结合网络搜索功能，给出的答案还是比较靠谱的。只不过，思考时间好像会更长一些。

当然了，免费肯定也有限度。这个你得查看各家的说明。但无论如何，这些渠道让我们有了更多的选择，总是好事儿。

再比如，Visual Studio Code 中的 Github Copilot 订阅，也可以用 GPT-5 。第一次对话，需要手动 Enable GPT-5 Preview 功能。

我立即动手尝试，用它做了个 3D 版本的贪吃蛇。

实话讲，效果有些诡异。不过我觉得修改起来，也就是一两轮对话的事儿。

同样，我把游戏打包，连同视频 放在了这个 Notion 页面中。你可以让 GPT-5 或者 Claude Code 帮助你按照自己的想法继续修改。

检索

说完了编程，咱们看看检索。

我在这篇文章里跟你说过，我对 o3 的喜爱，就是它能够无缝集成检索功能，帮我完成很多基础调研与知识学习。

这个论断，对 GPT-5 大抵也适用。而且，GPT-5 的速度，要更快一些。

例如这个查询「给我介绍贵阳的重要景点」，GPT-5 秒回，连思考都省略掉。

根据我的实际体验，还是很准确的。

例如黔灵山，那猴子是真多啊。

提醒一下，猴子还抢东西呢。别问我怎么知道的。

然后我又试了下面这个问题 ——「贵阳最大的社区是哪个？」：

嗯，「花果园」，我也同意。

你看，常识性的问题，GPT-5 处理起来游刃有余。只不过，如果你用它调研的是最新的内容，务必小心。

例如我让它调研 Cursor Agent ，于是问：

我听说 Cursor 出了 Agent, 可以调用 ChatGPT-5 吗？怎么用？

GPT-5 给出的结果是这样的:

它通过搜索，提及 Cursor 支持 GPT-5。但是整个儿答案里，都没有提 Cursor Agent 一句。也就是「所答非所问」。

同样的问题，发给 GPT-5 Thinking。画风立刻变了，搜索的关键词和方向非常准确。

思考 1 分钟后，GPT-5 Thinking 才给出答案。

很明确，它说「Cursor 的 Agent/CLI 都已经支持调用 OpenAI 的 GPT-5」，还给出了 Cursor Agent 中的调用 GPT-5 方式。

非常好。

从这个例子，你可以发现，如果你的查询是常识类，或者确信在 2024 年前出现在知识库中，那么 GPT-5 足可以胜任；但是如果查询的问题很新颖，那么还是使用 GPT-5 Thinking 比较保险。

你说 GPT-5 Pro ？它不是用来干这个的。杀鸡焉用宰牛刀啊。

直觉

提到这几款模型的差别，我想给你看看，昨天安替老师的帖子。

这么简单的数学题，也能算错？将信将疑，我也让 GPT-5 试了一下。果然 GPT-5 的回答让人瞠目结舌。

居然还好意思列出「计算过程」，你这 1.11 ，是从哪里凭空冒出来的？

好在，GPT-5 Thinking 回答是这样的：

GPT-5 Pro 沉思将近一分钟后，这样答：

看来，连算个简单的算数，都得上 Thinking 或者 Pro 模式了呗？

难怪有人调侃说，GPT-5 智商只有 57 分。

我不知道 GPT-5 处理这道题，具体错误原因在哪里。大语言模型本来也不擅长解数学题。只是，遇到不擅长的事情，聪明如 GPT-5 应该用工具啊。这么强悍的 Agent 工具调用能力，怎么都不肯用呢？

我猜测更主要的原因，是 GPT-5 似乎过于自信了，认为这样的小任务，自己凭直觉就可以搞定。

但事实证明，GPT-5 你还是老老实实拿计算器吧。

写作

我对 GPT-5 写作的第一印象，还不错。

还是用的我的历史小人物小说写作提示词。

主题为：

2001 年，上海，一个刚刚大学毕业的都市白领

GPT-5 给出了详细的构思。

这是它第一章部分内容。

从历史场景还原，到情节和人物设定，都还不错。

5 章写完，GPT-5 还给出了一个细节考据表：

很严谨嘛，提示词遵从也不错。只不过，你千万不要完全相信最后一列的出处，因为一个链接都没有，无法验证。对于这样的资料来源，咱们还是保守一些比较好。好在小说嘛，写错了也无非贻笑大方，不会带来什么直接且紧急的后果。

然而，当我真正用它来整理资料写博客时，我发现了严重的问题。

长长的资料灌注进去，得出的结果却那么「言简意赅」。

就说这插图，我原本给了 10 好几张，最后仅仅剩下来 3 张。

我非常恼火 —— Sam ，你快把 GPT 4.5 还给我！

但是我旋即明白了问题所在。其实，这和当初 GPT 4.5 的弱点是一样的 —— 输出长度限制。

其实如果你对比 API 输出限制，会发现 GPT-5 的 128K 输出长度在「御三家」（OpenAI, Google, Anthropic）里面并不算短。然而实际使用起来，你会发现在官网对话里，Claude 4.1 Opus 和 Gemini 2.5 Pro 输出长文基本上都是一次搞定，而 GPT-5 却如同挤牙膏一般。如果你不指定可以多批次输出，那么它就会倾向于「简洁明快」风格。

这是我在归藏老师的群里找到的一张图，来源未知。但如果真是这样，我还得庆幸自己是 Pro 订户，不然输出长度会更加糟糕。

我的体感判断，是 GPT-5 在写作上着实没有什么改进，但如果说相比于 GPT-4o 都有明显退步，我觉得有些夸张了。

价值

那么，GPT-5 的价值究竟在哪里呢？

Keep reading with a 7-day free trial

Subscribe to Shuyi’s Newsletter to keep reading this post and get 7 days of free access to the full post archives.