Bard 更新了多模态和多语言支持，好使吗？

Jul 18, 2023

∙ Paid

往事

Bard 推出的时候，让人印象深刻。因为原本大伙儿觉得它能立即和 ChatGPT 分庭抗礼。但是，Bard 正式发布导致 Google 的股价发生了这样的变化。

不过，沉寂许久之后，最近 Bard 似乎又突然成为了很多人的新宠。

因为 Bard 做了两项更新。

第一项更新，就是多模态。多模态是什么意思呢？

大语言模型的多模态（Multimodal Large Language Models，简称 MLLM）是一种超级智能的人工智能模型，它不仅能理解文本，还能理解各种其他形式的数据，如图像、声音等。例如，它们可以将文本描述转化为图像，回答关于图像的问题，甚至在不同类型的数据之间进行转换。

当然，你可以猜到，刚才的定义这是 ChatGPT 告诉我的。

最早展现出多模态能力的，是 OpenAI 。还记得 GPT-4 发布会上，CTO 做的这个演示吗？

你只需在纸上画个草图，GPT-4 就可以把它作为原型变成实际的网页应用。

可是，从 GPT-4 发布，至今已经过去了 4 个月。GPT-4 Plus 用户一直在问；

多模态在哪里啊？

也正因如此， Bard 的多模态功能，一下子激发了人们的想象力。

官方的描述是这样的：

一石激起千层浪。有人 在博客上宣传。

很多人的想法是，既然 Bard 是 Google 推出的大语言模型。以 Google 掌握数据之全面，技术能力之强悍，想必集成了多模态之后，草图变实际应用这样的事儿都会不在话下。

其实，这次的更新，还远远不止这些呢。

Google 在同一天的更新日志里，还提到了更多语言的支持，例如中文。

想想看，一个完整的多模态大语言模型，又认识了中文，这该是多么美好的场景啊。有了它，还学什么前端，学什么数据分析。直接把要借 (chao) 鉴 (xi) 的内容发给它，然后等着它复现出一个自己的版本，不就完了？

然而，我并不想你也跟着人云亦云，陷入狂热。咱们用实际的例子，来看看 Bard 的多模态和多语言支持，究竟怎么样吧。我这里给你演示以下的几个测试。分别包括图片解读，应用复刻，以及统计图表的复现。

Subscribe to Shuyi’s Newsletter to keep reading this post and get 7 days of free access to the full post archives.