Shuyi’s Newsletter

Share this post

User's avatar
Shuyi’s Newsletter
Bard 更新了多模态和多语言支持,好使吗?

Bard 更新了多模态和多语言支持,好使吗?

实践出真知。

Wang Shuyi's avatar
Wang Shuyi
Jul 18, 2023
∙ Paid
1

Share this post

User's avatar
Shuyi’s Newsletter
Bard 更新了多模态和多语言支持,好使吗?
Share

往事

Bard 推出的时候,让人印象深刻。因为原本大伙儿觉得它能立即和 ChatGPT 分庭抗礼。但是,Bard 正式发布导致 Google 的股价发生了这样的变化。

不过,沉寂许久之后,最近 Bard 似乎又突然成为了很多人的新宠。

因为 Bard 做了两项更新。

更新

多模态

第一项更新,就是多模态。多模态是什么意思呢?

大语言模型的多模态(Multimodal Large Language Models,简称 MLLM)是一种超级智能的人工智能模型,它不仅能理解文本,还能理解各种其他形式的数据,如图像、声音等。例如,它们可以将文本描述转化为图像,回答关于图像的问题,甚至在不同类型的数据之间进行转换。

当然,你可以猜到,刚才的定义这是 ChatGPT 告诉我的。

最早展现出多模态能力的,是 OpenAI 。还记得 GPT-4 发布会上,CTO 做的这个演示吗?

你只需在纸上画个草图,GPT-4 就可以把它作为原型变成实际的网页应用。

可是,从 GPT-4 发布,至今已经过去了 4 个月。GPT-4 Plus 用户一直在问;

多模态在哪里啊?

也正因如此, Bard 的多模态功能,一下子激发了人们的想象力。

官方的描述是这样的:

一石激起千层浪。有人 在博客上宣传。

还有人 用 Twitter Threads 来吆喝。

很多人的想法是,既然 Bard 是 Google 推出的大语言模型。以 Google 掌握数据之全面,技术能力之强悍,想必集成了多模态之后,草图变实际应用这样的事儿都会不在话下。

其实,这次的更新,还远远不止这些呢。

解除语言限制

Google 在同一天的更新日志里,还提到了更多语言的支持,例如中文。

想想看,一个完整的多模态大语言模型,又认识了中文,这该是多么美好的场景啊。有了它,还学什么前端,学什么数据分析。直接把要借 (chao) 鉴 (xi) 的内容发给它,然后等着它复现出一个自己的版本,不就完了?

然而,我并不想你也跟着人云亦云,陷入狂热。咱们用实际的例子,来看看 Bard 的多模态和多语言支持,究竟怎么样吧。我这里给你演示以下的几个测试。分别包括图片解读,应用复刻,以及统计图表的复现。

Keep reading with a 7-day free trial

Subscribe to Shuyi’s Newsletter to keep reading this post and get 7 days of free access to the full post archives.

Already a paid subscriber? Sign in
© 2025 Wang Shuyi
Privacy ∙ Terms ∙ Collection notice
Start writingGet the app
Substack is the home for great culture

Share