往事
Bard 推出的时候,让人印象深刻。因为原本大伙儿觉得它能立即和 ChatGPT 分庭抗礼。但是,Bard 正式发布导致 Google 的股价发生了这样的变化。
不过,沉寂许久之后,最近 Bard 似乎又突然成为了很多人的新宠。
因为 Bard 做了两项更新。
更新
多模态
第一项更新,就是多模态。多模态是什么意思呢?
大语言模型的多模态(Multimodal Large Language Models,简称 MLLM)是一种超级智能的人工智能模型,它不仅能理解文本,还能理解各种其他形式的数据,如图像、声音等。例如,它们可以将文本描述转化为图像,回答关于图像的问题,甚至在不同类型的数据之间进行转换。
当然,你可以猜到,刚才的定义这是 ChatGPT 告诉我的。
最早展现出多模态能力的,是 OpenAI 。还记得 GPT-4 发布会上,CTO 做的这个演示吗?
你只需在纸上画个草图,GPT-4 就可以把它作为原型变成实际的网页应用。
可是,从 GPT-4 发布,至今已经过去了 4 个月。GPT-4 Plus 用户一直在问;
多模态在哪里啊?
也正因如此, Bard 的多模态功能,一下子激发了人们的想象力。
官方的描述是这样的:
一石激起千层浪。有人 在博客上宣传。
很多人的想法是,既然 Bard 是 Google 推出的大语言模型。以 Google 掌握数据之全面,技术能力之强悍,想必集成了多模态之后,草图变实际应用这样的事儿都会不在话下。
其实,这次的更新,还远远不止这些呢。
解除语言限制
Google 在同一天的更新日志里,还提到了更多语言的支持,例如中文。
想想看,一个完整的多模态大语言模型,又认识了中文,这该是多么美好的场景啊。有了它,还学什么前端,学什么数据分析。直接把要借 (chao) 鉴 (xi) 的内容发给它,然后等着它复现出一个自己的版本,不就完了?
然而,我并不想你也跟着人云亦云,陷入狂热。咱们用实际的例子,来看看 Bard 的多模态和多语言支持,究竟怎么样吧。我这里给你演示以下的几个测试。分别包括图片解读,应用复刻,以及统计图表的复现。
Keep reading with a 7-day free trial
Subscribe to Shuyi’s Newsletter to keep reading this post and get 7 days of free access to the full post archives.