图形界面交互的「AI 专家团队」好用吗？AutoGen Studio 尝试

「三个臭皮匠」，能否自动化你的复杂工作流？

Wang Shuyi

Feb 04, 2024

∙ Paid

需求

之前在这段视频里我为你介绍过 AutoGen 这个微软推出的 AI 框架。下图反复出现在 AutoGen 的论文与官方博客里，可以说是非常经典了。

我们把其中的文字翻译出来，就是：

AutoGen 是一个框架，它允许使用多个能够相互对话以解决任务的代理来开发 LLM 应用程序。AutoGen 代理是可定制的、可对话的，并且无缝地允许人类参与。它们可以在不同的模式下运行，这些模式采用了 LLM、人类输入和工具的组合。

我之前尝试过用它来进行论文的获取，并且形成产品创意。咱们这里先简要回顾一下。这是当时获取到的一篇相关文献检索结果。

还是（用 GPT-4）翻译一下吧：

标题：GPT-4 作为农学助理？使用大型语言模型回答农业考试题
作者：Bruno Silva, Leonardo Nunes, Roberto Estevão, Vijay Aski, Ranveer Chandra
摘要：大型语言模型（LLMs）在自然语言理解方面展现出了显著的能力，涵盖了包括医疗保健和金融在内的各个领域。对于某些任务，LLMs达到了与受过训练的人类相似或更好的表现，因此，使用人类考试（例如，认证测试）来评估LLMs的性能是合理的。我们对流行的LLMs进行了全面评估，例如Llama 2和GPT，以及它们回答与农业相关问题的能力。在我们的评估中，我们还采用了RAG（检索增强生成）和ER（集成精炼）技术，这些技术结合了信息检索、生成能力和提示策略，以提高LLMs的性能。为了展示LLMs的能力，我们选择了来自三个最大的农业生产国家——巴西、印度和美国的农业考试和基准数据集。我们的分析突出了GPT-4在考试中获得及格分以更新农学认证的能力，正确回答了93%的问题，并且表现优于早期的通用模型，后者的准确率为88%。在我们的一个实验中，与人类受试者相比，GPT-4获得了最高的表现。这种表现表明，GPT-4可能有能力通过主要的研究生教育入学考试，甚至获得更新农学证书的学分。我们还探讨了模型处理一般农业相关问题和为巴西和印度农民生成作物管理指南的能力，利用来自巴西农业局（Embrapa）的强大数据集和印度研究生项目考试。结果表明，GPT-4、ER和RAG可以有意义地贡献于农业教育、评估和作物管理实践，为农民和农业专业人士提供宝贵的见解。

这些结果，交给下一阶段的 AI ，也就是「产品经理」，下面是最终获得的产品创意建议结果：

翻译过来就是：

不错吧？它是怎么实现的呢？

在当时，你需要像这样通过编程来定义几个不同的 AI agent ，包括它们的模型和「能力」描述。

在上面的代码中，一共中定义了 3 个 AI agent 角色，分别是：

user_proxy ，你的「替身」，替你发号施令；
coder ，程序员，会编程；
pm ，产品经历，负责根据论文信息，来提出产品创意。

3 个不同角色的 AI ，都用 GPT-4 驱动，相互配合，为我们提供 AI 群体智慧带来的优质服务。

我当时试用过后，得出的结论是 Autogen 前景广阔。至少在目前阶段，它解决了用户要解决问题的综合性，与 LLM 专业能力单一之间的矛盾；换句话说，就是 GPT-4 虽然厉害，但是它配合指定的 Tools 工作的时候，往往比较轴。如果你尝试过 GPT-4 的 Code Interpreter 模式来分析论文就会发现，我原本只是让它对论文内容进行分段，然后用 GPT-4 自带能力来总结提炼要点。但 Code Interpreter 居然试图编写 Python 源代码，来进行论文的分析。调用的是 NLTK 这样的工具包，简直是拿着弓箭走上现代战场。

而 AutoGen 呢？它通过让具备单一能力的 AI 以团队方式配合起来，达成 1+1>2 的效果。俗称「三个臭皮匠，顶个诸葛亮」；并且，AutoGen 实现了 human-in-the-loop，让人与机器真正能够配合起来。机器能做的事情，放心交给机器做；机器做不了的，人才在必要情况下介入干预，从而提升效率，降低人类的机械操劳程度。

不过，当时我就提出，AutoGen 是有一些问题的。

首先，你看到了，当时 AutoGen 得在命令行方式下运行，因此对于用户的能力还是有一些门槛的。一些小伙伴看见代码就头疼，显然无法从利用 Autogen 中获益。

我当时参考了官方提供的若干 Google Colab Notebook 样例，然后撰写了一份本地源代码。

可惜运行这些代码的过程同样一波三折。好容易真正运行起来之后，Autogen 的效果也不够稳定。有的时候，coder 提供的初始代码设计错误，直接就无法完成目标，却无端浪费大量的对话。对 GPT-4 模型来说，每一次对话都意味着金钱的耗费，可让人心疼了。

我当时的处理方法，是学会不断保存成功执行部分的中间结果作为缓存，然后用自然语言方式提供给「聊天」。这种方法很管用，可问题是它降低了原本我们追求的自动化程度，因此用起来也很不方便。

现在随着 AutoGen 推出了 Studio ，你使用起来再也不需要这么麻烦了。它号称可以让用户用图形界面构建自己的 AI 团队，在工作流上协作来完成任务。

今天这篇文章，我就给你演示一下实际使用 AutoGen Studio 的效果。

安装

首先，我们需要安装 Autogen Studio 2.0 。为了避免不同 Python 软件包之间发生依赖版本冲突，咱们最好给它建立一个独立的虚拟环境，叫做 ag ，也就是 Autogen 的简写形式。

conda create -n ag python=3.11

Anaconda 会提示你，需要安装下列软件包，是否继续？你回车即可。

当你看到下面信息的时候，证明虚拟环境的安装工作就完成了。

下面，让我们用 conda activate 命令激活这个虚拟环境。

conda activate ag

激活这个虚拟环境后，咱们安装 Autogen Studio。

pip install autogenstudio

Python 包安装工具 pip 于是就忙活开了。

很快安装完毕，安装软件包数量还真不少。

这里的依赖包括了 arxiv ，对于学术用户，特别是计算机和数据科学类科研工作者来说应该不陌生。

如果你需要使用 OpenAI 的 GPT-4 模型，请执行下面这句：

Keep reading with a 7-day free trial

Subscribe to Shuyi’s Newsletter to keep reading this post and get 7 days of free access to the full post archives.