使用ChatGPT会导致参差不齐的有用的信息和荒谬的答案,因此很难评估聊天机器人的整体性能。和企业所生产的生成人工智能工具,包括OpenAI、谷歌和微软秘密他们使用的数据和他们的人工智能模型真正是如何工作的。
如何测试聊天机器人吗
更多地了解生成人工智能工具,加州大学伯克利分校成立了一个名为大型模型系统组织(LMSYS组织(在一个新窗口打开)),与加州大学圣地亚哥分校(UCSD)和卡内基梅隆大学(结算)。它由10个学生和四个教员在人工智能的研究和计算机科学部门。LMSYS组织创造了一个实验,“聊天机器人领域,”一个定制的网站,任何人都可以匿名聊天两个模型。
一旦用户已经形成一个聊天机器人的答案他们喜欢的意见,之后他们投票给最喜欢的,只有找出哪些模型他们说话。该网站使用相同的大型语言模型(llm)权力收回ChatGPT和其他人并llm的新接口,因为公司OpenAI等让他们公开可用。由个人创建的网站还包含较小的模型。
“我们开始这个,因为我们创造了我们自己的人工智能模型基于元模型4月的骆驼,[我们]叫骆马,和我们想训练不同版本迭代,”说郝张(在一个新窗口打开),一位联席加州大学圣地亚哥分校的教授工作。人类偏好“主要措施,它能够按照指令和人类想要完成一项任务,这是一个非常重要的因素在模型有用。”
集团稳步增加更多的领域模型,自4月份以来,约有40000人参加,张医生说。
聊天机器人领域
我们尝试下面的聊天机器人领域,。不知道这对我们两个人工智能模型页面选择比较,我们让两个“起草一封电子邮件,我告诉他们我的家人已为感恩节,订了航班到达11月22日,11月30日。”Each generated a suggested email. We selected Model B as the preferred option.
然后,页面显示模型B是克劳德,一个人工智能助理了人为(在一个新窗口打开)。模型被称为gpt4all-13b-snoozy(在一个新窗口打开),由经济的人工智能(在一个新窗口打开)。
网站考虑到每个用户的投票来创建一个评级使用值得信赖的系统,这“是一个广泛使用的评级系统在国际象棋和其他竞争的游戏,“LMSYS Org博客(在一个新窗口打开)说。
“我见过这个排行榜发布在多个尊重研究网站,“费德里科•帕斯卡说,曾在拥抱的脸,维护自己的定制的人工智能模型的排行榜(在一个新窗口打开)。“这是一个活跃的研究领域,人们如何评估这些模型。在三个月或六个月,(Chatbot竞技场排行榜)可能看起来不同。”
最后的冠军是…
ChatGPT最先进的模型,GPT-4,目前排在1225年与值得信赖的评级。它的可用ChatGPT +帐户(每月20美元)。接下来,两个版本的克劳德,由人为,排名第二(1195)和第三(1153)。克劳德目前可以通过一个候补名单;我们可以在几周内开始使用它。
ChatGPT的免费版本是第四,其模型,gpt - 3.5 (1143)。OpenAI建议gpt - 3.5对于大多数日常任务,因为它运行速度比GPT-4和仍然是非常强大的。出于这个原因,也可以在付费版本。但值得注意的是,微软的新Bing人工智能搜索,这是免费的,也运行在GPT-4(在一个新窗口打开)。
GPT-4和gpt - 3.5顶部的排名,和克劳德是仅仅ChatGPT和微软必应是当前最喜欢最容易。
谷歌背后的模型吟游诗人,手掌2,排名第六(1042)。张指出,谷歌棕榈的多个版本2,和他没有证实,该模型在聊天机器人领域是背后的一个吟游诗人一样。张已达到谷歌但说,“他们很神秘”和不愿证实。另外,章子怡的团队相比版本在聊天机器人领域与谷歌巴德,证实了它是“至少非常接近一个人可以访问在吟游诗人,“如果不是相同的。
推特(在一个新窗口打开)
人工智能的担忧
从他所有的工作与llm,张已经确定了几个担忧他们的广泛应用。他同意OpenAI首席执行官Sam Altman Elon Musk,比尔•盖茨(Bill Gates)以及其他呼吁更AI的监管。
具体地说,张认为两个问题需要更多的关注。首先是数据隐私,这些模型能够刮web和蒸馏数据转换成有用的信息比之前的东西。另一个问题是保持权力模型的数据高质量和有帮助的。如果人工智能模型可以生成自己的内容使用web上可用,张认为不会有激励人类创造新的,更好的内容。
“这些大型语言模型依赖于高质量的内容,这是由人类,”他说。“如果他们不鼓励人们创造良好的材料,你怎么能保证他们将改善生活的质量?”