谷歌现在吟游诗人是30%更擅长数学,但统计基本上是无意义的|发贴

谷歌吟游诗人现在可以解决基于逻辑的数学应用题和精度高30%,该公司本周宣布。这是一个令人印象深刻的成就,但新闻强调谷歌的能力来衡量模型的弱点,及其选择保持数据模型的“教练”——公众。

如何准确的吟游诗人的数学答案当人工智能聊天机器人亮相?他们能有多好呢?在其他科目可能是不明智的吟游诗人所说的是事实吗?

推特(在一个新窗口打开)

“我们的新方法允许巴德生成和执行代码提高推理和数学能力,”杰克,杰哈卡胡奇产品铅吟游诗人,和Amarnag Subramanya,工程副总裁,在周三写道博客(在一个新窗口打开)。“到目前为止,我们已经看到这个方法提高吟游诗人的响应计算词的准确性和数学问题在我们的数据集的内部挑战大约30%。”

第一部分的宣布棕榈2巴德,模型上运行,现在可以编写和运行自己的代码可能使人联想到未来的电脑收购,但是让我们把它放在一边。下半年宣布,谷歌承认其数学模型以前低于平均水平,这引起了我的注意。

我花了时间试图评估答案由ChatGPT,吟游诗人,必应。当我们审查手机或电脑在个人电脑,我们问这样的问题:“什么最新的iPhone上相机的质量?惠普笔记本电脑提供多少存储?”But the chatbot industry is so nascent it has not rallied around standardized specs. How do you evaluate these black box systems when我们知道很少他们呢?

必应的人工智能搜索包括引用的列表和句子归因于每个。(来源:Bing /艾米丽Dreibelbis)

准确性是最重要的规范,这是所有三个主要的人工智能聊天机器人纠结。这将是有益的,如果他们在一个准确性或信心得分responses-something像“76%精度估计。”ChatGPT和Bard may want to take a page from Bing on citing sources, too.

从人工智能开发人员自己在缺乏信息,出现了独立的努力,测量精度。一个工具,是由一群学生和老师在4月,加州大学伯克利分校收集成千上万的意见chatbot反应的质量。然后分配每个模型评级使用值得信赖的系统(在一个新窗口打开)该组织说,这是“一个广泛使用的评级系统在国际象棋和其他竞争游戏。”

任何人都可以参与,加入他们网站的聊天机器人领域,在“用户可以聊天并排两个匿名模型和投票给哪一个更好,”该网站说(在一个新窗口打开)。通过这种方法,排名高于吟游诗人的(见ChatGPT的模式排行榜(在一个新窗口打开))。这是一个有趣的工作,可以收集广泛的意见,但它仍然是表面。

南瓜错误信息或保护商业秘密?

每个公司保持一定的指标接近背心,但错误的威胁使这超过一个简单的保护商业秘密的案件。

我们推荐的编辑

ChatGPT是什么?一个基本的讲解员

谷歌翻译与ChatGPT:哪一个是最好的语言翻译吗?

ChatGPT插件是什么?下一阶段的对话AI在这里

Kent Walker、全球事务的总裁和首席法律官谷歌和字母,指出上个月(在一个新窗口打开):“如果不是负责任地开发和部署,人工智能系统可以扩大当前的社会问题,如错误信息。没有信任和信心在人工智能系统中,企业和消费者会犹豫是否要采用人工智能,限制他们的机会捕捉艾未未的好处。”

这些风险可能谷歌已经被吟游诗人的一个原因,因为它作为一个实验推出了今年2月,一个徽章今天仍然穿着。但是它越来越感觉远离实验。上个月,谷歌宣布它最终将更新主Google.com搜索页面功能AI-generated段落,一个beta版本是可用的测试了。

目前谷歌巴德接口(信贷:谷歌/艾米丽Dreibelbis)

谷歌,就像OpenAI,鼓励尽可能多的人使用吟游诗人。用户越多越好,通过一个称为强化学习的概念与人类反馈(RLHF)。但是没有合法的信息对模型的性能,这是多么有用的建议吗?早期采用者获得直觉使它们问题答案的准确性,但没有去除了一个小页面的底部免责声明:“吟游诗人可能显示不准确或攻击性的信息并不代表谷歌的观点。”

发布的准确性AI-generated答案看似彻底转变我们今天,但它反映了信息谷歌已经私下措施;公众并不是捆绑在一起。随着诗人使用增加,是时候真正了解这种所谓的实验。

What's New Now<\/strong> to get our top stories delivered to your inbox every morning.","first_published_at":"2021-09-30T21:30:40.000000Z","published_at":"2022-08-31T18:35:24.000000Z","last_published_at":"2022-08-31T18:35:20.000000Z","created_at":null,"updated_at":"2022-08-31T18:35:24.000000Z"})" x-show="showEmailSignUp()" class="rounded bg-gray-lightest text-center md:px-32 md:py-8 p-4 mt-8 container-xs">

让我们最好的故事!

报名参加现在的新让我们每天早晨故事发送到你的收件箱。

本通讯可能包含广告、交易或附属链接。订阅简报表明你同意我们使用条款和隐私政策。你可以随时退订的时事通讯。beplay体育苹果下载

感谢报名!

你的预订已经确认。留意你的收件箱!

报名参加其他通讯beplay体育苹果下载

谷歌现在吟游诗人是30%更擅长数学,但统计基本上是没有意义的

南瓜错误信息或保护商业秘密?

我们推荐的编辑

让我们最好的故事!

AMAZON PRIME天交易&更多

深入与相关的故事

你会喜欢的个人故事

对艾米丽Dreibelbis

记者

从艾米丽Dreibelbis读取最新的