站长之家() 12 月 8 日消息: 刚刚宣布了其迄今为止最强大的 AI 模型套件 ,但该公司已被指控在其宣传视频中对其性能进行了误导性表述。

谷歌大模型Gemini

根据彭博社专栏作家帕尔米·奥尔森(Parmy Olson)的观点文章, 在一段视频中误导了公众对 的理解。本周早些时候, 在宣布过程中播放了一段令人印象深刻的名为「what the quack」的操作视频,奥尔森在文章中指出,视频中展示的 似乎极具能力,甚至可能过于强大。

这段六分钟的视频展示了 的多模态能力(例如,结合语音会话提示和图像识别)。视频中, 似乎能快速识别图像——甚至是连线画——在几秒内作出反应,并实时追踪杯子和纸球游戏中的纸团。虽然人类可以做到这一切,但这是一种能够识别和预测接下来会发生什么的 AI。

然而,如果点击 上该视频的描述, 有一个重要的声明:

「出于本演示的目的,延迟已减少,并且为了简洁起见, 输出也已缩短。」

奥尔森对此表示不满。她在彭博社的文章中指出, 在被要求评论时承认,视频演示并非实时进行,而是使用了原始视频的静态图像帧,然后撰写了文本提示供 回应。奥尔森写道:「这与 似乎在暗示的内容大相径庭:一个人可以与 顺畅地进行语音对话,同时 实时观察并回应周围的世界。」

公平地说,公司经常编辑演示视频,特别是许多公司希望避免实时演示带来的技术故障。稍微调整演示是常见的。但 有可疑视频演示的历史。人们曾怀疑 的 演示(记得 吗,那个能打电话给美发沙龙和餐厅预订的 AI 语音助手?)是否真实,因为视频中明显缺乏环境噪音和过于乐于助人的员工。对 AI 模型的预录制视频也使人们更加怀疑。

在这种情况下,奥尔森表示, 是在「炫耀」,以转移人们对 落后于 的 GPT 的事实的注意力。

对此表示不同意。在被问及演示的有效性时,它指向了 的研究副总裁兼深度学习负责人(同时也是 联合负责人)奥里奥尔·维尼亚尔斯(Oriol )的一篇帖子,该帖子解释了团队是如何制作视频的。

维尼亚尔斯说:「视频中的所有用户提示和输出都是真实的,为了简洁而缩短。视频展示了使用 构建的多模式用户体验可能的样子。我们制作它是为了激发开发者的灵感。」

他补充说,团队向 提供了图像和文本,并要求它通过预测接下来会发生什么来作出回应。

这当然是处理这种情况的一种方式,但对于 来说,这可能不是正确的选择——至少在公众眼中, 已经因 今年取得的巨大成功而显得措手不及。如果它想激发开发者的灵感,不是通过精心编辑的炫目短片,这些短片可能会误导 AI 的能力。而是通过让记者和开发者真正体验产品。让人们在小型公开测试版中与 一起做蠢事。向我们展示它到底有多强大。

———END———
限 时 特 惠: 本站每日持续更新海量各大内部创业教程,永久会员只需109元,全站资源免费下载 点击查看详情
站 长 微 信: nanadh666

声明:1、本内容转载于网络,版权归原作者所有!2、本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。3、本内容若侵犯到你的版权利益,请联系我们,会尽快给予删除处理!