Google I/O 2023 总结(AI 部分)

2023/05/11 AI 共 3932 字,约 12 分钟

文章总览

北京时间 2023 年 5 月 11 日凌晨 01:00,Google I/O 2023 大会如期而至。

Google I/O 2023

Google I/O 2023

Google I/O 2023 的口号:Making AI helpful for everyone,如下图所示:

Google I/O 2023 的产品总览如下图所示:

Google I/O 2023 的产品总览图

PaLM 2

在 I/O 之前,关于谷歌最新模型的消息就陆续传出。此前支持 Bard 的模型是一个轻量级的对话模型 LamDA,Pichai 在三月份采访中就表示,将把背后的模型升级为更大规模的 PaLM 模型。

I/O 2023 上,最新最强的 PaLM 2 终于露出了庐山真面目。PaLM 2 是 PaLM 的升级版。PaLM 2 在数学、编码、推理、多语言翻译和自然语言生成上的表现都更加出色。

  • PaLM 是谷歌于 2022 年 4 月份推出的大语言模型,有 5400 亿参数。这次介绍的 PaLM2 是在此基础上的升级版。PaLM 是 Pathways Language Model 缩写。可以理解为,在 Pathway 架构上训练的模型。

  • Jeff Dean 曾经专门撰文介绍 Pathway 架构,这个架构是为了可以处理多任务的通用模型而设计,采用了一种新的异步分布式数据流,这使得并行计算和运行更加高效。Pathways 还可以支持包含视觉、听觉和语言理解的多模态模型。

PaLM 2 使用谷歌自主研发的 TPU 进行计算,具体使用了多少算力计算 PaLM 2 目前尚未公布,但可以参考训练 PaLM1 的数据,使用了 6144 块 TPU。使用谷歌最新的 TPU 架构来训练模型,意味着在基础工程上,谷歌进行了整合计算、优化缩放、改善数据集组合和模型架构等各项工作,这些也能够使得模型能力灵活被调用进各种产品、服务中。谷歌能够将模型的能力按照需求进行蒸馏和提炼。

PaLM 2 论文地址

PaLM 2 paper

为了让模型的能力更灵活地服务于产品,Pichai 特地强调,PaLM 2 有四种不同的尺寸,分别以动物的名称命名:壁虎、水獭、野牛和独角兽,其中壁虎(Gecko)最轻量级的版本。如下图所示:

PaLM 2 四种规模的模型-1

PaLM 2 四种规模的模型-2

细节

参考:

在 Google I/O 2023 大会上,谷歌并没有给出有关 PaLM 2 的具体技术细节,只说明了它是构建在谷歌最新 JAX 和 TPU v4 之上。

不过,在 5 月 18 号,据外媒 CNBC 看到的内部文件称,PaLM 2 是在 3.6 万亿个 token 上训练。作为对比,上代 PaLM 接受了 7800 亿 token 的训练。

此外,谷歌之前表示 PaLM 2 比以前的 LLM 规模更小,这意味着在完成更复杂任务的同时变得更加高效。这一点也在内部文件中得到了验证,PaLM 2 的 训练参数量为 3400 亿,远小于 PaLM 的 5400 亿。

PaLM 2 的训练 token 和参数量与其他家的 LLM 相比如何呢?

  • Meta 在 2 月发布的 LLaMA 接受了 1.4 万亿 token 的训练

  • OpenAI 1750 亿参数的 GPT-3 是在 3000 亿 token 上训练的

PaLM 2 细节爆料

应用场景

目前 PaLM 2 已经渗透到 Google 的各个产品线里,未来实际表现还有待体验,具体场景有:

  • AI 一键 P 图工具 Magic Editor:魔法换天、人物无缝移动

  • 打击 AI 图片造假,推出 图像溯源 功能,例如一张图片曾在网上的其他地方看到过,或者类似图片出现的时间和地点

  • 对标微软 Copilot,谷歌 Workspace 办公套件升级 Duet AI 品牌,也就是加入 AI 之后,挂了个品牌名称,还推出了一项名为 “Sidekick” 的新功能,该功能能够阅读、总结和回答不同谷歌应用程序中的文档问题

    Duet AI

  • 展示了 Project Tailwind 项目,可以认为是经过用户文档训练的 AI 笔记本,定位是个性化导师或写作伴侣

  • 安卓 14 引入 AI 特性:可生成壁纸和信息文本,包括 Magic Compose 和生成式壁纸(Pixel 设备独占),其中 Magic Compose 功能,AI 可以根据消息内容生成回复文本

  • 为安卓开发者推出 AI 编程机器人 Studio Bot,该工具可以生成代码、修复 BUG、以及回答关于安卓应用开发的相关问题, Studio Bot 不会收集开发者的代码,但会收集开发者和 Studio Bot 的对话数据,目前只有 US 可以在 Canary 频道使用。

  • 推出 AI 视频对口型技术:根据翻译语言改变人物说话方式,但不开放使用,只有谷歌授权合作伙伴才能将其用于建设性项目

    AI 视频对口型技术

  • 推出 A3 Virtual Machines 超级计算机:搭载英伟达 H100,可提供 26 exaFlops AI 性能

  • 推出 GameFace 项目,玩家通过面部表情控制 PC 游戏,开源地址:https://github.com/google/project-gameface

  • 有着惊艳语言生成图像能力的 Adobe firefly,在未来几个月将直接集成到 Bard 中。这样在和 Bard 的对话中,就能够直接设计图片。

  • AI 聊天机器人 Bard:新增语言支持、支持将聊天记录导出到 Google Docs 和 Gmail 中,目前取消候补,开放英语版本,引入图像生成服务,改善代码处理等,另外 Bard 现在可以帮助生成、解释和调试 20 多种编程语言的代码。

    Bard 的生态

  • 跟随 Bard 来的还有个 Search Lab,主要是用来做复杂问题的搜索,目前是一个探索性的产品,目前还没有全部开放,它试图帮助人们更好地分析一个复杂、或者有些模糊的问题

Gemini

谷歌还宣布了正在训练的全新基础模型 Gemini,目前正和 DeepMind 联手合作。这是第一个 多模态模型,同样包含了参数大小不同的模型。

更多

直播入口

官方提供的国内直播入口:

大会的网址和相关讨论

往期回顾

Google I/O 2022

  • 新品硬件全家桶:平价手机 Pixel 6a、年度旗舰 Pixel 7/7 Pro、对标 AirPods Pro 的 Pixel Buds Pro、姗姗来迟的首款智能手表 Pixel Watch、短暂亮相的平板 Pixel Tablet、轻轻一瞥即可唤醒的下一代智能音箱 Nest Hub Max、主打实用主义的消费级 AR 眼镜;

  • Google Translate:新增 24 种翻译语言,打破更多人的沟通障碍;

  • Multisearch near me:图片 + 文字的复合检索方式加入地理信息,让搜索结果离你更「近」;

  • Google Maps:新增可在 3D 建模中浏览全球各地实景的 Immersive View,以及帮用户找到最「环境友好」的路线的 Eco-friendly routing;

  • Google Workspace :Google Doc 引入了自动总结功能,让你不再因为冗长的文档而抓狂;

  • Google Assistant:「Look and Talk」结合面部和声音进行用户身份的判断,从而无需唤醒词即可激活 Google Assistant;Quick phrases 则可使用固定短语直接执行特定的指令;

  • LaMDA 2:对话应用语言模型迎来新一轮升级,LaMDA 2 可以理解数百万个话题,并产生「自然对话」,并且不会产生重复;

  • AI Test Kitchen:作为一个由 LaMDA 2 等模型驱动的 AI 演示中心,AI Test Kitchen 可以让用户以有限的方式与模型互动,从而带来一种探索 AI 功能的新方式;

  • Pathways Language Model(PaLM):PaLM 在许多自然语言处理任务上都有着突破性的表现,同时,通过与「思维提示链」(chain-of- thought) 结合,能够大大提高 PaLM 的准确性。此外,PaLM 还可以解决跨语言对话的难题,从而大大提升 Google 搜索和其他工具的易用性。

Google I/O 2021

  • LaMDA:Google 的新语言模型,它可以进行更自然、更深入的对话,并可以适应不同的情境。

  • MUM(Multi-Task Unified Model):这是 Google 推出的一项全新的 AI 功能,可以理解多个语言和多个领域的信息,从而为用户提供更好的搜索结果。

  • Google Maps:Google Maps 增加了一些新功能,包括 Live View 功能的增强版,可提供更精确的导航和 AR 导航,以及与 Google Assistant 的更好集成等。

  • Project Starline:一种全新的视频通话技术,它使用深度学习和 3D 渲染技术,可以在不同的地点创造出逼真的 3D 视频会议效果。

  • TensorFlow:Google 的机器学习框架 TensorFlow 推出了新功能,包括更好的自然语言处理和计算机视觉模型。

  • TPU v4:专为 AI 和机器学习而设计的 AI 芯片 TPU 迎来了第四代,相比三代产品算力提升了一倍。

  • Android 12:最新的 Android 操作系统,它增加了许多新功能,包括更好的隐私保护、更好的通知管理和更好的用户体验。并且支持使用 NFC 或者 UWB 的数字车钥匙。

  • Material You:这是一种全新的设计语言,可以自动调整应用程序的颜色和样式,以适应用户的个性化需求。同时,还提升了系统的流畅度和运行效率。

  • Wear OS 3:由 Google Wear OS 与三星 Tizen 联手成立的新平台,对电池续航、app 加载速度、动画流畅度等进行了全方位优化,同时降低了开发者的工作量。

  • 皮肤病辅助工具:利用摄像头拍摄皮肤、头发或者指甲的照片,并回答几个问题,就能给出诊断的结果。

参考

文档信息

-->

Search

    Table of Contents