MIT Technology Review的《下一步是什么》系列跨越行业、趋势和技术,为您提供未来的第一眼。
去年这个时候,我们做了一件鲁莽的事情。在一个永不停歇的行业中,我们尝试预测未来。
我们做得怎么样?我们对2023年的四大赌注是:聊天机器人的下一个大事件将是多模态的(确认:目前最强大的大型语言模型,如OpenAI的GPT-4和Google DeepMind的Gemini,可以处理文本、图像和音频);政策制定者将制定严格的新规定(确认:拜登的行政命令在十月出台,欧盟的AI法案在十二月最终达成一致);大型科技公司将受到开源初创公司的压力(半对:开源热潮仍在继续,但像OpenAI和Google DeepMind这样的AI公司仍然抢尽风头);AI将永远改变大型制药公司(尚待观察:AI在药物发现中的革命正在全面展开,但使用AI开发的第一个药物离市场还有几年时间)。
现在我们又要做了。
你有聊天机器人!你也有聊天机器人!在2024年,投资于生成性AI的科技公司将面临压力,需要证明他们能够从产品中赚钱。为了做到这一点,AI巨头谷歌和OpenAI大力押注变小:两者都在开发用户友好的平台,允许人们定制强大的语言模型,并创建满足特定需求的自己的迷你聊天机器人——无需编码技能。两者都推出了基于网络的工具,允许任何人成为生成性AI应用开发者。
在2024年,生成性AI可能实际上对普通非技术人员有用,我们将看到更多的人在摆弄成千上万的小AI模型。最先进的AI模型,如GPT-4和Gemini,是多模态的,意味着它们不仅可以处理文本,还可以处理图像甚至视频。这种新能力可能会解锁一堆新应用。例如,房地产经纪人可以上传以前房源的文本,通过点击按钮微调强大的模型生成类似文本,上传新房源的视频和照片,然后简单地要求定制的AI生成房产描述。
但当然,这个计划的成功取决于这些模型是否可靠地工作。语言模型经常编造东西,生成模型充满了偏见。它们也容易被黑客攻击,特别是如果它们被允许浏览网络。科技公司尚未解决这些问题。当新奇感消失后,他们将不得不为客户提供处理这些问题的方法。
—Melissa Heikkilä
令人惊讶的是,幻想变得熟悉的速度有多快。第一批生成性模型在2022年爆发成为主流——很快变得司空见惯。像OpenAI的DALL-E、Stability AI的Stable Diffusion和Adobe的Firefly这样的工具,用从教皇穿Balenciaga到获奖艺术的一切令人瞠目结舌的图像淹没了互联网。但这并不都是好玩的:对于每一个挥舞彩球的哈巴狗,还有另一件仿制品幻想艺术或性别歧视性刻板印象。
新的前沿是文本到视频。预计它将把文本到图像的所有好的、坏的或丑陋的东西放大。
一年前,我们得到了生成性模型第一次展示时,它们被训练成将多个静态图像拼接成几秒钟长的剪辑的第一次瞥见。结果是扭曲和生硬的。但技术已经迅速改进。
Runway,一家制作生成性视频模型的初创公司(也是Stable Diffusion的共同创造者),每隔几个月就会推出新版本的工具。其最新模型称为Gen-2,仍然只生成几秒钟的视频,但质量惊人。最好的剪辑与皮克斯可能发布的内容相差无几。
Runway设立了一个年度AI电影节,展示实验电影,这些电影是用一系列AI工具制作的。今年的节日有一个60,000美元的奖金池,最佳影片将在纽约和洛杉矶放映。
顶级工作室注意到这一点并不奇怪。包括派拉蒙和迪士尼在内的电影巨头现在正在探索在其生产流程中使用生成性AI。这项技术被用来为演员的表演进行多语言配音的唇同步。它正在重新定义特效的可能性。在2023年,《夺宝奇兵与命运之轮》主演了一个深度伪造的年轻化哈里森·福特。这才只是开始。
在大银幕之外,用于营销或培训目的的深度伪造技术也在起飞。例如,总部位于英国的Synthesia制作的工具可以将演员一次性表演转化为无尽的深度伪造化身,他们可以在按下按钮时背诵您给他们的任何剧本。据该公司称,其技术现在被44%的财富100强公司使用。
能够用这么少的东西做这么多对演员提出了严重的问题。关于工作室对AI的使用和滥用的担忧是去年SAG-AFTRA罢工的核心。但这项技术的真正影响才刚刚开始显现。“电影制作的工艺正在根本性地改变,”独立电影制作人兼创意技术咨询公司Bell & Whistle的联合创始人Souki Mehdaoui说。
—Will Douglas Heaven
如果最近的选举是任何迹象的话,随着创纪录的人数走向2024年的投票站,AI生成的选举虚假信息和深度伪造将成为一个巨大的问题。我们已经看到政治家们在武器化这些工具。在阿根廷,两位总统候选人创建了对手的AI生成图像和视频来攻击他们。在斯洛伐克,一个自由派亲欧洲政党领导人威胁要提高啤酒价格并对儿童色情开玩笑的深度伪造在该国选举期间迅速传播。在美国,唐纳德·特朗普鼓励一个使用AI生成具有种族主义和性别歧视陈词滥调的模因的团体。
虽然很难说这些例子对选举结果有多大影响,但它们的扩散是一个令人担忧的趋势。在网上识别什么是真实的将比以往任何时候都更难。在一个已经激化和两极化的政治氛围中,这可能会产生严重后果。
就在几年前,创建深度伪造还需要高级技术技能,但生成性AI已经使其变得非常简单和易于获取,而且输出内容看起来越来越逼真。即使是声誉良好的来源也可能被AI生成的内容所欺骗。例如,用户提交的AI生成图像声称描绘以色列-加沙危机淹没了像Adobe这样的库存图像市场。
未来一年对于那些打击这种内容扩散的人来说将是关键的。追踪和减轻这种内容的技术仍处于早期阶段。水印,如Google DeepMind的SynthID,仍然主要是自愿的,也不是完全可靠的。社交媒体平台在删除虚假信息方面出了名的慢。准备好进行一场大规模的实时实验,以打击AI生成的假新闻。
—Melissa Heikkilä
受到生成性AI当前繁荣背后的一些核心技术的启发,机器人学家开始构建更通用的机器人,能够执行更广泛的任务。
过去几年的AI已经从使用多个小型模型(每个模型训练来执行不同任务——识别图像、绘制图像、为它们添加标题)转向单一的、庞大的模型,这些模型被训练来完成所有这些事情以及更多。通过向OpenAI的GPT-3展示一些额外的例子(称为微调),研究人员可以训练它解决编程问题、编写电影剧本、通过高中生物学考试等。多模态模型,如GPT-4和Google DeepMind的Gemini,可以解决视觉任务和语言任务。
同样的方法也可以适用于机器人,因此不需要训练一个机器人翻煎饼,另一个开门:一个通用模型可以赋予机器人多任务的能力。2023年出现了几个这方面的工作例子。
六月份,DeepMind发布了Robocat(去年Gato的更新),它通过试错生成自己的数据来学习如何控制许多不同的机器人手臂(而不是更典型的一个特定手臂)。
十月份,该公司又发布了一个用于机器人的通用模型,称为RT-X,以及一个大型新的通用训练数据集,与33所大学实验室合作。其他顶尖研究团队,如加州大学伯克利分校的RAIL(Robotic Artificial Intelligence and Learning),也在研究类似的技术。
问题在于缺乏数据。生成性AI依赖于互联网规模的文本和图像数据集。相比之下,机器人没有太多好的数据来源来帮助他们学习我们希望他们执行的许多工业或家庭任务。
纽约大学的Lerrel Pinto领导的一个团队正在解决这个问题。他和他的同事正在开发技术,让机器人通过试错学习,边走边创造自己的训练数据。在一个更低调的项目中,Pinto招募了志愿者使用安装在垃圾拾取器上的iPhone相机在家中收集视频数据。大型公司也开始在最近几年发布用于训练机器人的大型数据集,如Meta的Ego4D。
这种方法已经在自动驾驶汽车中显示出前景。像Wayve、Waabi和Ghost这样的初创公司正在引领新一代自动驾驶AI,使用单一的大型模型来控制车辆,而不是多个较小的模型来控制特定的驾驶任务。这让小公司赶上了像Cruise和Waymo这样的巨头。Wayve现在正在伦敦狭窄繁忙的街道上测试其无人驾驶汽车。机器人也将得到类似的提升。
—Will Douglas Heaven
请注意,这是文章内容的简要翻译,可能无法涵盖所有细节。如果您需要更多信息或对特定部分有进一步的疑问,请访问原网址。