罗森博格指出,在不久的将来,人工智能助手将会在你耳中安家,窃窃私语,时时为你的日常生活提供帮助。它将积极参与你生活的方方面面,当你在拥挤的商店中浏览货架上的商品时,或是带孩子去看儿科医生时,即使是在自家私密空间从橱柜里拿块点心时——人工智能助手都会提供有益的信息。它将调解你的所有经历,包括你跟朋友、亲戚、同事及陌生人的社交。

当然, 调解 这个词是个委婉的说法,即表示允许人工智能影响你的言行、思考和感受。许多人会觉得这个概念令人毛骨悚然。然而,作为一个社会,我们会接受这项技术进入我们的生活,允许自己不断地受到友善声音的指导,这些声音以高超的技巧告知并指导我们。不久人们就会知道,我们的生活将会很难离开这些实时帮助。

当使用 AI 助手 这个短语时,大多数人会想到像 Siri 或 Alexa 这样的老式工具——它们允许用口头指令发出简单要求。但这不是正确的思维模式。因为下一代人工智能助手将包括一种改变一切的新成分——语境感知。

这种附加性能使系统不仅能够对你说的话做出反应,还能对你当前所经历的周围景象和声音做出反应,这些景象和声音由你佩戴在身上的人工智能设备的摄像头和麦克风捕获。

不管你是否期待,语境感知 AI 助手都将在 2024 年进入社会,它们会在短短几年内显著改变我们的世界。它们会释放出强大的能量,并伴随着对个人隐私和人事代理的大量新风险。

从积极方面来看,无论你走到哪里,这些人工智能助手都会提供有价值的信息,跟你正在做的、说的或看的任何内容精确协调。指导被如此顺畅而自然地传递,感觉就像是一种超能力。一个声音无所不知,在你脑海中盘踞:从商店橱窗里的产品规格,到你在徒步旅行中遇到的植物名称,再到你能用冰箱里散落的食材制作出美味佳肴。

从消极方面来看,这种无处不在的声音可能具有很强的甚至是操纵性的说服力。因为它可以帮助你完成日常活动,特别是如果公司使用这些值得信赖的 AI 助手来部署有针对性的对话广告。

人工智能操纵的风险是可以减轻的,但需要决策者专注于这个关键问题。然而,到目前为止,这一问题基本被忽略了。当然,监管机构没有太多时间,这种使语境感知 AI 助手能够用于主流用途的技术,至今问世还不到一年。

语境感知 AI 助手是一种多模态大型语言模型——一种新的 LLM(Large Language Model)。它不仅可以接受文本提示,还可以接受图像、音频和视频的输入。这是一个巨大进步:多模态模型一下子赋予 AI 系统自己的眼睛和耳朵,该系统将利用这些感觉器官来评估我们周围的世界,实时提供指导。

第一个主流多模态模型是 ChatGPT-4,由 OpenAI 在 2023 年 3 月发布。最近进入这一领域的大厂是谷歌,几周前它宣布了 Gemini LLM。

罗森博格认为最有趣的模型来自 Meta。这个名为 AnyMAL 的多模态 LLM,还带有运动提示。该模型超越了眼睛和耳朵,增加了前庭的运动感。这可以用来创建一个人工智能助手,它不仅能看到和听到你所经历的一切,还会考虑你身体的运动状态。

随着这种人工智能技术现在可供消费者使用,公司正急于将它们构建到可以指导您完成日常互动的系统中。这意味着将摄像机、麦克风和移动运动传感器放在你的身上,以便为 AI 模型提供信息,并允许它在你生活的方方面面提供语境感知帮助。

放置这些传感器最自然的地方是眼镜,因为这样可以确保摄像头朝向人注视的方向。眼镜(或耳机)上的立体声麦克风还能以空间保真捕捉声景,使人工智能能够知道声音的来源——比如是吠叫的狗、鸣笛的汽车还是哭泣的孩子。

在罗森博格看来,目前引领该领域产品发展的公司是 Meta。两个月前,他们开始销售新版 Ray-Ban 智能眼镜,该眼镜配置了高级 AI 模型。他说自己一直在跟踪的一个大问题——就是 Meta 何时会推出提供语境感知 AI 助手所需的软件。

现在这不再是一个未知数。去年 12 月 12 日,他们开始提供对 AI 的早期访问,其中包括一些非凡的功能。在发布的视频中,马克 · 扎克伯格要求 AI 助手为他正在看的衬衫搭配一条裤子,AI 助手非常熟练地给出了答案。其他类似的指导 AI 助手也能提供,像在烹饪、购物、旅行以及社交活动时。而且,援助将是语境感知的。比如,当你路过宠物店,AI 助手会提醒你购买。

另一家进入这一领域的知名公司是 Humane,它开发了一种带有摄像头和麦克风的可穿戴徽章。他们的设备将于 2024 年初开始发货,可能会激起铁杆技术粉的想象力。

罗森博格认为,眼镜上的传感器比戴在身上的传感器更有效,因为它们可以发现用户看着的方向,并且能为视线添加视觉元素。这些元素在今天还只是简单的叠加,但在未来五年内,它们将会成为丰富而沉浸式的混合现实体验。

不管这些语境感知 AI 助手是否由带传感器的眼镜、耳机或徽章实现,它们都将在未来几年内被广泛采用。因为它们性能强大,可以提供从外语实时翻译到历史知识等各种帮助。

而最重要的是,这些设备将在社交互动中提供实时帮助,提醒我们在街上遇到的同事的名字,在谈话停顿时建议我们说些有趣的事情。甚至可以根据交谈者的微妙面部表情或声音线索,在他感到恼火或无聊时及时警告我们。

窃窃私语的人工智能助手会让每个人看起来更迷人、更聪明、更具社会意识,并可能更有说服力,因为它们实时指导我们。而且,这将成为一场 军备竞赛 ,助手们努力给我们提供优势,以保护我们免受他人影响。

作为研究人工智能和混合现实影响的终身研究者,几十年来罗森博格一直担心对话影响的风险。为了提高人们的认识,几年前,他发表了一篇名为《碳约会》的短篇小说,写一个虚构的人工智能,在人的耳边不断低声说着建议。

在故事中,一对老年人第一次约会,两人完全按人工智能指导说话。这也许是两个数字助理的求爱仪式,而不是两个人,但这种具有讽刺意味的场景可能很快就会变得司空见惯。

当然,最大的风险不是当我们与朋友、家人和恋人聊天时,人工智能助手会插嘴。最大的风险是企业或政府实体如何注入自己的议程,实现强大的对话影响形式,以人工智能生成的定制内容为目标,最大限度地发挥其对每个人的影响。为了让公众了解这些被操纵的风险,负责任的元宇宙联盟最近发布了《隐私丢失》(Privacy Lost ,2023) ,这是一部关于人工智能操纵风险的短片。

对于很多人来说,允许人工智能助手在他们耳边窃窃私语,是他们打算避免的令人毛骨悚然的情况。问题是,一旦绝大多数用户接受了强大的人工智能工具指导,我们这些拒绝这一工具的人将处于劣势。

事实上,人工智能指导可能会成为生活中基本社交规范的一部分。你遇到的每个人都希望你在进行对话时,实时获得有关他们的信息。问别人以什么谋生或在哪里长大,可能会变得很不礼貌,因为这些信息只会出现在你的眼镜里或在你耳边低语。

而且,当你说出一些聪明或深刻的话语,没有人知道你是自己想出来的,还是只是在大脑中鹦鹉学舌地模仿人工智能助手。事实是,我们正在走向一个新的社会秩序,在这个秩序中,我们不仅受到人工智能的影响,而且通过企业提供的人工智能工具有效地增强了我们的心理和社交能力。

罗森博格把这种技术趋势称为 增强智力 (augmented mentality)。他认为这是不可避免的,不过还需更多时间,才能让人工智能产品,完全可以用于指导日常思维和行为。然而,随着语境感知 LLM 的最新进展,目前不再存在很大的技术障碍。

即将到来的可能是一场 军备 竞赛。在这场竞赛中,大型科技公司的巨头们将争夺谁能把最强大的人工智能指导输入你的眼睛和耳朵的话语权。然而,这种企业推动可能会在那些买得起智能增强工具的人和买不起的人之间造成危险的数字鸿沟。更糟糕的是,那些负担不起订阅费的人,可能会接受由声势浩大的人工智能对话影响力所提供的赞助广告。

罗森博格指出,我们即将生活在一个公司真的可以将影响我们行为和看法的声音放进我们头脑中的世界。这就是人工智能操纵的问题——它是如此令人担忧。我们迫切需要对人工智能系统进行积极的监管,因为这些系统可以实时围绕单个用户实施 闭环 ,在传递定制影响的同时感知我们的个人行为。

不幸的是,白宫最近的关于人工智能的行政命令并没有涉及这个问题,而欧盟最近的人工智能法案只是一带而过地触及了它。然而,旨在指导我们一生的消费电子产品马上就要充斥整个市场。

最后,他警告道: 随着我们进入 2024 年,我真诚地希望世界各国的政策制定者聚焦人工智能驱动的对话影响的罕见风险,特别是语境感知 AI 助手的操纵。如果他们深思熟虑地解决这些问题,消费者就可以从人工智能的指导中受益,而不会使社会滑向危险的境地。现在是采取行动的时候了。

希望罗森博格的警告能引起各国当政者重视,并积极采取行动。也希望语境感知 AI 助手在增强人类智力的同时,能够避免可能给人类带来的灾祸。