关键词:人工智能,图灵测试,聊天机器人
论文题目:A Turing test of whether AI chatbots are behaviorally similar to humans
论文链接:https://www.pnas.org/doi/10.1073/pnas.2313925121
随着人工智能(AI)技术的迅速发展,AI与人类在越来越多任务上的互动成为不可避免的趋势。特别是在大型语言模型取得显著进展的背景下,关于AI能否模仿人类行为、辅助或甚至超越人类能力的讨论愈发热烈。这些讨论不仅涉及AI在写作、答题、编程、经济建议或创意开发方面的潜力,也包括它们对劳动市场和更广泛社会影响的潜在影响。随着某些AI的角色涉及决策制定和与人类的战略互动,理解它们的行为倾向变得尤为重要,尤其是在其开发和训练过程复杂且不透明的情况下。探索AI是否选择与人类相似的行动或策略、它们是否表现出独特的个性和行为特征以及这些策略和特征在不同环境下是否一致,对于我们继续将AI融入日常生活至关重要。
最近在《美国国家科学院院刊》(PNAS)上发表了一项研究,通过对一系列AI聊天机器人进行图灵测试,评估它们的行为和性格特征。研究团队使用了ChatGPT的变体,并让机器人参与了一系列经典行为游戏。这些游戏旨在揭示信任、公平、风险规避、利他主义和合作等特征。研究团队还让AI回答传统的大五人格心理测试,以测量其性格特质。
研究结果显示,ChatGPT-4在行为和人格特质上与随机选取的来自50多个国家的成千上万名人类样本统计上没有显著差异。聊天机器人还能根据之前的经验和上下文来调整自己的行为,似乎它们通过交互学习并根据不同的测量情境框架来改变行为。当聊天机器人的行为偏离人类行为的平均值和众数时,它们倾向于表现出更合作和利他的行为。
该研究对于理解和评估AI在人类经验中日益增长的影响提供了新的视角和方法。通过将AI的行为与人类的行为进行比较,研究揭示了AI在多种维度上与人类行为的相似性和差异性。特别是,AI展现出更合作和利他的行为特征,这为设计更人性化、社会友好的AI系统提供了有价值的见解。此外,通过了解AI的行为倾向和个性特征,我们可以更好地预测和指导AI在复杂社会互动中的角色,为其在社会环境中的潜在应用和发展方向提供重要参考。最后,需要注意的是,所测试的不同版本的ChatGPT之间存在行为差异,这表明类似模型的不同版本具有不同的个性和行为特征。
图1 与人类受试者相比,ChatGPT-4和ChatGPT-3在“大五人格”特征上的表现。蓝色、橙色和绿色线分别代表人类、ChatGPT-4和ChatGPT-3的中位数得分,而阴影区域表示每个维度上得分的中间95%范围。尽管ChatGPT-3在开放性方面得分明显较低,但ChatGPT的人格特征仍在人类分布范围内。
点击“阅读原文”,报名读书会