本文深入解析了图灵测试的原理、内涵演变、测试内容、程序应用、相关争论以及影响评价等方面。图灵测试旨在评估机器是否表现出与人类无法区分的智能行为,通过隔离状态下的对话进行判断。然而,这一测试也引发了众多哲学和伦理问题,对于机器智能的衡量标准仍存在广泛争议。通过深入了解图灵测试的历史背景和应用场景,我们能更好地理解人工智能的发展以及人们对智能的追寻。
中文名:
图灵测试外文名:
The Turing test提出者:
艾伦·麦席森·图灵(Alan Mathison Turing)提出时间:
1950年测试目标:
评估机器是否具有智能主要版本:
模仿游戏、标准图灵测试、标准解释图灵测试(The Turing test)是一种用于评估机器智能程度的经典测试方法,由英国数学家兼计算机科学家艾伦·麦席森·图灵(Alan Mathison Turing)于1950年提出。该测试通过人类测试者与机器及另一人类的隔离对话,判断机器能否表现出与人类无法区分的智能行为。

测试原理
图灵测试的基本原理是:测试者(一个人)通过键盘和屏幕与被测试者(一个人和一台机器)在隔离状态下进行对话。如果测试者无法通过对话分辨出被测试者是机器还是人类,那么这台机器就被认为通过了图灵测试,即表现出了具有欺骗性的人类智能。
发展沿革
哲学基础
“机器是否能够思考”这一问题与心灵哲学中的二元论和物理主义观点紧密相连。二元论认为心灵是非物质的,无法通过物质性术语解释;而物理主义则认为心灵可以在物质层面得以解释,从而留下了人工产生心灵的可能性。
- 笛卡尔的观点:1673年,笛卡尔在《方法论》中描述了人类可以制造能够发出声音并对人类行为作出回应的自动机。他指出,尽管机器的程序设计可能非常完善,功能与人的意识相近,但它们无法等同于意识本身的内在状态或表征人类意识的语义内容。
- 迪德罗的观点:丹尼斯·迪德罗在1746年的著作《哲学思考》中提出了类似于图灵测试的标准,但隐含了参与者是自然生命体的限制性假设。他认为,如果一只鹦鹉能够回答一切问题,那么它会毫不犹豫地被宣布具有智能。
- 艾耶尔的观点:1936年,哲学家阿尔弗雷德·艾耶尔在《语言、真理与逻辑》中提出了一种按照有无意识来区分人和机器的方法,即通过检验来确定对象存在或不存在意识。这个观点与图灵测试的思想已经非常接近。
概念提出
- 图灵机的提出:1936年,图灵发表了题为《论数字计算在决断难题中的应用》的文章,提出了著名的“图灵机”(Turing Machine),这是一种抽象计算机模型,用于计算所有能想象得到的可计算函数。
- 可计算性与λ可定义性:1937年,图灵发表论文《可计算性与λ可定义性》,为哥德尔的递归函数和丘奇的λ微积分等模型提供了合理解释,并提出了著名的“丘奇-图灵论题”。
- 机器智能的探讨:从1941年开始,图灵一直在探讨机器智能的概念。在1947年的报告“Intelligent Machinery”中,他探讨了机器是否能够表现出智能行为的问题,并提出了测试的前身。
- 图灵测试的正式提出:1950年10月,图灵在《心灵》杂志上发表了《计算机器与智能》的论文,首次提出机器具备思维的可能性,并探讨了“机器能思考吗”这个问题。他提出了一种思想实验,即“模仿游戏”,这个思想实验后来演化为“图灵测试”的概念。
内涵演变
从图灵测试提出以来,其内涵一直随着“智能”概念和人工智能的发展而变化。
- 20世纪50年代:图灵将智能定义为机器能够思考,测试内容包括限于五分钟时间和识别概率不超过70%的客观指标。
- 20世纪60年代:维兹豪曼的聊天机器人采取了狡猾策略,符合图灵测试的两个客观标准,但无法表明机器具有“智能”,因此图灵测试添加了应当排除狡猾策略的要求。
21世纪:2011年计算机沃森在智力问答游戏节目中取得胜利,如果按照1950年图灵的最初界定,沃森通过了更高层次的图灵测试——智力问答的人机对决。但当代美国人工智能专家库兹韦尔(Ray Kurzweil)用“奇点”(Singularity)这一概念重新表述了图灵测试,认为机器“智能”在当代面临着临近“奇点”的可能性,在未来15年内信息可以上传到人类大脑,30年内奇点来临——人工智能超越人类智能。

测试内容
测试参与者
图灵测试包含三个参与者:
- 测试者(C):人类,负责对A和B进行提问以判断哪一个是机器,哪一个是人类。
- 被测试的机器(A):目标是欺骗评判者,使其无法准确区分机器和人类。
- 另一个被测试者(B):人类,目标是通过提问来判断哪一方是机器,哪一方是人类。
测试条件
- 隔离:评判者被隔离,不能直接看到A和B,通常通过计算机终端进行对话或书面形式交流。
- 自由对话:评判者可以提出任何问题,A和B的目标是回答这些问题,评判者基于回答来判断哪一方是机器,哪一方是人类。
- 时间限制:测试时长通常为5分钟。如果电脑能回答由人类测试者提出的一系列问题,且其超过30%的回答让测试者误认为是人类所答,则电脑通过测试。
- 一般性测试:图灵强调测试的一般性,即机器不仅仅是模仿某个特定人类的表现,而是具有一般性的智能,能够在不同领域表现得像人类一样。
成功标准
如果机器能够以一种让评判者无法准确判断其是否为机器的方式回答问题,那么它就通过了图灵测试。
测试版本
索尔·特雷格(Saul Traiger)指出,图灵测试至少有三个主要版本,其中两个版本在《计算机与智能》中提出,分别被称为“模仿游戏”和“标准图灵测试”。关于第三个版本“标准解释”是否为图灵所描述,还是基于对他的论文的误解,存在一些争议。
模仿游戏
第一个版本是图灵原始论文描述的一个涉及三名玩家的简单派对游戏。游戏中有三个参与者:一个男人(A),一个女人(B)和一个男女皆可的提问者(C)。提问者呆在一个与另外两人相隔离的屋子里,游戏的目标是提问者要判断出外面哪个是男人,哪个是女人。提问者用标签X,Y指称外面的两个人,游戏结束时,他要说出“X是A,Y是B”或者“X是B,Y是A”。
标准图灵测试
第二个版本出现在图灵的1950年论文中,在模仿游戏之后图灵提出这样一个问题:“如果用机器代替A,将会发生什么情况?同与两个人玩这个游戏相比,提问者判断错误的几率是否发生变化?”这个问题取代了原问题“机器能思考吗?”。与原始的模仿游戏测试类似,玩家A的角色由计算机扮演,而玩家B的角色则由一个男性人类扮演,玩家C则继续扮演一个男女皆可的人类提问者对A和B进行提问来判断出被提问者是计算机还是人类。
标准解释
“标准解释”是图灵在1952年提出的第三种版本。图灵在BBC的广播中提出,一个陪审团向计算机进行提问,而计算机的任务是让陪审团中一定比例的人相信它真的是一个人。对于“标准解释”,目前普遍的理解是,图灵测试的目的不是确定计算机能否愚弄人类提问者并使人相信它是人类,而是计算机是否能够模仿人类。

程序应用
ELIZA程序
1966年,美国麻省理工学院教授约瑟夫·维兹豪曼(Joseph Weizenbaum)编写了聊天机器人ELIZA程序。它通过检查用户输入的评论中的关键词来工作,如果找到关键词,就会应用一个转换用户评论的规则,然后返回结果句子。如果没有找到关键词,ELIZA要么用一个通用的应答回应,要么重复之前的评论之一。ELIZA旨在模拟罗杰斯式心理治疗师的行为,有些人对ELIZA的表现“很难相信它不是人类”,因此一些人认为ELIZA可能是第一款能够通过图灵测试的程序之一。然而,维兹豪曼认为ELIZA程序不能算作通过图灵测试,它不属于真正的机器智能。
PARRY程序
肯尼斯·科尔比(Kenneth Colby)在1972年创建了PARRY,这个程序被描述为“带有态度的ELIZA”,它试图模仿偏执性精神分裂症患者的行为。为了验证这项工作,PARRY在20世纪70年代早期通过图灵测试的变种进行了测试。一组经验丰富的精神科医生通过电传打印机分析了一组真实的患者和运行PARRY的计算机,另一组33名精神科医生看了对话的记录。然后,两组医生被要求确定哪些“患者”是人类,哪些是计算机程序。精神科医生只能在52%的时间内正确识别出“患者”是人类还是计算机程序,这个数字与随机猜测一致。
沃森
2011年,IBM公司研发的计算机沃森(Watson)可以“听懂”人的话语,按照图灵1950年的图灵测试界定,计算机沃森能够处理人类的自然语言并迅速回答复杂问题,它通过了比图灵测试更复杂的人机对决的智力问答。但是沃森的设计者并不认为沃森通过了图灵测试,他们设定计算机沃森只是满足某些领域的人脑功能,它只在机器学习、自然语言算法、大规模数据库等有限领域模拟人脑取得成功。

尤金·古斯特曼
2014年6月7日,在英国皇家学会举行的“2014图灵测试”大会上,举办方英国雷丁大学发布新闻稿宣称,一台模拟13岁小男孩的人工智能软件尤金·古斯特曼(Eugene Goostman)首次“通过”了图灵测试。在共有5台超级计算机参赛的图灵测试竞赛上,尤金·古斯特曼设法让测试人相信被测试者33%的答复为人类所为。这一测试成功正逢图灵去世60周年纪念,被认为是人工智能领域里程碑式的突破。
相关争论
衡量标准
图灵测试并没有明确规定其能够作为衡量智能的标准。该测试旨在检验计算机是否能模仿人类行为,而非直接评估其智能水平。一些专家认为,图灵测试只是展示了欺骗人类的容易程度,并非衡量机器智能的准确指标。图灵本人也明确指出该测试只是为了讨论研究前进的方向,而非直接衡量智能。
测试方式
图灵测试是借由人类语言(对话)来判断机器智能的存在,但这种对话模拟的方式是否能够全面衡量计算机的智能仍然存在争议。一些评论家认为,图灵测试可能过于依赖于自然语言处理能力,而忽视了计算机在其他领域如视觉、音频、推理等方面的智能表现。
评估角度
图灵测试关注机器的外部行为来研究思维,但外部行为不能确定机器是真正思考还是仅模拟思考。约翰·塞尔在他的“中文房间”思想实验中指出,计算机仅通过操作不理解的符号通过图灵测试,没有理解,不能像人类一样思考,因此图灵测试不能证明机器思考。
判断依据
图灵测试的结果常常受计算机模仿人类的能力主导,而不完全依赖于提问者的技能或态度。有效通过图灵测试的关键在于机器需要通过对话暗示自己的机器身份,而审问者需要识别出这些线索。如果机器保持沉默,审问者难以准确判断。
测试变体
反向图灵测试
反向图灵测试是对图灵测试进行一定程度的修改,以增强其适用性,挑战在于让计算机确定它是否正在与人类或其他计算机互动。
完全图灵测试
完全图灵测试针对图灵测试中仅仅测试机器语言智能方面的不足而提出,需要与真实世界中的对象和人进行交互。为了通过完全图灵测试,机器人需要具备自然语言处理、知识表示、自然推理、机器学习、计算机视觉、机器人学等能力。
比较的道德图灵测试
比较的道德图灵测试从对话转向行为,对人类和人工道德行为体实际的、道德上重要的行为进行描述,排除各种可能识别行为体身份的因素之后,提供给提问者。如果提问者在一定比例上正确识别出机器,那么机器就不能通过测试。
温纳格斯基模式挑战
温纳格斯基模式挑战通过向机器询问特别设计的选择题来检测其智能,这些问题都包含一种特殊结构,被称为“温纳格斯基模式”。机器需要识别问题中的前指关系,即指出问题中某一代词的先行词,这需要机器拥有常识推理的能力。
语言模型测试
阿瑟·施瓦宁格提出了一种图灵测试的变体,可以区分仅能使用语言的系统和理解语言的系统。机器面临的是不依赖于任何先前知识但需要自我反思才能适当回答的哲学问题。
领域专家系统
爱德华·费根鲍姆提出了领域专家图灵测试,也被称为“费根鲍姆测试”。专家系统中的计算智能实例是为了在困难的现实世界领域中执行专家级行为而构建的,这些领域的背景包括大量的知识。然而,这些专家系统在与人交互的能力方面灵活性有限,无法通过图灵测试。
词汇判断测试
罗伯特·弗伦奇认为,通过提出揭示人类认知的低级(即无意识)过程的问题,审问者可以区分人类和非人类的对话者。他做了一个“词汇判断测试”实验,发现人类对特定单词的反应时间会受到之前相关单词的影响,这种加速效应被称为“联动”。弗伦奇声称这种特定于文化的“联动”效应可用于在图灵测试中判断哪位参与者是计算机。
电子健康记录
在电子健康记录的背景下,提出了一种用于评估合成和真实患者之间区别的图灵测试变体。合法的电子健康记录市场可能会从应用类似于图灵测试的技术中受益,以确保更大的数据可靠性和诊断价值。

相关奖项
勒布纳奖(Loebner Prize)每年提供一个实际的图灵测试平台,首次比赛于1991年11月举行。这个奖项的发起人是休·勒布纳(Hugh Loebner),位于美国马萨诸塞州的剑桥行为研究中心组织了2003年以前的比赛。勒布纳奖测试对话智能,获奖者通常是聊天机器人程序或人工对话实体(ACE)。该竞赛每年都授予铜牌给那些在评委眼中展示出“最人类”对话行为的计算机系统,银奖(仅文本)和金奖(音频和视觉)则从未被获得。
影响评价
图灵1950年的经典论文被公认为是人工智能学科兴起的标志。图灵测试作为一种经典的方法被应用于计算机程序中,旨在解决如何评估计算机是否能够表现出与人类思维相似的智能行为。
关于图灵测试对于人工智能的发展意义,在不同的历史阶段人们的认识有所不同。1950—1960年代,图灵测试被普遍认为是人工智能领域的灵感源泉;1970—1980年代,它确实给人工智能领域的前沿研究带来了某种程度的困扰;1990年之后,图灵测试虽然不被认为是人工智能的终极目标,但已经成为该领域研究中不可或缺的课题。

人工智能概念的创始人之一明斯基(Marvin Minsky)曾经用一句话描述人工智能:“让机器从事需要人的智能的工作的科学。”明斯基的这一定位是严格遵循“图灵测试”中的“模仿游戏”说的——人工智能追求的是让机器对入进行功能性的替代,让机器实现对人的智能活动的模仿。
图灵测试本质上是对人类智能的一种操作性定义,引发了许多哲学和伦理问题,这些问题深刻地影响了人们对人工智能的认识和接受。虽然图灵测试在评估计算机是否具有智能方面起到了重要作用,但其本质、局限性以及对于智能的准确度仍然存在广泛的争议和讨论。
