东方测控

行业企业市场标准科技新品会议展会政策原创

图灵测试:人类智慧PK人工智能

行业上下游中国仪表网2014年06月18日 10:51人气:5045

  导读:对于科技稍有了解的朋友都知道“图灵测试”,它可以说是验定人工智能是否接近人类水平的标准之一。近日,由俄罗斯科学家编写的“Eugene Goostman”成为了史上第一个通过图灵测试的人工智能,但也引来多方质疑。


  一、关于机器与人类智慧未来的分歧
  
  2011年2月18日,超级电脑“沃森”打败了人类,站在了与人类智力竞赛的最高领奖台上。著名的未来学家库兹韦尔相信,由于信息技术正朝着“超人类智能”的奇点迈进。当这个信息奇点在2045年到来的时候,人工智能将超越人类智慧。
  
  但也有不少科学家认为机器智慧超越人类智慧还只是一个科学幻想,包括麻省理工的计算机学教授罗勃-米勒(Rob Miller),Face book人工智能实验室主任、深度学习专家Yann Le Cun,都认为机器算法在一些领域的确超越了人类的能力范围。但在一些领域,例如对社会和文化的认知领域,包括不断发明各种新词汇、传播小猫的视频并点赞,或一起参与构的其他文化现象,这些是机器算法很难企及的领域。
  
  1950年,图灵发表题为《机器能思考吗?》的论文,第一次提出“机器思维”的概念。提出假想:一个人在不接触对方的情况下,通过一种特殊的方式,和对方进行一系列的问答,如果在相当长时间内,他无法根据这些问题判断对方是人还是计算机,那么,就可以认为这个计算机具有同人相当的智力,即这台计算机是能思维的。这就是著名的“图灵测试”(Turing Testing)。
  
  图灵测试经常用来检验机器是否具备人的智能,但图灵测试受人为因素干扰太多,严重依赖裁判者和被测试者的主观判断,而且只判断机器是否具备了人的智能,但机器与人类智慧的差距和变化速度并不能得到定量的分析。因此往往有人宣称其程序通过图灵测试,例如2014年6月英国雷丁大学客座教授凯文-沃维克宣称一款名为“尤金-古特曼(Eugene Goostman)”的计算机软件通过了测试,但很快就被人揭发他们的测试有很大漏洞并由欺诈嫌疑。
  
  那么有没有一种方法,能够定量检测机器智力的发展水平和速度,并与人类智力进行对比,观察可能潜在的风险并进行防范。2013年以来我们在机器与互联智商方向进行了探索,初步成果已经发表在2014年6月6日举办的ITQM会议上,下面我们将简要介绍如何定量分析机器与人类智慧的未来之争。
  
  二、机器与人类智商通用测试方法(M&H IQ)
  
  在心理科学中,智力(intelligence)是最难理解的概念之一。目前有关智力的定义累积起来不下百种,但一个基本共识是,智力是人们认识客观事物并运用知识解决实际问题的能力。
  
  对人类智力的测量即智商测试由比奈西蒙最早提出,1905年比奈西蒙发表了《诊断异常儿童智力的新方法》,即比纳西蒙智力量表,标志着智力测验的正式出现。1916年,美国斯坦福大学教授推孟(L.M.Terman)将比纳西蒙量表介绍到美国并予以修订,修订之后的量表称为斯坦福比纳量表,它成为目前世界上广泛流传的标准测验之一。
  
  因为目前机器智力发展还很不完善,不能完全套用对人的智商测试。几乎没有任何机器系统能够完成人类智商测量的操作能力测试,因此我们需要吸收以上智商测试量表的优点,设计新的智力评价体系和建立测试题库。使之能同时对机器系统和不同年龄阶段的人类进行测试。这样得出的结果将可以定量的看出机器智慧与人类智慧的差距,通过定时测试,也可以发现机器智慧与人类智慧差距的变化情况。
  
  基于“智力是人们认识客观事物并运用知识解决实际问题的能力”这一基本认知,可以从知识的获取能力(观察能力),知识掌握能力,知识创新能力,知识的反馈能力(表达能力)等四大方面建立新的机器与人类通用智商评价体系,从这四个方面建立15个分测试,并采用德尔菲法对其赋予权重。
  
  机器与人类通用智力量表(M&H IQ)
  
  1  知识获取能力      识别文字的能力,识别声音的能力,识别图片的能力
  
  2  知识掌握能力       常识(天文、地理、历史、物理……)、翻译、计算
  
  3  知识创新能力       排列、联想、创作、猜测、挑选、发现(规律)
  
  4  知识的反馈能力    用文字表达的能力,用声音表达的能力,用图片表达的能力
  
  具有机器智慧的程序有很多种类,其中搜索引擎具有很强的代表性,作为目前互联网最重要的应用之一,搜索引擎代表有Google,Baidu,Bing等,这些搜索引擎目前在通过各种方式不断提高搜索引擎的智能水平。
  
  例如:1、从只能识别文字增加到能够识别声音和图片;2、引入“语义理解”技术,试图理解用户的搜索意图;3、通过深度学习,让搜索引擎可以自动识别图像中是什么物体。 因此选择对搜素引擎进行智商测试并与人类进行对比将具有典型的意义。
  
  三、世界搜索引擎排名与机器智慧的弱点
  
  根据机器与人类通用智力量表,可以建立机器与人类通用智商测试题库,2014年5月我们利用这个测试题库对全世界50个搜索引擎和3个不同年龄阶段的人类群体进行测试得到结果如下:
  
  排名     属地     名称     通用智商     排名     属地     名称      通用智商
  
  1          人类     18岁          97            28      葡萄牙   sapo       12
  
  2          人类     12岁          84.5         29       德国       lycos      12
  
  3          人类      6岁           55.5         30       印度       khoj       10.5
  
  4          美国     Google      26.5         31      俄罗斯    Km        10.5
  
  5          中国      Baidu       23.5          32       德国      suche     10.5
  
  6          中国      So            23.5          33       美国      Dogpile    9
  
  7          中国      Sogou      22             34       德国      Acoon      7.5
  
  8          埃及       Yell          20.5          35    马来西亚 Sajasearch 6
  
  9          俄罗斯    Yandex   19             36       印度      indiabook   6
 
  10        俄罗斯     Ramber  18             37    塞浦路斯 1stcyprus    6
  
  11        西班牙      His         18             38       希腊      Gogreece   6
  
  12        捷克         seznam   18             39       荷兰      Slider         6
  
  13        葡萄牙      clix          16.5          40       挪威     Sunsteam   6
  
  14        韩国        Nate          15.75        41       英国     ExciteUK    6
  
  15        阿联酋     Arabo        15.75        42       英国     Splut          6
  
  16        中国        Panguso     15            43       俄罗斯   Rol            6
  
  17        韩国        Naver          15            44       西班牙   Ciao          6
  
  18       俄罗斯     webalta        13.5         45       德国       Fireball     6
  
  19       美国         Yahoo          13.5         46       德国       Bellnet      6
  
  20       美国          Bing            13.5          47      德国       Slider        6
  
  21       香港         Timway        12.75        48       德国       wlw          6
  
  22       日本          goo              12.75        49       埃及      Netegypt   6
  
  23       日本          excite           12.75        50   所罗门群岛 eMaxia    6
  
  24       中国          Zhongsou     12             51    澳大利亚   Anzswers 6
  
  25       英国           ask               12             52    澳大利亚    Pictu       6
  
  26       法国          voila              12              53    新西兰     SerachNZ  6
  
  27       法国           ycos             12
  
  通过测试我们发现搜索引擎在知识的掌握能力上远远超过人类,但在知识的创新能力上全部得分为0。由于知识创新能力在通用智商测试(M&H IQ)的权重更高,因此世界范围的搜索引擎的总体智商大大低于人类智慧,最高的Google的智商值也不到人类6岁儿童的一半。
  
  从上述研究还可以看出智能或智力是由不同的因素组成,例如天文、地理、历史等常识,数学计算、语言翻译。这些方面机器或互联网已经远远超过普通人类的能力,甚至强大到令人恐怖的地步,这也是库兹韦尔的观点能够震慑住很多人的主要原因。
  
  但我们往往忽略,除此之外,智力还包括猜测预测、排列组合、规律发现、创新创造、伪装欺骗等更高等级的智慧因素,而在这些方面,机器和互联网表现的基本为0,更不用说与婴儿比较。
  
  从科技的发展看,低端的智能,机器的能力突飞猛进,高端的智能,机器的能力举步维艰,数十年来毫无进展,未来的智慧世界应该是机器与人类的分工,低端重复性的智能由机器承担,高端的创造性的智能由人类来承担。过分的宣扬机器智慧超越人类智慧,正如Face book人工智能实验室主任Yann Le Cun所说:“人工智能的每一个新浪潮,都会带来这么一段从盲目乐观到不理智最后到沮丧的阶段。未来学家生来就愿意做出盲目的预测,尤其是他们特别渴望这个预测成真的时候,可能是为了实现个人抱负。”
  
  最后需要指出,目前建立的机器与人类通用智商测试量表(M&H)还有很大的改进空间,但希望这是一个起点,能够解决图灵测试的不足和缺陷,为定量分析机器智慧能否超越人类智慧打下初步的基础。
(本文来源:网易科技转载请注明出处
仪表网官方微信
@仪表网
已推荐
0

全年征稿 / 资讯合作

联系邮箱:ybzhan@QQ.com
  • 凡本网注明"来源:中国仪表网"的所有作品,版权均属于中国仪表网,转载请必须注明中国仪表网,http://www.ybzhan.cn/。违反者本网将追究相关法律责任。
  • 本网转载并注明自其它来源的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
  • 如涉及作品内容、版权等问题,请在作品发表之日起一周内与本网联系,否则视为放弃相关权利。
成丰仪表——中国第三代流量计领军品牌


返回首页