ChatGPT與圖靈測試

ChatGPT已成功通過(guò)圖靈測試,7月25日,《Nature》雜志在一篇文章中宣布,這标志着(zhe/zhuó/zhāo/zháo)人工智能(néng)評估領域即将迎來新的變革。自(zì)2022年(nián)底OpenAI推出ChatGPT以來,人工智能(néng)技術便在全球範圍内掀起了一場革命性的風潮。這場風潮的強勁勢頭,一方面源于(yú)ChatGPT在技術層面的重大突破,另一方面則得(dé / de / děi)益于(yú)其(qí)在應用(yòng)端爲普通人所(suǒ)帶來的直觀體驗。正因如(rú)此,我們與埃隆·馬斯克産生(shēng)了相同的感慨:ChatGPT的強大能(néng)力,令人驚歎。

◉ 圖靈測試的曆史背景

圖靈測試作爲衡量AI智能(néng)的标準在ChatGPT出現前倍受關注。圖靈測試,這個在1950年(nián)被提出的概念,逐漸成爲了衡量AI智能(néng)程度的重要(yào / yāo)标準,甚至被視爲唯一标準,吸引了衆多追随者。然而(ér),随着(zhe/zhuó/zhāo/zháo)人工智能(néng)領域的不斷發(fā/fà)展,尤其(qí)是對(duì)話機器人技術的突飛猛進,圖靈測試的局限性也逐漸顯現。每當人工智能(néng)領域取得(dé / de / děi)新的進展時,都會(huì)面臨圖靈測試的嚴峻挑戰,甚至在某些情況下(xià),新的技術進展反而(ér)因爲無法通過(guò)圖靈測試而(ér)黯然失色。這使得(dé / de / děi)“圖靈測試”在一定程度上成爲了一個神話,甚至被視爲束縛AI發(fā/fà)展的魔咒。

◉ ChatGPT引領的變革

ChatGPT通過(guò)圖靈測試标志AI新時代的到來。然而(ér),智能(néng)的定義并非一成不變。在ChatGPT引領的新時代下(xià),我們有必要(yào / yāo)重新審視智能(néng)的概念。盡管圖靈測試在曆史上曾發(fā/fà)揮過(guò)重要(yào / yāo)作用(yòng),但如(rú)今它已經無法适應人工智能(néng)領域的發(fā/fà)展需求。因此,我們需要(yào / yāo)尋找新的評估标準和方法來更全面地衡量AI的智能(néng)水平。


GPT-4的突破與評估

2023年(nián)3月14日,GPT-4驚豔亮相,這款具備多模态能(néng)力的新一代AI模型,在發(fā/fà)布後(hòu)便引起了廣泛關注。GPT-4不僅在多項人類專業測試中表現出色,甚至通過(guò)了律師考試。

◉ GPT-4的能(néng)力展示

GPT-4展現卓越的多領域能(néng)力。據報道,GPT-4不僅在多項人類專業測試中表現出色,甚至通過(guò)了律師考試,更令人矚目的是,它還成功通過(guò)了一些經典心理學測驗,展現出了相當于(yú)9歲兒童的心智水平。這一系列的成就(jiù),使得(dé / de / děi)人們開始期待:ChatGPT何時能(néng)迎來圖靈測試的突破?

◉ 基準測試的局限性

盡管GPT-4在考試中表現優異,但這些測試未能(néng)反映其(qí)真實智能(néng)。值得(dé / de / děi)注意的是,LLMs在考試題上的成功可(kě)能(néng)并不穩固,可(kě)能(néng)無法轉化爲解決現實世界問題的強大能(néng)力。Mitchell表示,通過(guò)稍微修改考試題目,就(jiù)有可(kě)能(néng)讓LLM不及格。她以工商管理碩士研究生(shēng)的考試問題爲例,稍作修改後(hòu),ChatGPT便無法正确回答。因此,能(néng)夠回答原始問題的人,同樣能(néng)夠應對(duì)重新措辭的問題。但ChatGPT卻未能(néng)通過(guò)這一挑戰。

對(duì)于(yú)人類來說,在這些标準化考試中取得(dé / de / děi)優異成績确實是一個可(kě)靠指标,表明其(qí)具備一定的通用(yòng)智力。然而(ér),對(duì)于(yú)大型語言模型(LLMs)而(ér)言,情況卻大相徑庭。米切爾指出,LLMs的工作方式與人類截然不同,因此,我們對(duì)人類的推理方式的推斷并不總是适用(yòng)于(yú)這些人工智能(néng)系統。