ChatGPT與GPT-4：人工智能(néng)評估新時代的開啓-山东华念网络科技有限公司

ChatGPT與圖靈測試

ChatGPT已成功通過(guò)圖靈測試，7月25日，《Nature》雜志在一篇文章中宣布，這标志着(zhe／zhuó／zhāo／zháo)人工智能(néng)評估領域即将迎來新的變革。自(zì)2022年(nián)底OpenAI推出ChatGPT以來，人工智能(néng)技術便在全球範圍内掀起了一場革命性的風潮。這場風潮的強勁勢頭，一方面源于(yú)ChatGPT在技術層面的重大突破，另一方面則得(dé / de / děi)益于(yú)其(qí)在應用(yòng)端爲普通人所(suǒ)帶來的直觀體驗。正因如(rú)此，我們與埃隆·馬斯克産生(shēng)了相同的感慨：ChatGPT的強大能(néng)力，令人驚歎。

◉ 圖靈測試的曆史背景

圖靈測試作爲衡量AI智能(néng)的标準在ChatGPT出現前倍受關注。圖靈測試，這個在1950年(nián)被提出的概念，逐漸成爲了衡量AI智能(néng)程度的重要(yào / yāo)标準，甚至被視爲唯一标準，吸引了衆多追随者。然而(ér)，随着(zhe／zhuó／zhāo／zháo)人工智能(néng)領域的不斷發(fā／fà)展，尤其(qí)是對(duì)話機器人技術的突飛猛進，圖靈測試的局限性也逐漸顯現。每當人工智能(néng)領域取得(dé / de / děi)新的進展時，都會(huì)面臨圖靈測試的嚴峻挑戰，甚至在某些情況下(xià)，新的技術進展反而(ér)因爲無法通過(guò)圖靈測試而(ér)黯然失色。這使得(dé / de / děi)“圖靈測試”在一定程度上成爲了一個神話，甚至被視爲束縛AI發(fā／fà)展的魔咒。

◉ ChatGPT引領的變革

ChatGPT通過(guò)圖靈測試标志AI新時代的到來。然而(ér)，智能(néng)的定義并非一成不變。在ChatGPT引領的新時代下(xià)，我們有必要(yào / yāo)重新審視智能(néng)的概念。盡管圖靈測試在曆史上曾發(fā／fà)揮過(guò)重要(yào / yāo)作用(yòng)，但如(rú)今它已經無法适應人工智能(néng)領域的發(fā／fà)展需求。因此，我們需要(yào / yāo)尋找新的評估标準和方法來更全面地衡量AI的智能(néng)水平。

GPT-4的突破與評估

2023年(nián)3月14日，GPT-4驚豔亮相，這款具備多模态能(néng)力的新一代AI模型，在發(fā／fà)布後(hòu)便引起了廣泛關注。GPT-4不僅在多項人類專業測試中表現出色，甚至通過(guò)了律師考試。

◉ GPT-4的能(néng)力展示

GPT-4展現卓越的多領域能(néng)力。據報道，GPT-4不僅在多項人類專業測試中表現出色，甚至通過(guò)了律師考試，更令人矚目的是，它還成功通過(guò)了一些經典心理學測驗，展現出了相當于(yú)9歲兒童的心智水平。這一系列的成就(jiù)，使得(dé / de / děi)人們開始期待：ChatGPT何時能(néng)迎來圖靈測試的突破？

◉ 基準測試的局限性

盡管GPT-4在考試中表現優異，但這些測試未能(néng)反映其(qí)真實智能(néng)。值得(dé / de / děi)注意的是，LLMs在考試題上的成功可(kě)能(néng)并不穩固，可(kě)能(néng)無法轉化爲解決現實世界問題的強大能(néng)力。Mitchell表示，通過(guò)稍微修改考試題目，就(jiù)有可(kě)能(néng)讓LLM不及格。她以工商管理碩士研究生(shēng)的考試問題爲例，稍作修改後(hòu)，ChatGPT便無法正确回答。因此，能(néng)夠回答原始問題的人，同樣能(néng)夠應對(duì)重新措辭的問題。但ChatGPT卻未能(néng)通過(guò)這一挑戰。

對(duì)于(yú)人類來說，在這些标準化考試中取得(dé / de / děi)優異成績确實是一個可(kě)靠指标，表明其(qí)具備一定的通用(yòng)智力。然而(ér)，對(duì)于(yú)大型語言模型（LLMs）而(ér)言，情況卻大相徑庭。米切爾指出，LLMs的工作方式與人類截然不同，因此，我們對(duì)人類的推理方式的推斷并不總是适用(yòng)于(yú)這些人工智能(néng)系統。

行(háng / xíng)業新聞