據英國《新科學家》周刊網站6月14日報道,包括美國谷歌公司多名專家在內的400多位人工智能(AI)研究者建議升級著名的圖靈測試,以提高為人工智能技術評分的能力。
報道稱,近年來,人工智能語言模型表現出驚人的與人對話的能力,這要歸功于實驗規(guī)模不斷擴大——我們有了更強的算力和龐大的訓練數據集。谷歌公司的一名工程師近日對一個模型印象深刻,甚至宣稱這個模型已經有了意識(雖然遭到很多人的質疑)。有科研人員預計這些模型的規(guī)模仍將繼續(xù)擴大,并在今后幾年里展現出新的能力。
為評估目前的技術水平并為迎接未來更強大的模型做好準備,來自132家機構的442名研究者花費兩年時間,創(chuàng)造出一套取代圖靈測試的方法,用于評估人工智能模型的隱秘能力,且可在必要時擴展評估范圍。這套方法名為“超越模仿游戲基準”(BIG-bench),包含204項不同的任務,覆蓋語言學、數學、棋類等一系列主題。根據設計,這些任務將無法被當前最先進的模型完全解決。
科研人員在一篇介紹“超越模仿游戲基準”的論文中指出,它將成為一項重要工具,可以啟發(fā)未來的研究,以及識別和預見新興人工智能的任何顛覆性新能力或潛在的有害影響。
人類專家完成了這204項任務,為每項任務確定了平均分和最高基準分??蒲腥藛T發(fā)現,雖然算力的提高幫助人工智能模型取得越來越好的成績,但人工智能在大多數任務中的表現仍然不如人類。
科研人員還發(fā)現,擴大人工智能模型的規(guī)模并沒有提高其在某些任務中的表現,比如涉及長文本的邏輯推理。這等于暗示說,對于一些智力領域而言,單單擴大規(guī)模并不能解決問題。事實上,這項研究還表明,規(guī)模甚至可能帶來問題,比如在某些情況下,衡量社會偏好的一些測試會給較大的模型打出較低的分數。
該研究團隊的核心成員包含多位谷歌專家,但該公司沒有回應記者的采訪請求。
英國薩里大學的阿德里安·希爾頓認為,圖靈測試未必過時,但對現代人工智能而言不夠有效,或者說覆蓋面不夠廣。圖靈測試最初還被用來評估智力,盡管其是否能夠評估智力是值得商榷的。希爾頓懷疑此次公布的新基準恐怕也無法衡量真正的智力。
他說:“我認為這是一種有效的測試,但我不會據此認為,說一臺機器很聰明與說它有意識是一回事。我相信,設置一組基準是比較一種機器學習算法與另一種算法的一個辦法,也是比較一種人工智能與另一種人工智能的一個辦法。但我并不認為這一定能解答關于智力的問題。有了機器學習技術,機器就能譜寫樂曲,甚至回答問題、寫散文,且是以一種比較有說服力、比較接近人類的方式做這些事情。但這真的是智力嗎?我認為并非如此?!?/p>
來源:參考消息網