近日,馬斯克與xAI團隊,在直播中正式發布了最新版本Grok3。
此前,馬斯克將Grok-3描述為“地球上最聰明的AI”。他在X平臺上表示:“自己整個周末都在和團隊打磨產品。”
然而據媒體報道,有人測試了最新的Beta版Grok3,并提出了那個經典的用來刁難大模型的問題:“9.11與9.9哪個大?”遺憾的是,在不加任何定語以及標注的情況下,號稱目前最聰明的Grok3,仍然無法正確回答這個問題。

值得一提的是,用同樣的問題詢問DeepSeek時,無論是否開啟深度思考(R1)模式,對方都給出了正確的答案:9.9大于9.11。


“9.11和9.9哪個大”是AI領域的一個經典問題。
艾倫研究機構(Allen Institute)成員林禹臣曾在社交媒體平臺上發布的截圖顯示,ChatGPT-4o在回答中認為13.11比13.8更大。“一方面AI越來越擅長做數學奧賽題,但另一方面常識依舊很難。”他表示。
隨后Scale AI的提示工程師萊利·古德賽德(Riley Goodside)基于此靈感變換了問法,拷問了可能是當時最強的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪個更大?這幾家主流大模型通通答錯,他也成功將此話題傳播開來。
