推特網(wǎng)訊:在馬斯克的指揮下,X 公司(前推特)近期又整出了新的花活。他們?cè)谌涨扒娜桓铝朔?wù)條款,其中顯示未經(jīng)其事先的書面許可,無(wú)論出于何種目的,哪怕是用于學(xué)術(shù)研究,任何第三方都不得在 X 上抓取數(shù)據(jù)來(lái)訓(xùn)練 AI 大模型。這也就意味著,X 已經(jīng)對(duì) AI 大模型關(guān)閉了大門。

事實(shí)上,馬斯克幾乎從未掩飾對(duì)于第三方 AI 大模型的惡意。早在今年 3 月,彼時(shí)還叫 Twitter 的 X 方面就修改了 API 接口的訂閱價(jià)格,對(duì)于第三方訪問(wèn)的價(jià)格進(jìn)行了大幅上調(diào)。緊接著到了 4 月,馬斯克更是威脅要起訴微軟,原因是他認(rèn)為后者非法使用了 Twitter 的數(shù)據(jù)來(lái)訓(xùn)練 Bing Chat 的人工智能模型。當(dāng)時(shí)間來(lái)到 7 月,馬斯克指揮 X 方面用法律武器對(duì)四家實(shí)體提起了訴訟,指控它們從事數(shù)據(jù)抓取活動(dòng),導(dǎo)致其服務(wù)器資源嚴(yán)重緊張。
就在 7 月初,馬斯克還搞出了一個(gè) ” 神操作 “,宣布限制 X 用戶每日可瀏覽的推文數(shù)量,其中已認(rèn)證賬戶、未認(rèn)證老賬戶、未認(rèn)證新賬戶每日分別最多可瀏覽 10000 條、1000 條、500 條推文。并且在未注冊(cè)的用戶想要查看一條推文時(shí),平臺(tái)還會(huì)提示他們登錄或是注冊(cè)賬戶。

其實(shí)這一連串操作背后的原因很簡(jiǎn)單,因?yàn)槿缃駭?shù)據(jù)幾乎成為了互聯(lián)網(wǎng)行業(yè)的 ” 石油 “,也有著極高的價(jià)值。例如 ChatGPT 為什么會(huì)表現(xiàn)得比 Siri 等上一代人工智能產(chǎn)品更聰明、更接近人類呢?單純就是因?yàn)?” 力大磚飛 “,而規(guī)模更大的語(yǔ)料庫(kù)則是其中的關(guān)鍵。例如 GPT-3 就擁有的 1750 億的參數(shù)量、45TB 的訓(xùn)練數(shù)據(jù),GPT-4 的參數(shù)規(guī)模更是達(dá)到了驚人的 1.8 萬(wàn)億。也就是說(shuō),GPT-4 的數(shù)據(jù)規(guī)模是 GPT-3 的 10 倍以上。
那么訓(xùn)練 ChatGPT 的語(yǔ)料是哪里來(lái)的呢?抓取包括 Twitter 在內(nèi)、一切互聯(lián)網(wǎng)平臺(tái)上用戶的交互內(nèi)容,這就是 OpenAI 方面一直在干的事情。所以某種意義上來(lái)說(shuō),ChatGPT 的軍功章里除了有 OpenAI 的一半外,也有 Twitter 的一份??涩F(xiàn)實(shí)是,OpenAI 在今年 4 月完成了一筆 103 億美元的新一輪融資,估值達(dá)到 270 億 -290 億美元,反觀 X 的估值在馬斯克眼中,已經(jīng)從收購(gòu)時(shí)的 440 億美元變成了 200 億美元。

此消彼長(zhǎng)之下,馬斯克感到心里不平衡簡(jiǎn)直再正常不過(guò)。通過(guò)這一系列的措施,X 平臺(tái)所蘊(yùn)含的數(shù)據(jù)甚至還變得更有價(jià)值了,因?yàn)樗y以被獲取。更為重要的問(wèn)題是,如今已沒(méi)有更多的高質(zhì)量語(yǔ)料可供大模型進(jìn)行訓(xùn)練了。此前 AI 研究團(tuán)隊(duì) Epoch 在今年年初發(fā)表的論文中就表明,綜合目前人類語(yǔ)言數(shù)據(jù)的增長(zhǎng)率,AI 不出 5 年就會(huì)把人類所有的高質(zhì)量語(yǔ)料用光。
由于諸如論文、書籍、新聞、代碼等高質(zhì)量的語(yǔ)料畢竟有限,有統(tǒng)計(jì)數(shù)據(jù)顯示,高質(zhì)量語(yǔ)料數(shù)據(jù)的存量只剩下約 4.6 × 10^12 至 1.7 × 10^13 個(gè)單詞,相比當(dāng)前最大的文本數(shù)據(jù)集大了不到一個(gè)數(shù)量級(jí)。而 X 等互聯(lián)網(wǎng)內(nèi)容平臺(tái)上的低質(zhì)量語(yǔ)料卻可謂是取之不盡用之不竭,所以他們也已經(jīng)是 AI 廠商為數(shù)不多的選擇了,就等于說(shuō)現(xiàn)在已經(jīng)是賣方市場(chǎng)。

雖然馬斯克此前的打算是將 X 上的這些數(shù)據(jù)賣個(gè)好價(jià)錢,畢竟一個(gè)新的營(yíng)收來(lái)源對(duì)于風(fēng)雨飄搖中的 X 來(lái)說(shuō)算得上是久旱逢甘霖。事實(shí)上,限制第三方 AI 公司抓取數(shù)據(jù)對(duì) X 的流量其實(shí)沒(méi)多少影響。比如同樣是因?yàn)閷?duì) AI 公司抓取數(shù)據(jù)收 ” 保護(hù)費(fèi) “,Reddit 被用戶抵制,但最終用戶的抗議活動(dòng)并未對(duì)該網(wǎng)站的流量造成重大影響。并且在 Meta 的 Threads 誕生前,X 在海外社交平臺(tái)中也具有不可替代性。
既然如此,為什么 X 突然修改了服務(wù)條款、拒絕第三方抓取數(shù)據(jù)呢,畢竟這意味著他們將無(wú)法通過(guò)這一行為向后者收費(fèi)。原因當(dāng)然是因?yàn)?AI 的魅力太大,以至于馬斯克要讓 X 親自下場(chǎng)來(lái)做 AI,而不是只只做 AI 大模型的數(shù)據(jù)供應(yīng)商。就在不久前,X 公司突然修改了隱私政策,并新增了如下內(nèi)容,” 我們可能會(huì)使用收集到的信息和公開(kāi)可用的信息,來(lái)幫助訓(xùn)練我們的機(jī)器學(xué)習(xí)或人工智能模型。”

此前在今年 7 月,馬斯克還成立了一家號(hào)稱利用 AI 了解宇宙真實(shí)本質(zhì)的新公司 x.AI,并谷歌挖來(lái)了 Christian Szegedy、Jimmy Ba 等多位人工智能領(lǐng)域的科學(xué)家。彼時(shí)馬斯克的說(shuō)法,是 x.AI 的成立將與 OpenAI、谷歌等公司競(jìng)爭(zhēng),試圖打造一個(gè) ” 好的通用人工智能(AGI)”,以防止某個(gè)公司壟斷 AI 領(lǐng)域。
既然已經(jīng)有了屬于自己的 AI 公司,X 上的數(shù)據(jù)顯然也就有了更有價(jià)值的去處,通過(guò)對(duì)數(shù)據(jù)的壟斷來(lái)為 x.AI 的 AI 大模型或 AGI 提供差異化的競(jìng)爭(zhēng)力,這并不難理解。所以不得不說(shuō)馬斯克的鈔能力真的很好用,未來(lái)或許 OpenAI、微軟、谷歌等公司就要頭疼了。