在生成式AI中尋求平衡：開源模型與專有模型之爭

2023.10.19

作(zuo)者：騰訊企業(ye)發展事業(ye)群總經理兼歐洲首席代表葛(ge)凌博士

今年三月，OpenAI開創(chuang)性的GPT-4基(ji)礎(chu)模型標志著(zhu)生成式人工智(zhi)能(neng)（AI）歷史邁(mai)向全新里程(cheng)碑。而僅(jin)僅(jin)兩周后，舊金山市區又舉辦了另一(yi)場被譽(yu)為“AI屆的伍德斯托克”的活動，引起科(ke)技界關(guan)注。

這場充滿活(huo)力(li)的聚會旨在慶祝開源型生成AI的快速成長(chang)，以(yi)及相關社群(qun)的涌現。在此后的幾個月里，開源生態系統(tong)中出現了大量新興參與者、模型和使用案例。未來(lai)當我(wo)們回顧過去時，很可能會將這段時期定位為兩種(zhong)AI類(lei)型——專(zhuan)有(you)模型和開源模型——競爭公開化的(de)決定性節(jie)點。

在(zai)GPT-4發布(bu)和(he)“AI屆的(de)伍德斯托克”聚(ju)會后的(de)六個月中，這兩種模型(xing)的(de)競爭漸趨白熱化。這里先明確一下定義：生成式(shi)AI被歸類為“閉源”，其中(zhong)專有的(de)基礎模型(xing)通常由大型(xing)科技公司擁有，用戶(hu)調用API需(xu)要(yao)付費。相比之下，開源(yuan)生態系統支持免費分享和調(diao)整AI模型(xing)參(can)數（參(can)與(yu)的公司(si)通過分享云服務(wu)供(gong)應(ying)商提(ti)供(gong)的模型(xing)等(deng)方式間接獲得收入）。

我們正在(zai)見證兩種模(mo)型的(de)對弈(yi)。開源(yuan)的(de)支持(chi)者聲稱開源(yuan)模(mo)型的(de)發展(zhan)勢頭是強大而不可阻擋的(de)。與(yu)此同時(shi)，OpenAI這個月(yue)剛(gang)剛(gang)推出另一個強大的(de)專有模型——GPT-Vision，旨在(zai)將(jiang)視(shi)覺與文本結合起(qi)來。在(zai)新書《The Coming Wave》中，DeepMind的(de)聯合創始人Mustafa Suleyman認為(wei)，出(chu)于安全考慮(lv)，應禁止(zhi)AI模型中使用(yong)開源。

全球企業和(he)消費者主要采用閉源的生成(cheng)式AI還(huan)是開源(yuan)的(de)生成(cheng)式AI，或者均(jun)衡(heng)使用兩種(zhong)模型，將是(shi)問(wen)題的(de)關鍵。結(jie)果至關重要(yao)，因為討論(lun)的(de)出發點是(shi)確保AI以有利于人(ren)類的(de)(de)方式發展。不僅(jin)如(ru)此，這場競爭還將塑造(zao)商業和社會中(zhong)最具變革性的(de)(de)AI用(yong)例，并決定生成(cheng)式AI的受益者。

不過首先，所謂的(de)“AI屆的伍德斯托克”是什么，又有哪些人參(can)與了呢？這場“開源AI聚會”于三月末在舊金山的(de)探索(suo)館舉行，參與者(zhe)超過5000人。正如它的(de)名字來源“伍(wu)德斯托克搖滾(gun)音(yin)樂(le)節”，活動(dong)洋溢著派對(dui)氛(fen)圍，而開源運動(dong)的(de)合作精神(shen)和(he)創新動(dong)力(li)更(geng)為其錦上(shang)添花。

人潮涌(yong)動中，活(huo)動的組織者——AI公司Hugging Face的(de)首席執行官Clement Delangue，打扮成公司的(de)吉祥物，一個看起(qi)來像“擁抱臉”的(de)開心的(de)黃色表情符號(hao)，非常應(ying)景。羊駝漫步會場，致敬(jing)Meta大語言模型“LLaMA”。“釋(shi)放羊駝(tuo)”的(de)標(biao)語在空中飄(piao)揚，各種AI名人，如(ru)吳恩達(da)以(yi)及大語言模型（LLM）初(chu)創公司Anthropic的(de)高管悉數(shu)到場。許多來賓被《時代(dai)》雜志列(lie)為當前AI領域“最具影(ying)響力的100人”。

盡管(guan)這個場景與任何(he)科技會(hui)議(yi)都(dou)不同，但參與者分享的想法足以改(gai)變整個行業，對生成式AI巨大潛(qian)力的期(qi)待清晰又殷切——麥肯錫(xi)近(jin)期估計，在63個用例(li)中，生成式AI的潛力每年或將(jiang)額外(wai)產(chan)生2.6至4.4萬億美元(yuan)的價值。

全球的(de)科技領導者都對此(ci)興奮不已。例如，今年五月(yue)，騰(teng)訊(xun)創始人兼首席執(zhi)行官馬化騰(teng)在公司的(de)股東(dong)大會上(shang)表示：“我們最開始以為AI是互聯網十年(nian)不(bu)遇(yu)的(de)機會，但是越想越覺得，這(zhe)是幾百年(nian)不(bu)遇(yu)的(de)、類(lei)似發明電的(de)工業革命一樣的(de)機遇(yu)。”

那么，哪種類型的生成式(shi)AI模型(xing)正在(zai)(zai)引領(ling)新的(de)工業(ye)革命？現在(zai)(zai)，專(zhuan)(zhuan)有模型(xing)處于領(ling)先地位。這有兩個明顯的(de)原(yuan)因(yin)：專(zhuan)(zhuan)有模型(xing)在(zai)(zai)能力方面領(ling)先，并(bing)且目前人們(men)認為專(zhuan)(zhuan)有模型(xing)更(geng)安(an)全。

首先(xian)是性能。根據領(ling)先(xian)基(ji)準(zhun)，如大規模(mo)多任務(wu)語言理解評測，OpenAI的GPT-4目前脫穎而出，成為最(zui)強(qiang)大和(he)最(zui)有能(neng)力的(de)LLM。盡(jin)管開源(yuan)(yuan)模型(xing)的(de)質量正在迅(xun)速提升，但它們仍然(ran)落后于先進(jin)的(de)閉源(yuan)(yuan)同類產(chan)品。

這背后(hou)的原因是訓練先進(jin)基(ji)礎模型的嚴酷商(shang)業現實。前(qian)期(qi)成本巨大(da)，從(cong)購買專業硬(ying)件(jian)，如高(gao)達3萬美元(yuan)的Nvidia最新H100 GPU芯片，到巨額(e)云計算費用都包含在內。此外，部署先進(jin)的訓練技術(shu)，如人(ren)類反饋的強化(hua)學習，需要專業知識(shi)。像Cohere、Anthropic、Adept、Mistral、Aleph Alpha、AI21 Labs和(he)Imbue這(zhe)(zhe)樣的初創公司(si)，大部分預算都投入到了芯片上，這(zhe)(zhe)一支出模(mo)式便能說明這(zhe)(zhe)一點(dian)。

總的來說，專有模型投(tou)入資(zi)源最(zui)多。以OpenAI為(wei)例，所涉及的成本之高似乎促使它從開源轉向封閉。OpenAI由首席執行官Sam Altman以及Elon Musk等(deng)知(zhi)名人士在2015年創立，最(zui)初致(zhi)力于(yu)研發(fa)開(kai)源(yuan)模型(xing)。然而，在發(fa)布(bu)迄今為(wei)止最(zui)強大(da)(da)的大(da)(da)語言(yan)模型(xing)時，它卻放棄(qi)了最(zui)初的開(kai)源(yuan)承諾。這種轉變(bian)部分可(ke)以歸(gui)因于(yu)OpenAI需要保護其巨額(e)投入。

安(an)全性目前被視為閉源的另一優勢(shi)。OpenAI聲稱，選擇封(feng)閉的另一個(ge)原因(yin)是LLM相(xiang)關的(de)道德風險(xian)。這些(xie)模(mo)型(xing)有可(ke)能被不良行為(wei)者濫用(yong)，隨(sui)著(zhu)模(mo)型(xing)能力越來越強，公開可(ke)訪問的(de)風險(xian)也在增(zeng)加。OpenAI的首席科學家Ilya Sutskever表示：“如果你像我們一(yi)樣相信，某個(ge)時候(hou)，AI或者AGI將(jiang)變得極其(qi)強(qiang)大(da)，那(nei)么開源它根本沒有意(yi)(yi)義。這是(shi)一(yi)個糟糕的主意(yi)(yi)。”

那么，鑒于(yu)Sutskever的上述論點，以及專有模型的強(qiang)大(da)性能優勢，為(wei)什么開源生成式AI發(fa)展會引起如(ru)此(ci)廣(guang)泛的關注呢？全(quan)球最大的科技公(gong)司(si)以及初創(chuang)公(gong)司(si)和(he)大量(liang)開發(fa)者(zhe)都加(jia)入(ru)了這股潮流(liu)。

其中(zhong)一個(ge)原因是(shi)，隨著時間的推(tui)移，開源(yuan)在科技界(jie)中(zhong)慢慢取得了(le)切(qie)實成功。現(xian)代云基礎設施主要在Linux上運行，機器學習由Python等開源編(bian)程語言所驅動，開源滲(shen)透(tou)到了科(ke)技領域的許多方(fang)面(mian)。

“AI屆的(de)(de)伍德(de)斯托(tuo)克(ke)”的(de)(de)激動人心之處在于開(kai)源(yuan)創新。開(kai)源(yuan)LLM將其(qi)權重和參(can)數(shu)公開(kai)，使全球的(de)開(kai)發(fa)者社(she)群(qun)能夠對(dui)其(qi)進行微調并改進，激發(fa)出(chu)比最(zui)新的(de)專有模型(xing)更大的(de)創新。

對于(yu)尋求采用生成式AI的企業來說，輕松微調(diao)開源(yuan)模(mo)型的能力(li)也(ye)非(fei)常吸引人。他們可以(yi)根(gen)據(ju)自己公司特(te)(te)定(ding)的數(shu)據(ju)來定(ding)制這些模(mo)型，以(yi)實現需要這種知識的特(te)(te)定(ding)用例。

“AI屆(jie)的伍德斯托(tuo)克”的組織(zhi)者Hugging Face是開源AI運(yun)動的早期(qi)先驅之一。該公司(si)成立于2016年(nian)，其開源(yuan)產品(pin)之一是Transformers庫。它是LLM的開放(fang)存(cun)儲(chu)庫，客戶可以(yi)(yi)訪問以(yi)(yi)進一(yi)步自(zi)行調整模型，或者通過(guo)API調用典型的LLM功能，如補(bu)全(quan)句子、分類或(huo)文本生成。這個“模型即服務(wu)”平臺使(shi)各種規模的企業都可以從實驗過渡(du)到部署，而無需占(zhan)用過多內部資源。用戶可以使(shi)用托管的基礎設施將任何(he)模型轉換(huan)為自己的API，彰顯出開源的(de)民(min)主化(hua)AI精神。

Microsoft、Google、Meta、Intel和(he)eBay等巨頭(tou)都是(shi)Hugging Face一(yi)萬多名客(ke)戶中的一(yi)員(yuan)。其“模型(xing)即服務”概(gai)念已經演變為托管(guan)超過(guo)一(yi)百(bai)萬個模型(xing)、數(shu)據(ju)集和(he)應用(yong)程序。這個多樣化的生態系統強調(diao)了其開源工具的廣(guang)泛適用(yong)性(xing)，范圍包含從輝瑞和(he)羅氏等制藥(yao)巨頭的數(shu)據(ju)安全(quan)升級(ji)，到專門的AI應(ying)用，如彭博的財務語(yu)言模型(xing)BloombergGPT。

隨著AI領域的不斷發(fa)展，領導者(zhe)和關鍵(jian)參與者(zhe)越(yue)來(lai)越(yue)主張將生(sheng)成式(shi)AI開源。圖靈(ling)獎得主、Meta的首席AI科學家Yann LeCun認為世界(jie)需要開源LLM：“AI基(ji)(ji)礎模型將成為基(ji)(ji)礎設(she)施，人們和(he)行業(ye)會(hui)要求(qiu)它開(kai)源。就像互(hu)聯網的(de)軟件基礎(chu)設施一樣。”

Meta首席執行官Mark Zuckerberg對開(kai)源的(de)(de)熱衷則是出于(yu)不同的(de)(de)目的(de)(de)。“它每(mei)天(tian)都在變得更加高效，”他評(ping)論道，“我只(zhi)是覺得，整個(ge)社群，包括學生、黑客、初創公司以及其他人使(shi)用開(kai)源模型，我們也能從中學到很多。”

在這種理(li)念的指導(dao)下(xia)，Meta于7月發布(bu)的LLaMa-2可以說是(shi)目前公眾可以獲(huo)取(qu)的(de)最強大(da)、性能最高的(de)開源LLM。它提供了(le)預訓練和微調的版本，參數分別為70億、130億和700億。

除了LLaMa-2這樣的(de)主流項(xiang)目外，其(qi)他(ta)一些(xie)值得(de)關注的(de)項(xiang)目也正在為開源AI生態做出(chu)貢(gong)獻。例如，Runway公(gong)司于2018年開始專(zhuan)注于為電影制作人(ren)提(ti)供AI工具，但現在已(yi)經轉向(xiang)生(sheng)成式AI。其旗艦產(chan)品Gen-2開拓了(le)根據(ju)文本提示創建視頻這一細分領(ling)域(yu)，該(gai)公(gong)司還推出(chu)了(le)Runway Studios和AI電(dian)影節以擴大(da)其影響力。

另一方(fang)面(mian)，LangChain作為一(yi)個(ge)Python庫，旨在(zai)增強LLM的可用性(xing)、可訪問(wen)性(xing)和多功能性(xing)，使開(kai)發人(ren)員(yuan)更容易(yi)將(jiang)這些強大的工具集(ji)成(cheng)到(dao)各種應用程序中。這些項(xiang)目都展示了開(kai)源AI模型(xing)在(zai)不同行(xing)業日漸增長的(de)適(shi)用性(xing)和多樣性(xing)。

開(kai)源模(mo)型也挑戰了關于模(mo)型參數的(de)一個觀念(nian)，即“更(geng)大總是更(geng)好(hao)”。較小的(de)(de)模(mo)型可(ke)以提供成本效益、更(geng)高的(de)(de)靈活性，而且在針對特定(ding)應用(yong)程(cheng)序進行微調時(shi)，甚至(zhi)可(ke)能超越大模(mo)型的(de)(de)表現。

涉及到確(que)保(bao)AI安全和負責(ze)任的(de)關(guan)鍵問題時，開(kai)源一方(fang)也有好的(de)論(lun)據。專有模型的(de)支持者認(ren)為，讓(rang)所有人都可以(yi)訪問模型很危險。然而，開(kai)源AI的(de)支持者反駁說，開源LLM提供了(le)透明(ming)度，并吸引多元社群的審查。這有助于識別和(he)減(jian)少偏見，使它(ta)們(men)更加(jia)公正。此外，開(kai)源模(mo)型與一些閉源模(mo)型不(bu)同，它(ta)們(men)在如何使用用戶數據方面提供了(le)透明(ming)度。

未(wei)來(lai)將會如何(he)，哪種模(mo)型將會勝出呢(ni)？總(zong)的來(lai)說(shuo)，兩種模(mo)型各有千秋。以GPT-4為代表的(de)專(zhuan)有模(mo)型(xing)具有獨特的(de)優勢(shi)，包(bao)括自(zi)定(ding)義、專(zhuan)用支持和強大(da)的(de)安全功(gong)能。另一(yi)方面(mian)，效率、透明度和公平性等特征(zheng)為開源AI提供了有力的(de)論據(ju)。

當然，理(li)性(xing)的策(ce)略(lve)是讓公司(si)提(ti)供并利用兩者的優點(dian)。因此，騰訊采取雙(shuang)重策(ce)略(lve)。我們已經推(tui)出了(le)專有基礎AI模(mo)型“混元”，可用(yong)于多種應用(yong)程序，同(tong)時也在騰訊云(yun)上提供(gong)了一個“模(mo)型即服務”解決方案。這項服務旨在協助多個行(xing)業(ye)高效部署開(kai)源模(mo)型。我們預計，在未來格局中，少(shao)數幾種專有基礎模(mo)型將占據主導地位，但針對特定行(xing)業(ye)和企業(ye)應用(yong)的(de)專門(men)開(kai)源模(mo)型也將蓬勃(bo)發(fa)展。基于非常小的(de)模(mo)型（能夠在智能手機和筆記本(ben)電腦(nao)的(de)即時通(tong)訊軟件內運行(xing)）的(de)個人AI助手將成(cheng)為我們的伙伴(ban)。

Meta的LLaMa-2由美(mei)國(guo)云服(fu)務提供(gong)商，如(ru)Microsoft Azure和Amazon的AWS托管(guan)，這進一步證明這些科(ke)技巨(ju)頭同樣看(kan)到支持開(kai)源模(mo)型(xing)和專有模(mo)型(xing)的價值(zhi)所在(zai)。

我們應(ying)該歡迎開源和(he)專有模(mo)型之間的(de)(de)良性競爭。幸運的(de)(de)是(shi)，目前似(si)乎(hu)還(huan)沒(mei)有一(yi)種模(mo)型能占據主導地位。過去六(liu)個(ge)月中，兩種模(mo)型之間的(de)(de)質量差距已經縮小(xiao)。開源模(mo)型在激(ji)發創新、AI民主化以及促進責(ze)任和(he)安(an)全方面的(de)潛(qian)力愈加(jia)明顯。

牛津(jin)大學計算機(ji)科學教授、圖靈研究所基礎AI研究主任、AI先驅Michael Wooldridge教授將在2023年皇家研究院(yuan)圣(sheng)誕講座上發(fa)表演講“AI的真相(xiang)”。他希望看到兩種模型都(dou)能繁榮發(fa)展。他表示：“這一年，像ChatGPT這樣(yang)的大眾市場(chang)、通用AI工具(ju)已經(jing)出現，我們處于(yu)一個關(guan)鍵節點。開源和專有(you)模型各有(you)優劣。在向(xiang)前發展的過(guo)程中，保持平衡至關(guan)重(zhong)要，我們需要確(que)保AI繼續成為造福廣(guang)大社會的(de)工具。”正如1969年的伍(wu)德斯托克音樂節一樣，2023年春天的舊金山已經在AI史(shi)冊上占有一席之地。

国产一线二线三线女,无码AV天天AV天天爽,亚洲欧美成人一区二区三区,天天躁日日躁狠狠躁免费麻豆,网站你们懂得

Tencent騰訊

在生成式AI中尋求平衡：開源模型與專有模型之爭

關注我們

加入我們

聯系我們

法律信息