羿閣 衡宇 發自 凹非寺
量子位 | 公眾號 QbitAI
你說,咱今天可以不加班不?
不,到點走不了,今天這班你必須得加。
如此冷冰冰的回答,來自一個可以
免費調戲千億引數大模型的網站
:
這個網站是依託Meta AI開源的預訓練語言模型
OPT-175B
做的,背後團隊來自加州大學伯克利分校。
最近該網站在twitter有點火。
再加上
不用註冊
,
可以“白嫖”
,不少人一邊大呼Nice,一邊已經去網站“到此一遊”了。
如果你之前不知道它,不妨現在跟我們去玩一玩。
這是一個什麼網站?
網站主頁整個看起來還挺清爽,最重要的是位於頁面中心的輸出和輸入框。
在上方的輸入框敲入你需要的內容,點選一下左下角的藍色按鈕,再等上那麼一會兒,你就能得到結果了。
目前可以實現的功能有:詢問事實,直接聊天,航班程式碼,多語言翻譯,加密貨幣,程式碼,計算數學……
比如把你想要回家的迫切心情翻譯一下:
或者來點兒數學題:
為了使用起來更簡便,網站上只給了三個生成引數:
響應時長、溫度引數和Top-p。
在初始設定值下,無論輸入句的長與短,
響應時長
都需要20來秒的時間。
我們試了一下,把這一引數極限往左或往右拉,發現響應時長大概是維持在10-90秒這個區間裡。
溫度引數
控制取樣分佈的尖銳程度,較低的溫度會促使生成器從模型中選擇得分較高的token。
Top-p
從累計機率超過p的最小可能單詞集中抽樣,較小的p值會阻止生成器從模型中選取分數較低的token。
團隊在網站主頁上還宣告,雖然只給大家用三個,但是我們後端是支援多種生成技術和引數的!
如果使用者現在就想嘗試更多的超引數,在網站上體驗不同的生成技術,可以透過使用團隊做出的一個系統Alpa
(用來訓練和服務大模型)
,自己增加相關服務的設定。
他們目前在開發一個RESTFUL API 來公開完整的引數集,後續可以關注一下。
因為採用的是隨機抽樣,所以針對同一個問題,每一次生成的
結果都會有所不同
。
比如,前後兩次想讓網站幫忙解決“中午吃啥”這個千古難題,它一會兒推薦你吃三明治,一會兒推薦你吃沙拉。
(總之是非常健康了)
在隱私保密這一塊,網站稱不會儲存輸入的內容,只會記錄輸入詞長度這一類東西。
團隊還說了,對於沒多少AI相關背景,還想了解接觸一下AI生態系統的人來說,網站挺容易上手。
為了驗證友好性,我們找來一個AI小白玩兒了一下這個網站。
開啟網站,這位旁友啥引數也沒動,單刀直入,在輸入框裡明目張膽地輸入了
讓我們邀請讀者在閱讀這篇文章後,
關注我們的公號
吧。
21。7秒後,網站和我們一起面帶熱情的微笑,暗
(ming)
示
(shi)
你記得關注量子位
(手動狗頭)
。
網站背後的技術依託
要想搞清網站背後的原理,首先,讓我們先了解一下它為什麼會選擇OPT-175B做原型。
OPT-175B
,是Meta AI開源的預訓練語言模型,共有1750億個引數,今年5月開源的時候,簡直引發了AI研究社群的大轟動。
原因是它的效果完全不輸GPT-3,還彌補了OpenAI不夠open的問題,有時候被大家戲稱為GPT-3的免費版本。
△用14個NLP任務對GPT和OPT進行測試,平均精度相差不大
不僅從完整模型到訓練程式碼、部署程式碼完全開放,OPT-175B執行時的碳消耗更是連GPT-3所需的1/7都不到,屬實是非常環保省能了。
可以說,OPT-175B的開源增加了大模型開發的開放性。
而這個神奇網站背後的技術
Alpa
,則堪稱是OPT-175B的“加強免費版”。
Alpa,是一個專門用於訓練和服務大規模神經網路的系統。
此前,無論是OpenAI的GPT-3,還是Meta AI的OPT-175B,都已經實現了將神經網路擴充套件到數千億引數。
但是呢,神經網路規模越大,訓練和服務他們的
分散式系統技術就更復雜
。
現有的模型並行訓練系統,要麼要求使用者手動建立一個並行化計劃,要麼要求使用者從有限的模型並行化配置空間中自動生成一個。
相對來說有點復裡複雜的,而且還做不到在分散式計算裝置上擴充套件複雜的DL模型。
Alpa的優勢在於,僅通過幾行程式碼,就能實現大規模分散式訓練和服務的自動並行化。
具體來說,Alpa的突破之處有以下幾點:
專為大型模型設計
:Alpa在分散式叢集上實現了數十億引數的訓練模型的線性縮放,專為訓練和服務於GPT-3等大型模型而設計。
沒有硬體限制
:不依賴最新一代的A100 80GB GPU或花哨的InfiniBand硬體,憑藉自家的GPU叢集即可使用OPT-175B,特別是在40GB A100、V100等老一代GPU上也能提供更靈活的並行性服務。
靈活的並行策略
:Alpa能夠根據叢集設定和模型架構,自動找出適當的模型並行策略。
而且Alpa由Jax、XLA和Ray等開源、高效能和生產就緒的庫提供支援,和ML生態系統整合得比較緊密。
網站的建立,就是團隊在Alpa的基礎上,根據Meta AI已開源的OPT-175B,做了一個類似OpenAI GPT-3的服務。
執行成本更低,並行化技術更先進,所以可以做到免費供所有人使用。
當然,網站使用受Alpa開源許可的約束。同時因為是針對OPT-175B的,也受到相應的約束,也就是說,這個網站玩玩可以,真要應用,
只能以研究為目的
。
值得一提的是,有關這篇系統的論文《Alpa: Automating Inter- and Intra-Operator Parallelism for Distributed Deep Learning》已經被收錄進計算機系統領域頂會OSDI 2022。
並且,該團隊還在國際機器學習大會ICML 2022上,做了關於整個大模型技術棧的tutorial。
目前該專案已在GitHub上
開源
,連結可在文末自取。
研究團隊
Alpa的研究團隊主要來自加州大學伯克利分校。
共同一作有三位,分別是鄭憐憫,李卓翰,張昊。
鄭憐憫
,加州大學伯克利分校EECS
(電子工程和計算機科學)
系博士,研究興趣包括大規模ML系統、編譯器、平行計算和程式合成。
鄭憐憫本科畢業於上海交通大學ACM榮譽班,取得計算機科學學士學位。曾經在Amazon Web Services、OctoML和華盛頓大學擔任過研究實習生。
李卓翰
,加州大學伯克利分校計算機科學博士生,本科畢業於北京大學。
他的研究方向主要在ML和分散式系統的交叉點,致力於提高當前ML模型的準確性、效率、可解釋性等效能。
張昊
,加州大學伯克利分校RISE實驗室博士後。
張昊最近致力於大規模分散式DL,構建端到端的可組合和自動化系統;還研究大規模分散式ML,涉及效能和可用性。
如果你感興趣的話,可以戳下面的連結,自己上手體驗一下~
網站demo:
https://opt。alpa。ai
參考資料:
[1]https://arxiv。org/pdf/2201。12023。pdf
[2]https://arxiv。org/pdf/2205。01068。pdf
[3]https://github。com/alpa-projects/alpa
— 完 —
量子位 QbitAI · 頭條號簽約