想玩GPT-3申請不到？UC伯克利讓你免費線上玩，最快10s出結果

羿閣衡宇發自凹非寺

量子位 | 公眾號 QbitAI

你說，咱今天可以不加班不？

不，到點走不了，今天這班你必須得加。

如此冷冰冰的回答，來自一個可以

免費調戲千億引數大模型的網站

：

這個網站是依託Meta AI開源的預訓練語言模型

OPT-175B

做的，背後團隊來自加州大學伯克利分校。

最近該網站在twitter有點火。

再加上

不用註冊

，

可以“白嫖”

，不少人一邊大呼Nice，一邊已經去網站“到此一遊”了。

如果你之前不知道它，不妨現在跟我們去玩一玩。

這是一個什麼網站？

網站主頁整個看起來還挺清爽，最重要的是位於頁面中心的輸出和輸入框。

在上方的輸入框敲入你需要的內容，點選一下左下角的藍色按鈕，再等上那麼一會兒，你就能得到結果了。

目前可以實現的功能有：詢問事實，直接聊天，航班程式碼，多語言翻譯，加密貨幣，程式碼，計算數學……

比如把你想要回家的迫切心情翻譯一下：

或者來點兒數學題：

為了使用起來更簡便，網站上只給了三個生成引數：

響應時長、溫度引數和Top-p。

在初始設定值下，無論輸入句的長與短，

響應時長

都需要20來秒的時間。

我們試了一下，把這一引數極限往左或往右拉，發現響應時長大概是維持在10-90秒這個區間裡。

溫度引數

控制取樣分佈的尖銳程度，較低的溫度會促使生成器從模型中選擇得分較高的token。

Top-p

從累計機率超過p的最小可能單詞集中抽樣，較小的p值會阻止生成器從模型中選取分數較低的token。

團隊在網站主頁上還宣告，雖然只給大家用三個，但是我們後端是支援多種生成技術和引數的！

如果使用者現在就想嘗試更多的超引數，在網站上體驗不同的生成技術，可以透過使用團隊做出的一個系統Alpa

（用來訓練和服務大模型）

，自己增加相關服務的設定。

他們目前在開發一個RESTFUL API 來公開完整的引數集，後續可以關注一下。

因為採用的是隨機抽樣，所以針對同一個問題，每一次生成的

結果都會有所不同

。

比如，前後兩次想讓網站幫忙解決“中午吃啥”這個千古難題，它一會兒推薦你吃三明治，一會兒推薦你吃沙拉。

（總之是非常健康了）

在隱私保密這一塊，網站稱不會儲存輸入的內容，只會記錄輸入詞長度這一類東西。

團隊還說了，對於沒多少AI相關背景，還想了解接觸一下AI生態系統的人來說，網站挺容易上手。

為了驗證友好性，我們找來一個AI小白玩兒了一下這個網站。

開啟網站，這位旁友啥引數也沒動，單刀直入，在輸入框裡明目張膽地輸入了

讓我們邀請讀者在閱讀這篇文章後，

關注我們的公號

吧。

21。7秒後，網站和我們一起面帶熱情的微笑，暗

（ming）

示

（shi）

你記得關注量子位

（手動狗頭）

。

網站背後的技術依託

要想搞清網站背後的原理，首先，讓我們先了解一下它為什麼會選擇OPT-175B做原型。

OPT-175B

，是Meta AI開源的預訓練語言模型，共有1750億個引數，今年5月開源的時候，簡直引發了AI研究社群的大轟動。

原因是它的效果完全不輸GPT-3，還彌補了OpenAI不夠open的問題，有時候被大家戲稱為GPT-3的免費版本。

△用14個NLP任務對GPT和OPT進行測試，平均精度相差不大

不僅從完整模型到訓練程式碼、部署程式碼完全開放，OPT-175B執行時的碳消耗更是連GPT-3所需的1/7都不到，屬實是非常環保省能了。

可以說，OPT-175B的開源增加了大模型開發的開放性。

而這個神奇網站背後的技術

Alpa

，則堪稱是OPT-175B的“加強免費版”。

Alpa，是一個專門用於訓練和服務大規模神經網路的系統。

此前，無論是OpenAI的GPT-3，還是Meta AI的OPT-175B，都已經實現了將神經網路擴充套件到數千億引數。

但是呢，神經網路規模越大，訓練和服務他們的

分散式系統技術就更復雜

。

現有的模型並行訓練系統，要麼要求使用者手動建立一個並行化計劃，要麼要求使用者從有限的模型並行化配置空間中自動生成一個。

相對來說有點復裡複雜的，而且還做不到在分散式計算裝置上擴充套件複雜的DL模型。

Alpa的優勢在於，僅通過幾行程式碼，就能實現大規模分散式訓練和服務的自動並行化。

具體來說，Alpa的突破之處有以下幾點：

專為大型模型設計

：Alpa在分散式叢集上實現了數十億引數的訓練模型的線性縮放，專為訓練和服務於GPT-3等大型模型而設計。

沒有硬體限制

：不依賴最新一代的A100 80GB GPU或花哨的InfiniBand硬體，憑藉自家的GPU叢集即可使用OPT-175B，特別是在40GB A100、V100等老一代GPU上也能提供更靈活的並行性服務。

靈活的並行策略

：Alpa能夠根據叢集設定和模型架構，自動找出適當的模型並行策略。

而且Alpa由Jax、XLA和Ray等開源、高效能和生產就緒的庫提供支援，和ML生態系統整合得比較緊密。

網站的建立，就是團隊在Alpa的基礎上，根據Meta AI已開源的OPT-175B，做了一個類似OpenAI GPT-3的服務。

執行成本更低，並行化技術更先進，所以可以做到免費供所有人使用。

當然，網站使用受Alpa開源許可的約束。同時因為是針對OPT-175B的，也受到相應的約束，也就是說，這個網站玩玩可以，真要應用，

只能以研究為目的

。

值得一提的是，有關這篇系統的論文《Alpa： Automating Inter- and Intra-Operator Parallelism for Distributed Deep Learning》已經被收錄進計算機系統領域頂會OSDI 2022。

並且，該團隊還在國際機器學習大會ICML 2022上，做了關於整個大模型技術棧的tutorial。

目前該專案已在GitHub上

開源

，連結可在文末自取。

研究團隊

Alpa的研究團隊主要來自加州大學伯克利分校。

共同一作有三位，分別是鄭憐憫，李卓翰，張昊。

鄭憐憫

，加州大學伯克利分校EECS

（電子工程和計算機科學）

系博士，研究興趣包括大規模ML系統、編譯器、平行計算和程式合成。

鄭憐憫本科畢業於上海交通大學ACM榮譽班，取得計算機科學學士學位。曾經在Amazon Web Services、OctoML和華盛頓大學擔任過研究實習生。

李卓翰

，加州大學伯克利分校計算機科學博士生，本科畢業於北京大學。

他的研究方向主要在ML和分散式系統的交叉點，致力於提高當前ML模型的準確性、效率、可解釋性等效能。

張昊

，加州大學伯克利分校RISE實驗室博士後。

張昊最近致力於大規模分散式DL，構建端到端的可組合和自動化系統；還研究大規模分散式ML，涉及效能和可用性。

如果你感興趣的話，可以戳下面的連結，自己上手體驗一下～

網站demo：

https：//opt。alpa。ai

參考資料：

［1］https：//arxiv。org/pdf/2201。12023。pdf

［2］https：//arxiv。org/pdf/2205。01068。pdf

［3］https：//github。com/alpa-projects/alpa

— 完 —

量子位 QbitAI · 頭條號簽約

想玩GPT-3申請不到？UC伯克利讓你免費線上玩，最快10s出結果

想玩GPT-3申請不到？UC伯克利讓你免費線上玩，最快10s出結果

相關文章

推薦文章