欧美人与禽2O2O性论交,秋霞免费视频,国产美女视频免费观看网址,国产成人亚洲综合网色欲网

成本 300 美元、比肩 ChatGPT 和 Bard,低成本聊天機(jī)器人 Vicuna 來(lái)了(聊天機(jī)器人 價(jià)格)

作者 | 凌敏、核子可樂(lè)

大語(yǔ)言模型(LLM)的快速發(fā)展徹底顛覆了聊天機(jī)器人系統(tǒng),實(shí)現(xiàn)了前所未有的智能水平。OpenAIChatGPT 就是其中最典型的代表。雖然 ChatGPT 的性能令人印象深刻,但目前我們并不清楚 ChatGPT 的訓(xùn)練和架構(gòu)細(xì)節(jié),這也阻礙了該領(lǐng)域的研究和開源創(chuàng)新。

受 Meta LLaMA 和 Stanford Aplaca 項(xiàng)目的啟發(fā),近日,來(lái)自加州大學(xué)伯克利分校、卡內(nèi)基梅隆大學(xué)、斯坦福大學(xué)、加州大學(xué)圣迭戈分校的研究人員們共同推出了一個(gè)開源聊天機(jī)器人 Vicuna-13B。這是一款通過(guò) LLaMA 模型微調(diào)和 ShareGPT 用戶共享對(duì)話訓(xùn)練而成的開源聊天機(jī)器人。以 GPT-4 作為比照對(duì)象的初步評(píng)估表明,Vicuna-13B 的質(zhì)量可達(dá) OpenAI ChatGPT 和 Google Bard 的 90% 以上,并在超過(guò) 90% 的情況下優(yōu)于 LLaMA 和 Stanford Alpaca 等其他模型。

值得一提的是,Vicuna-13B 的訓(xùn)練成本僅為 300 美元(約合 2062 元人民幣)。目前,Vicuna-13B 訓(xùn)練和服務(wù)代碼及在線演示可向非商業(yè)用例開放。

在首個(gè)版本中,研究人員將在 GitHub repo 上共享訓(xùn)練、服務(wù)和評(píng)估代碼: https://github.com/lm-sys/FastChat。

Vicuna-13B 模型的權(quán)重鏈接:https://github.com/lm-sys/FastChat#vicuna-weights

Vicuna-13B 演示鏈接:https://chat.lmsys.org/

Vicuna 是如何煉成的?

成本 300 美元、比肩 ChatGPT 和 Bard,低成本聊天機(jī)器人 Vicuna 來(lái)了(聊天機(jī)器人 價(jià)格)

工作流程概覽

在一篇文章中,研究人員介紹了整體的工作流程。

首先,研究人員從 ShareGPT.com(一個(gè)供用戶分享 ChatGPT 對(duì)話內(nèi)容的網(wǎng)站)收集了約 7 萬(wàn)個(gè)對(duì)話,并增強(qiáng)了 Alpaca 提供的訓(xùn)練腳本,以更好地處理多輪對(duì)話和長(zhǎng)序列。訓(xùn)練是在一天內(nèi)通過(guò) 8 個(gè) A100 GPU 配合 PyTOrch FSDP 完成的。為了提供演示服務(wù),研究人員建立起一個(gè)輕量級(jí)的分布式服務(wù)系統(tǒng),創(chuàng)建了一組 80 個(gè)不同問(wèn)題,利用 GPT-4 來(lái)判斷模型輸出,借此對(duì)模型質(zhì)量做初步評(píng)估。

為了比較兩套不同模型,研究人員將各個(gè)模型的輸出組合成各問(wèn)題的單一提示,再將提示發(fā)送至 GPT-4,由 GPT-4 評(píng)估哪個(gè)模型做出的響應(yīng)更好。LLaMA、Alpaca、ChatGPT 和 Vicuna 的具體比較如下表一所示。

表一:幾大知名模型間的性能比較

模型名稱

LLaMA

Alpaca

Vicuna

Bard/ChatGPT

數(shù)據(jù)集

公開可用數(shù)據(jù)集(1T令牌)

來(lái)自davinci-003 API的Self-instruct(52K樣本)

用戶共享的對(duì)話(70K樣本)

N/A

訓(xùn)練代碼

N/A

可用

可用

N/A

評(píng)估指標(biāo)

學(xué)術(shù)基準(zhǔn)

作者評(píng)估

GPT-4評(píng)估

混合

訓(xùn)練成本(7B)

82K個(gè)GPU時(shí)

500美元(數(shù)據(jù)) 100美元(訓(xùn)練)

140美元(訓(xùn)練)

N/A

訓(xùn)練成本(13B)

135K個(gè)GPU時(shí)

N/A

300美元(訓(xùn)練)

N/A

前文提到,Vicuna 是通過(guò)從 ShareGPT.com 的公共 API 收集到的約 70K 用戶共享對(duì)話對(duì) LLaMA 基礎(chǔ)模型微調(diào)而成。為了確保數(shù)據(jù)質(zhì)量,研究人員將 HTML 轉(zhuǎn)換回 markdown 并過(guò)濾掉了一些不合適或低質(zhì)量的樣本。此外,研究人員還將冗長(zhǎng)的對(duì)話拆分成多個(gè)小部分,以適應(yīng)模型所能支持的最大上下文長(zhǎng)度。

訓(xùn)練方法以 Standford Alpaca 為基礎(chǔ),并做出以下改進(jìn)。

  • 內(nèi)存優(yōu)化:為了使 Vicuna 能夠理解長(zhǎng)上下文,研究人員將 Alpaca 的最大上下文長(zhǎng)度從 512 擴(kuò)展至 2048,但這也大大增加了 GPU 內(nèi)存需求。研究人員利用梯度檢查點(diǎn)和閃存注意力的方式來(lái)解決內(nèi)存壓力。
  • 多輪對(duì)話:研究人員調(diào)整訓(xùn)練損失以考慮多輪對(duì)話,并僅根據(jù)聊天機(jī)器人的輸出計(jì)算微調(diào)損失。
  • 通過(guò)競(jìng)價(jià)實(shí)例降低成本:40 倍的大規(guī)模數(shù)據(jù)集和 4 倍的訓(xùn)練序列長(zhǎng)度對(duì)訓(xùn)練成本提出了很大挑戰(zhàn)。為此研究人員使用 SkyPilot 托管點(diǎn)來(lái)降低成本,希望使用更便宜的競(jìng)價(jià)實(shí)例并配合自動(dòng)恢復(fù)以搶占/切換區(qū)域。該解決方案將 7B 模型的訓(xùn)練成本從 500 美元削減至 140 美元左右,將 13B 模型的訓(xùn)練成本從 1000 美元削減至 300 美元。研究人員構(gòu)建了一套服務(wù)系統(tǒng),能夠使用分布式工作節(jié)點(diǎn)為多個(gè)模型提供服務(wù),它支持來(lái)自本地集群和云 GPU 工作節(jié)點(diǎn)的多種靈活插件。通過(guò)使用 SkyPilot 中的容錯(cuò)控制器和托管點(diǎn)功能,這套服務(wù)系統(tǒng)能夠很好地與來(lái)自多種云環(huán)境的低成本競(jìng)價(jià)實(shí)例配合運(yùn)作,借此降低服務(wù)成本。其目前還只是輕量級(jí)實(shí)現(xiàn),研究人員正努力將更多最新研究成果集成進(jìn)來(lái)。

Vicuna 的優(yōu)勢(shì)與局限性

研究人員展示了 Alpaca 和 Vicuna 在基準(zhǔn)問(wèn)題上的回答示例。在使用 70K 用戶共享的 ChatGPT 對(duì)話對(duì) Vicuna 進(jìn)行微調(diào)之后,與 Alpaca 相比,Vicuna 能夠給出更詳盡、結(jié)構(gòu)更合理的答案(參見下圖),且質(zhì)量幾乎與 ChatGPT 持平。

成本 300 美元、比肩 ChatGPT 和 Bard,低成本聊天機(jī)器人 Vicuna 來(lái)了(聊天機(jī)器人 價(jià)格)

成本 300 美元、比肩 ChatGPT 和 Bard,低成本聊天機(jī)器人 Vicuna 來(lái)了(聊天機(jī)器人 價(jià)格)

然而,評(píng)估聊天機(jī)器人絕非易事。隨著 GPT-4 的最新進(jìn)展,研究人員很好奇其能力是否已經(jīng)達(dá)到了與人類相仿的水平,甚至可用于實(shí)現(xiàn)基準(zhǔn)生成及性能評(píng)估的自動(dòng)化框架。初步調(diào)查發(fā)現(xiàn),在比較聊天機(jī)器人的答案時(shí),GPT-4 可以給出非常一致的排名和詳細(xì)評(píng)估(參見上圖中的 GPT-4 判斷示例)。

基于 GPT-4 的初步評(píng)估(見下圖),可以看到 Vicuna 的能力已經(jīng)達(dá)到 Bard/ChatGPT 的 90%。雖然這套框架能在一定程度上反映聊天機(jī)器人的潛力,但方法本身并不夠嚴(yán)格。目前為聊天機(jī)器人建立評(píng)估系統(tǒng)仍是一個(gè)懸而未決的難題,尚需進(jìn)一步研究。

成本 300 美元、比肩 ChatGPT 和 Bard,低成本聊天機(jī)器人 Vicuna 來(lái)了(聊天機(jī)器人 價(jià)格)

GPT-4對(duì)相對(duì)響應(yīng)質(zhì)量做出的評(píng)估

與其他大語(yǔ)言模型類似,Vicuna 也具有一定局限性。例如,它不擅長(zhǎng)涉及推理或數(shù)學(xué)的任務(wù),而且在確切識(shí)別自身或確保所輸出事實(shí)的準(zhǔn)確性方面可能存在局限。此外,它并沒(méi)有得到充分優(yōu)化以保證安全性,或緩解潛在的毒性或偏見。為了解決安全問(wèn)題,研究人員使用 OpenAI 的審核 API 來(lái)過(guò)濾掉在線演示中的不當(dāng)用戶輸入。盡管還有問(wèn)題,但研究人員預(yù)計(jì) Vicuna 將作為未來(lái)解決這些局限的開放起點(diǎn)。

如何評(píng)估聊天機(jī)器人?

對(duì) AI 聊天機(jī)器人的評(píng)估是個(gè)老大難問(wèn)題,需要驗(yàn)證其語(yǔ)言理解、推理和上下文感知能力。隨著 AI 聊天機(jī)器人變得越來(lái)越先進(jìn),當(dāng)前的開放基準(zhǔn)可能不足以做出準(zhǔn)確判斷。例如,Standford Alpaca 使用的評(píng)估數(shù)據(jù)集 self-instruct,在領(lǐng)先聊天機(jī)器人中就能得到有效解答,導(dǎo)致人類很難辨別各模型間的性能差異。更多限制還包括訓(xùn)練/測(cè)試數(shù)據(jù)污染及創(chuàng)建新基準(zhǔn)可能帶來(lái)的高昂成本。

為了解決這些問(wèn)題,研究人員提出了一套基于 GPT-4 的評(píng)估框架,借此自動(dòng)評(píng)估聊天機(jī)器人性能。

首先,研究人員設(shè)計(jì)了 8 種問(wèn)題類型,包括費(fèi)米問(wèn)題、角色扮演場(chǎng)景及編碼/數(shù)學(xué)任務(wù),借此測(cè)試聊天機(jī)器人的各方面性能。通過(guò)認(rèn)真設(shè)計(jì)的提示工程,GPT-4 得以生成基準(zhǔn)模型難以解決的多樣化、極具挑戰(zhàn)的問(wèn)題。研究人員為各個(gè)類別具體選擇 10 個(gè)問(wèn)題,并從 5 款聊天機(jī)器人處收集答案:LLaMA、Alpaca、ChatGPT、Bard 以及 Vicuna。

之后,研究人員要求 GPT-4 根據(jù)指導(dǎo)性、相關(guān)性、準(zhǔn)確性和細(xì)節(jié)度秋評(píng)估答案質(zhì)量。最終發(fā)現(xiàn),GPT-4 不僅能夠生成相對(duì)一致的評(píng)分,還能具體解釋為什么給出這樣的評(píng)分(詳見https://vicuna.lmsys.org/eval)。但是,研究人員也注意到 GPT-4 似乎不太擅長(zhǎng)判斷編碼/數(shù)學(xué)任務(wù)。

成本 300 美元、比肩 ChatGPT 和 Bard,低成本聊天機(jī)器人 Vicuna 來(lái)了(聊天機(jī)器人 價(jià)格)

GPT-4對(duì)各模型響應(yīng)給出的比較評(píng)分

如上圖所示,為各基準(zhǔn)與 Vicuna 間的比較結(jié)果。在超過(guò) 90%的問(wèn)題中,GPT-4 更支持 Vicuna 而非其他先進(jìn)開源模型(LLaMA 和 Alpaca)的答案,而且在性能上與專有模型(ChatGPT、Bard)等相差不大。在 45%的問(wèn)題中,GPT-4 都將 Vicuna 的回答評(píng)為優(yōu)于或等于 ChatGPT 的回答。GPT-4 會(huì)以 10 分為滿分為各個(gè)回答做出定量評(píng)分,因此研究人員將各個(gè)模型在 80 個(gè)問(wèn)題上獲得的分?jǐn)?shù)相加以計(jì)算其與 Vicuna 之間的總分比較。

如表二所示,Vicuna 的部分為 ChatGPT 的 92%。盡管近來(lái)取得巨大進(jìn)步,但這些聊天機(jī)器人仍有自己的局限,例如難以解決基本的數(shù)學(xué)問(wèn)題且編碼能力有限。

表二:GPT-4 給出的評(píng)估總分

基準(zhǔn)模型

基準(zhǔn)得分

Vicuna得分

LLaMA-13B

513.0

694.0

Alpaca-13B

583.0

704.0

Bard

664.0

655.5

ChatGPT

693.0

638.0

雖然這套評(píng)估框架確實(shí)具有一定的聊天機(jī)器人評(píng)估潛力,但尚不足以作為嚴(yán)格或成熟的評(píng)判方法,特別是無(wú)法處理大語(yǔ)言模型容易產(chǎn)生的幻覺問(wèn)題。為聊天機(jī)器人開發(fā)一套全面、標(biāo)準(zhǔn)化的評(píng)估系統(tǒng),仍是一個(gè)懸而未決、有待進(jìn)一步研究的問(wèn)題。

參考鏈接:

https://vicuna.lmsys.org/

本文轉(zhuǎn)載來(lái)源:

https://www.infoq.cn/news/cSP1Qaue8AbEhQY1QiQ5

相關(guān)新聞

聯(lián)系我們
聯(lián)系我們
公眾號(hào)
公眾號(hào)
在線咨詢
分享本頁(yè)
返回頂部