本文轉(zhuǎn)自:Coggle數(shù)據(jù)科學(xué)
Attention Is All You Need (2017)
由Google Brain的團(tuán)隊(duì)撰寫,它徹底改變了自然語(yǔ)言處理(NLP)領(lǐng)域。論文的核心是提出了一種名為Transformer的全新模型架構(gòu),它完全舍棄了以往序列模型(如循環(huán)神經(jīng)網(wǎng)絡(luò) RNNs 和卷積神經(jīng)網(wǎng)絡(luò) CNNs)中常用的循環(huán)和卷積結(jié)構(gòu),而是完全依賴于“注意力機(jī)制”來(lái)處理序列數(shù)據(jù)。
以往的RNN模型必須按順序逐個(gè)處理序列中的詞語(yǔ),這使得訓(xùn)練過(guò)程難以并行化,尤其是在處理長(zhǎng)序列時(shí)效率很低。Transformer通過(guò)引入注意力機(jī)制,允許模型一次性處理整個(gè)序列,極大地提高了訓(xùn)練效率,使得處理超大規(guī)模的數(shù)據(jù)成為可能。
為了Transformer讓模型能從不同角度和層面捕捉詞語(yǔ)之間的關(guān)系,作者提出了多頭注意力。它相當(dāng)于并行運(yùn)行多個(gè)注意力機(jī)制,每個(gè)“頭”都專注于不同的表示子空間,最后將這些結(jié)果拼接起來(lái),使模型能夠更全面地理解復(fù)雜的關(guān)系。
BERT: Bidirectional Encoder Representations (2018)
BERT(Bidirectional Encoder Representations from Transformers)是由Google在2018年推出的一個(gè)強(qiáng)大的語(yǔ)言表示模型。與之前的模型(如OpenAI GPT)不同,BERT的核心思想是通過(guò)雙向的上下文來(lái)學(xué)習(xí)語(yǔ)言表示。這意味著,在預(yù)訓(xùn)練過(guò)程中,模型可以同時(shí)利用一個(gè)詞語(yǔ)的左側(cè)和右側(cè)的上下文信息,從而獲得更深層次、更全面的語(yǔ)言理解能力。
掩碼語(yǔ)言模型 (Masked Language Model, MLM) 為了實(shí)現(xiàn)雙向?qū)W習(xí),BERT不像傳統(tǒng)的語(yǔ)言模型那樣從左到右或從右到左預(yù)測(cè)下一個(gè)詞。它從輸入文本中隨機(jī)遮蓋 (mask) 掉一部分詞(通常為15%),然后讓模型去預(yù)測(cè)這些被遮蓋的詞是什么。這個(gè)任務(wù)迫使模型必須同時(shí)理解一個(gè)詞的左側(cè)和右側(cè)的上下文,才能正確地推斷出被遮蓋的詞語(yǔ)。這解決了之前單向模型無(wú)法同時(shí)利用雙向信息的弊端。
下一句預(yù)測(cè) (Next Sentence Prediction, NSP) 許多重要的下游任務(wù)(如問(wèn)答和自然語(yǔ)言推斷)需要模型理解句子之間的關(guān)系。 為了解決這個(gè)問(wèn)題,BERT被設(shè)計(jì)了一個(gè)下一句預(yù)測(cè)任務(wù)。在預(yù)訓(xùn)練時(shí),它輸入一對(duì)句子A和B,其中50%的B確實(shí)是A的下一句,而另外50%的B是從語(yǔ)料庫(kù)中隨機(jī)選取的。模型需要判斷B是否是A的真實(shí)下一句。這個(gè)任務(wù)幫助BERT學(xué)習(xí)到了句子層面的關(guān)系,使其在處理多個(gè)句子組成的任務(wù)時(shí)表現(xiàn)更佳。
BERT的架構(gòu)基于Transformer的編碼器部分。它的雙向性使其能夠生成對(duì)上下文敏感的詞嵌入,這些嵌入在應(yīng)用于下游任務(wù)時(shí)效果顯著。
- 統(tǒng)一的微調(diào)方法:BERT的另一個(gè)重要貢獻(xiàn)是其簡(jiǎn)單的微調(diào) (fine-tuning)范式。預(yù)訓(xùn)練好的BERT模型可以通過(guò)在其頂層添加一個(gè)簡(jiǎn)單的輸出層,然后用特定任務(wù)的少量標(biāo)注數(shù)據(jù)進(jìn)行端到端的微調(diào),就能在廣泛的NLP任務(wù)(如問(wèn)答、命名實(shí)體識(shí)別、文本分類等)上取得當(dāng)時(shí)最先進(jìn)的(state-of-the-art)表現(xiàn)。
- 深遠(yuǎn)影響:BERT的出現(xiàn)為預(yù)訓(xùn)練-微調(diào)的范式設(shè)定了新的標(biāo)準(zhǔn),證明了雙向表示的強(qiáng)大能力。它被認(rèn)為是NLP領(lǐng)域的一大里程碑,啟發(fā)了此后無(wú)數(shù)基于Transformer編碼器的大型模型,極大地推動(dòng)了NLP技術(shù)的發(fā)展。
T5: Text-to-Text Transfer Transformer (2019)
T5(Text-to-Text Transfer Transformer)是Google于2019年提出的一個(gè)開創(chuàng)性模型。這篇論文的核心思想非常簡(jiǎn)潔而強(qiáng)大:將所有的自然語(yǔ)言處理(NLP)任務(wù)都統(tǒng)一為一個(gè)“文本到文本”(text-to-text)問(wèn)題。這意味著,無(wú)論是機(jī)器翻譯、文本摘要、問(wèn)答,還是文本分類,所有任務(wù)都被重新表述為輸入一段文本,輸出另一段文本。
例如:
- 翻譯:輸入 “translate English to German: That is good.”,輸出 “Das ist gut.”。
- 文本分類:輸入 “cola sentence: The course is jumping well.”,輸出 “not acceptable”。
- 摘要:輸入 “summarize: [原文]”,輸出 “ [摘要]”。
T5將不同類型的NLP任務(wù)(如生成、分類、理解)轉(zhuǎn)換為統(tǒng)一的文本輸入和文本輸出格式是可行且有效的。這使得模型可以利用大規(guī)模無(wú)監(jiān)督數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,并無(wú)縫地遷移到各種有監(jiān)督的下游任務(wù)中,而無(wú)需對(duì)模型架構(gòu)進(jìn)行任何修改。
Retrieval-Augmented Generation (RAG) (2020)
RAG是一種結(jié)合了參數(shù)化記憶(parametric memory)和非參數(shù)化記憶(non-parametric memory)**的生成模型。它旨在解決傳統(tǒng)大型語(yǔ)言模型(LLMs)在處理知識(shí)密集型任務(wù)時(shí)存在的局限性,例如:
- 知識(shí)更新困難:模型參數(shù)中的知識(shí)是固定的,無(wú)法輕松更新。
- 容易“幻覺(jué)”:模型可能生成聽起來(lái)合理但實(shí)際上是錯(cuò)誤的事實(shí)。
- 無(wú)法提供來(lái)源:模型無(wú)法解釋其生成內(nèi)容的知識(shí)來(lái)源。
RAG模型由兩個(gè)主要組件組成,并且可以進(jìn)行端到端的聯(lián)合訓(xùn)練:
- 檢索器(Retriever):
- 這是一個(gè)基于BERT的雙編碼器模型,用于將輸入查詢(例如問(wèn)題)和外部文檔(例如維基百科段落)都編碼成向量。
- 通過(guò)計(jì)算向量相似度,它能從一個(gè)大型的外部知識(shí)庫(kù)(非參數(shù)化記憶,如包含2100萬(wàn)個(gè)文檔的維基百科向量索引)中快速檢索出與輸入最相關(guān)的K個(gè)文檔。
- 生成器(Generator):
- RAG-Sequence:為整個(gè)生成序列使用同一個(gè)檢索到的文檔。
- RAG-Token:在生成每個(gè)詞語(yǔ)時(shí),都可以基于不同的檢索到的文檔。這種方法允許模型從多個(gè)來(lái)源拼湊信息,生成更復(fù)雜的答案。
- 這是一個(gè)基于BART的預(yù)訓(xùn)練序列到序列(seq2seq)模型(即參數(shù)化記憶)。
- 它以輸入查詢和檢索到的文檔作為上下文,生成最終的答案或文本。
- 論文提出了兩種生成方式:
GPT-1: Generative Pre-Training (2018)
GPT-1由OpenAI于2018年發(fā)布,其核心思想是提出了一種半監(jiān)督學(xué)習(xí)方法,用于解決自然語(yǔ)言處理(NLP)中有標(biāo)簽數(shù)據(jù)稀缺的問(wèn)題。該方法的核心是“預(yù)訓(xùn)練-微調(diào)”(pre-training and fine-tuning)范式,即:
- 無(wú)監(jiān)督預(yù)訓(xùn)練:在一個(gè)大規(guī)模、未標(biāo)注的文本語(yǔ)料庫(kù)上,用生成式語(yǔ)言模型任務(wù)來(lái)預(yù)訓(xùn)練一個(gè)強(qiáng)大的通用語(yǔ)言模型。
- 有監(jiān)督微調(diào):將預(yù)訓(xùn)練好的模型參數(shù)作為初始化,然后用少量有標(biāo)簽的目標(biāo)任務(wù)數(shù)據(jù)對(duì)其進(jìn)行微調(diào)。
在預(yù)訓(xùn)練階段,模型的目標(biāo)是根據(jù)前面所有詞語(yǔ)來(lái)預(yù)測(cè)下一個(gè)詞語(yǔ),這是一種生成式的、從左到右的建模方式。這種方法使得模型能夠?qū)W習(xí)到廣泛的語(yǔ)言知識(shí)和長(zhǎng)距離依賴關(guān)系。
Transformer的自注意力機(jī)制使其能夠更有效地捕捉長(zhǎng)距離的依賴關(guān)系,這對(duì)于理解復(fù)雜的文本至關(guān)重要,并為模型帶來(lái)了更強(qiáng)的泛化能力。
GPT-1通過(guò)在輸入端對(duì)不同任務(wù)(如自然語(yǔ)言推斷、問(wèn)答等)進(jìn)行統(tǒng)一的格式化,使得所有任務(wù)都可以使用相同的模型架構(gòu)進(jìn)行微調(diào),無(wú)需對(duì)模型本身進(jìn)行結(jié)構(gòu)上的改變。這大大簡(jiǎn)化了模型適配不同任務(wù)的復(fù)雜性。
GPT-2: Scaling Up (2019)
GPT-2的核心主張是:語(yǔ)言模型在進(jìn)行大規(guī)模無(wú)監(jiān)督預(yù)訓(xùn)練后,能夠無(wú)需任何顯式監(jiān)督或架構(gòu)修改,就能執(zhí)行多種多樣的下游任務(wù)。作者們認(rèn)為,如果一個(gè)語(yǔ)言模型擁有足夠大的參數(shù)規(guī)模,并在一個(gè)足夠多樣化的高質(zhì)量文本數(shù)據(jù)集上進(jìn)行訓(xùn)練,它會(huì)“自發(fā)地”學(xué)習(xí)如何執(zhí)行這些任務(wù),因?yàn)檫@些任務(wù)的示例(比如問(wèn)答、翻譯等)自然存在于其訓(xùn)練數(shù)據(jù)中。
語(yǔ)言模型本質(zhì)上是無(wú)監(jiān)督的多任務(wù)學(xué)習(xí)者。在預(yù)訓(xùn)練過(guò)程中,模型為了更好地預(yù)測(cè)下一個(gè)詞,會(huì)隱式地學(xué)習(xí)到文本中存在的各種任務(wù)模式,例如:“翻譯法語(yǔ):[英文]”后面跟著的往往是對(duì)應(yīng)的法文翻譯。
GPT-3: Few-Shot Learning (2020)
GPT-3的核心觀點(diǎn)是:通過(guò)大幅增加語(yǔ)言模型的規(guī)模,可以使其在無(wú)需任何梯度更新或微調(diào)的情況下,僅憑少量示例(或甚至沒(méi)有示例)就能學(xué)會(huì)執(zhí)行新任務(wù)。
論文提出,傳統(tǒng)的“預(yù)訓(xùn)練-微調(diào)”范式雖然有效,但需要為每個(gè)新任務(wù)收集成千上萬(wàn)的標(biāo)注數(shù)據(jù)。GPT-3則展示了,當(dāng)模型擁有1750億參數(shù)的巨大規(guī)模時(shí),它能夠通過(guò)“上下文學(xué)習(xí)”(in-context learning),即在輸入的文本提示中直接給出任務(wù)指令和少量演示,就表現(xiàn)出強(qiáng)大的零樣本(zero-shot)、單樣本(one-shot)和少樣本(few-shot)學(xué)習(xí)能力,有時(shí)甚至能與經(jīng)過(guò)微調(diào)的SOTA模型相媲美。
- 零樣本學(xué)習(xí)(Zero-shot):只給模型一個(gè)自然語(yǔ)言指令,不提供任何示例。例如:“將以下英文翻譯成法文:[英文]”。
- 單樣本學(xué)習(xí)(One-shot):提供一個(gè)任務(wù)示例和自然語(yǔ)言指令。例如:“將英文‘Hello’翻譯成法文‘Bonjour’?,F(xiàn)在請(qǐng)翻譯‘Goodbye’?!?/li>
- 少樣本學(xué)習(xí)(Few-shot):提供多個(gè)任務(wù)示例和自然語(yǔ)言指令。
ChatGPT: Conversational Interface (2022)
ChatGPT 是 OpenAI 訓(xùn)練的一款大型語(yǔ)言模型,專門設(shè)計(jì)用于通過(guò)對(duì)話進(jìn)行交互。這種對(duì)話形式使其能夠:
- 回答后續(xù)問(wèn)題。
- 承認(rèn)并糾正自己的錯(cuò)誤。
- 質(zhì)疑不正確的前提。
- 拒絕不當(dāng)或有害的請(qǐng)求。
ChatGPT 的訓(xùn)練方法結(jié)合了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí),這一過(guò)程被稱為人類反饋強(qiáng)化學(xué)習(xí)(RLHF):
- 監(jiān)督微調(diào):
- 首先,OpenAI 雇傭了人類 AI 訓(xùn)練員。
- 這些訓(xùn)練員扮演“用戶”和“AI 助手”的角色,編寫對(duì)話,并提供模型生成的建議作為參考,以創(chuàng)建高質(zhì)量的對(duì)話數(shù)據(jù)集。
- 這個(gè)新的對(duì)話數(shù)據(jù)集與現(xiàn)有的 InstructGPT 數(shù)據(jù)集混合,用于訓(xùn)練一個(gè)初始的 ChatGPT 模型。
- 強(qiáng)化學(xué)習(xí):
- 為了訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型(Reward Model),OpenAI 收集了對(duì)比數(shù)據(jù)。
- AI 訓(xùn)練員會(huì)評(píng)估模型為同一條提示生成的多個(gè)備選回復(fù),并根據(jù)質(zhì)量對(duì)其進(jìn)行排序。
- 利用這些排序數(shù)據(jù),訓(xùn)練出了一個(gè)獎(jiǎng)勵(lì)模型,該模型可以根據(jù)回復(fù)的質(zhì)量給予分?jǐn)?shù)。
- 最后,使用近端策略優(yōu)化(PPO)算法,根據(jù)獎(jiǎng)勵(lì)模型的分?jǐn)?shù)對(duì)初始模型進(jìn)行微調(diào),以鼓勵(lì)其生成更高質(zhì)量的回復(fù)。
GPT-4: Multimodal Capabilities (2023)
GPT-4是一個(gè)大規(guī)模、多模態(tài)的模型,能夠同時(shí)接受圖像和文本輸入,并生成文本輸出。盡管它在許多現(xiàn)實(shí)場(chǎng)景中仍不如人類,但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)測(cè)試中,GPT-4展現(xiàn)出了接近人類水平的性能。
GPT-4是OpenAI首個(gè)支持圖像輸入的模型。報(bào)告展示了GPT-4能夠理解圖像中的文本、圖表和幽默,并進(jìn)行描述和回答相關(guān)問(wèn)題。
GPT-4項(xiàng)目的一個(gè)核心挑戰(zhàn)是確保深度學(xué)習(xí)基礎(chǔ)設(shè)施能可預(yù)測(cè)地?cái)U(kuò)展。通過(guò)開發(fā)新的方法,OpenAI能夠使用比GPT-4訓(xùn)練計(jì)算量少1000倍甚至10000倍的小型模型。
OpenAI Sora: World Simulation (2024)
- Diffusion-based video generation
- Physical world modeling from text descriptions
- Temporal consistency across long sequences
- Camera movement simulation
GPT-4o: Omni Model (2024)
- Real-time responsiveness
- Native audio input/output
- Improved vision capabilities
- Cost-efficient multimodal processing
Google's PaLM (2022)
PaLM(Pathways Language Model),一個(gè)擁有 5400億參數(shù)的巨型語(yǔ)言模型。PaLM 的訓(xùn)練采用了谷歌的新型機(jī)器學(xué)習(xí)系統(tǒng) Pathways,這使得在數(shù)千個(gè)加速器芯片上進(jìn)行高效訓(xùn)練成為可能。
結(jié)合“鏈?zhǔn)剿伎肌碧崾炯夹g(shù)(即模型先生成逐步推理過(guò)程,再給出最終答案),PaLM 在多步推理任務(wù)上的表現(xiàn)超越了許多經(jīng)過(guò)微調(diào)的SOTA模型,展示了其強(qiáng)大的推理能力。
Switch Transformer (MoE) (2021)
Switch Transformer基于“專家混合”(Mixture-of-Experts, MoE)架構(gòu)的Transformer模型。與傳統(tǒng)模型為所有輸入重用相同參數(shù)不同,MoE模型會(huì)為每個(gè)輸入動(dòng)態(tài)選擇不同的參數(shù)子集。
- 巨大的參數(shù)規(guī)模(最高可達(dá)萬(wàn)億參數(shù))。
- 恒定的計(jì)算成本:由于每次只激活部分參數(shù),計(jì)算量與一個(gè)更小的“密集”模型相當(dāng)。
- 顯著的訓(xùn)練加速:能夠比相同計(jì)算成本的密集模型(如T5-Base)快7倍以上。
Meta's OPT: First Major Open Model (2022)
Open Pre-trained Transformers (OPT)是一個(gè)由 Meta AI 訓(xùn)練和發(fā)布的一系列語(yǔ)言模型,參數(shù)量從1.25億到1750億不等。該項(xiàng)目的目標(biāo)是開放和負(fù)責(zé)任地與研究社區(qū)共享這些模型,以促進(jìn)對(duì)大型語(yǔ)言模型(LLMs)的深入研究,特別是在魯棒性、偏見和毒性等關(guān)鍵挑戰(zhàn)上。
由于使用了最新的NVIDIA A100 GPU以及高效的訓(xùn)練策略,OPT-175B 的開發(fā)所耗費(fèi)的碳足跡僅為 GPT-3 的七分之一。
LLaMA 1: Meta's Open Research LLM (2023)
LLaMA是一個(gè)由 Meta AI 訓(xùn)練和發(fā)布的系列基礎(chǔ)語(yǔ)言模型,參數(shù)量從70億到650億不等。該研究的核心論點(diǎn)是,通過(guò)在更多的數(shù)據(jù)上訓(xùn)練更小的模型,可以在相同的計(jì)算預(yù)算下實(shí)現(xiàn)與更大模型(如PaLM-540B或GPT-3)相當(dāng)甚至更優(yōu)的性能。
與之前的大型模型(如GPT-3、PaLM)不同,LLaMA系列模型完全使用公開可用的數(shù)據(jù)集進(jìn)行訓(xùn)練,這使其可以完全開放給研究社區(qū),從而推動(dòng)該領(lǐng)域的民主化。
Stanford Alpaca (2023)
Alpaca 7B是一個(gè)在LLaMA 7B模型基礎(chǔ)上,通過(guò)在5.2萬(wàn)條指令遵循數(shù)據(jù)上進(jìn)行微調(diào)而得到的模型。其主要貢獻(xiàn)在于,Alpaca 在指令遵循能力上定性地類似于當(dāng)時(shí)最先進(jìn)的閉源模型OpenAI 的text-davinci-003,但它的模型規(guī)模非常小,且訓(xùn)練成本極低(不到600美元),使其可以被學(xué)術(shù)界輕松復(fù)現(xiàn)。
訓(xùn)練 Alpaca 7B 的總成本低于600美元,其中數(shù)據(jù)生成成本不到500美元(通過(guò)調(diào)用OpenAI API),模型微調(diào)成本不到100美元。
LLaMA 2: Commercial Open-Source (2023)
Llama 2,一個(gè)由 Meta AI 開發(fā)和發(fā)布的新一代大型語(yǔ)言模型系列。該系列包括了預(yù)訓(xùn)練模型 Llama 2和經(jīng)過(guò)微調(diào)的聊天模型 Llama 2-Chat,參數(shù)規(guī)模從70億到700億不等。該論文的核心貢獻(xiàn)在于:
發(fā)布強(qiáng)大的、可商用的模型:Llama 2-Chat 在大多數(shù)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于其他開源聊天模型,并且通過(guò)人類評(píng)估,其能力足以與一些閉源模型(如 ChatGPT)相媲美。
詳細(xì)公開其微調(diào)和安全對(duì)齊方法:論文詳細(xì)闡述了如何通過(guò)監(jiān)督式微調(diào)(SFT)和人類反饋強(qiáng)化學(xué)習(xí)(RLHF)來(lái)將基礎(chǔ)模型轉(zhuǎn)化為一個(gè)有用的、安全的聊天助手。這種開放性旨在讓研究社區(qū)能夠在此基礎(chǔ)上繼續(xù)研究和改進(jìn)大型語(yǔ)言模型。
LLaMA 3: Continued Scaling (2024)
Meta Llama 3 是 Meta 推出的新一代開源大型語(yǔ)言模型。此次發(fā)布的初始版本包含兩個(gè)模型:8B 和 70B 參數(shù),旨在支持廣泛的應(yīng)用場(chǎng)景。Meta 宣稱,這些模型是同類中能力最強(qiáng)的開源模型,足以與領(lǐng)先的閉源模型(如 Claude Sonnet 和 GPT-3.5)競(jìng)爭(zhēng)。一個(gè)更大的 400B 參數(shù)模型目前仍在訓(xùn)練中,未來(lái)計(jì)劃增加多模態(tài)、多語(yǔ)言支持等新功能。
LLaMA 4: Mixture-of-Experts (2025)
與前代不同,Llama 4 是 Meta 首個(gè)采用專家混合架構(gòu)(Mixture-of-Experts, MoE)**并原生支持**多模態(tài)功能的模型。
此次發(fā)布了兩個(gè)高效模型:
- Llama 4 Scout: 擁有170億活躍參數(shù)和16個(gè)專家,能適配單張 NVIDIA H100 GPU,并擁有業(yè)內(nèi)領(lǐng)先的1000萬(wàn)tokens超長(zhǎng)上下文窗口。它在長(zhǎng)文檔分析、代碼庫(kù)推理等任務(wù)上表現(xiàn)出色。
- Llama 4 Maverick: 擁有170億活躍參數(shù)和128個(gè)專家,盡管總參數(shù)達(dá)4000億,但其高效率帶來(lái)了卓越的性能成本比。它在圖像和文本理解方面表現(xiàn)突出,在通用助理和聊天場(chǎng)景中堪稱“主力”。
-
人工智能
+關(guān)注
關(guān)注
1813文章
49536瀏覽量
259351 -
自然語(yǔ)言處理
+關(guān)注
關(guān)注
1文章
629瀏覽量
14517 -
大模型
+關(guān)注
關(guān)注
2文章
3365瀏覽量
4816
發(fā)布評(píng)論請(qǐng)先 登錄
小白必看:模型靜態(tài)測(cè)試效率翻倍——MXAM詳解#simulink #Siumlink模型測(cè)試
小白學(xué)大模型:大模型加速的秘密 FlashAttention 1/2/3
大模型在半導(dǎo)體行業(yè)的應(yīng)用可行性分析
FA模型卡片和Stage模型卡片切換
FA模型和Stage模型API切換概述
從FA模型切換到Stage模型時(shí):module的切換說(shuō)明
FA模型訪問(wèn)Stage模型DataShareExtensionAbility說(shuō)明
小白學(xué)大模型:從零實(shí)現(xiàn) LLM語(yǔ)言模型
KaihongOS操作系統(tǒng)FA模型與Stage模型介紹
小白學(xué)大模型:訓(xùn)練大語(yǔ)言模型的深度指南
小白學(xué)解釋性AI:從機(jī)器學(xué)習(xí)到大模型
小白學(xué)大模型:構(gòu)建LLM的關(guān)鍵步驟
【「大模型啟示錄」閱讀體驗(yàn)】+開啟智能時(shí)代的新鑰匙
【「大模型啟示錄」閱讀體驗(yàn)】如何在客服領(lǐng)域應(yīng)用大模型
寫給小白的大模型入門科普

小白學(xué)大模型:國(guó)外主流大模型匯總
評(píng)論