日本亚洲vr欧美不卡高清专区,日本久久综合久久综合

本文轉(zhuǎn)自：Coggle數(shù)據(jù)科學(xué)

Attention Is All You Need (2017)

由Google Brain的團(tuán)隊(duì)撰寫，它徹底改變了自然語(yǔ)言處理（NLP）領(lǐng)域。論文的核心是提出了一種名為Transformer的全新模型架構(gòu)，它完全舍棄了以往序列模型（如循環(huán)神經(jīng)網(wǎng)絡(luò) RNNs 和卷積神經(jīng)網(wǎng)絡(luò) CNNs）中常用的循環(huán)和卷積結(jié)構(gòu)，而是完全依賴于“注意力機(jī)制”來(lái)處理序列數(shù)據(jù)。

以往的RNN模型必須按順序逐個(gè)處理序列中的詞語(yǔ)，這使得訓(xùn)練過(guò)程難以并行化，尤其是在處理長(zhǎng)序列時(shí)效率很低。Transformer通過(guò)引入注意力機(jī)制，允許模型一次性處理整個(gè)序列，極大地提高了訓(xùn)練效率，使得處理超大規(guī)模的數(shù)據(jù)成為可能。

為了Transformer讓模型能從不同角度和層面捕捉詞語(yǔ)之間的關(guān)系，作者提出了多頭注意力。它相當(dāng)于并行運(yùn)行多個(gè)注意力機(jī)制，每個(gè)“頭”都專注于不同的表示子空間，最后將這些結(jié)果拼接起來(lái)，使模型能夠更全面地理解復(fù)雜的關(guān)系。

BERT: Bidirectional Encoder Representations (2018)

BERT（Bidirectional Encoder Representations from Transformers）是由Google在2018年推出的一個(gè)強(qiáng)大的語(yǔ)言表示模型。與之前的模型（如OpenAI GPT）不同，BERT的核心思想是通過(guò)雙向的上下文來(lái)學(xué)習(xí)語(yǔ)言表示。這意味著，在預(yù)訓(xùn)練過(guò)程中，模型可以同時(shí)利用一個(gè)詞語(yǔ)的左側(cè)和右側(cè)的上下文信息，從而獲得更深層次、更全面的語(yǔ)言理解能力。

掩碼語(yǔ)言模型 (Masked Language Model, MLM) 為了實(shí)現(xiàn)雙向?qū)W習(xí)，BERT不像傳統(tǒng)的語(yǔ)言模型那樣從左到右或從右到左預(yù)測(cè)下一個(gè)詞。它從輸入文本中隨機(jī)遮蓋 (mask) 掉一部分詞（通常為15%），然后讓模型去預(yù)測(cè)這些被遮蓋的詞是什么。這個(gè)任務(wù)迫使模型必須同時(shí)理解一個(gè)詞的左側(cè)和右側(cè)的上下文，才能正確地推斷出被遮蓋的詞語(yǔ)。這解決了之前單向模型無(wú)法同時(shí)利用雙向信息的弊端。

下一句預(yù)測(cè) (Next Sentence Prediction, NSP) 許多重要的下游任務(wù)（如問(wèn)答和自然語(yǔ)言推斷）需要模型理解句子之間的關(guān)系。為了解決這個(gè)問(wèn)題，BERT被設(shè)計(jì)了一個(gè)下一句預(yù)測(cè)任務(wù)。在預(yù)訓(xùn)練時(shí)，它輸入一對(duì)句子A和B，其中50%的B確實(shí)是A的下一句，而另外50%的B是從語(yǔ)料庫(kù)中隨機(jī)選取的。模型需要判斷B是否是A的真實(shí)下一句。這個(gè)任務(wù)幫助BERT學(xué)習(xí)到了句子層面的關(guān)系，使其在處理多個(gè)句子組成的任務(wù)時(shí)表現(xiàn)更佳。

BERT的架構(gòu)基于Transformer的編碼器部分。它的雙向性使其能夠生成對(duì)上下文敏感的詞嵌入，這些嵌入在應(yīng)用于下游任務(wù)時(shí)效果顯著。

統(tǒng)一的微調(diào)方法：BERT的另一個(gè)重要貢獻(xiàn)是其簡(jiǎn)單的微調(diào) (fine-tuning)范式。預(yù)訓(xùn)練好的BERT模型可以通過(guò)在其頂層添加一個(gè)簡(jiǎn)單的輸出層，然后用特定任務(wù)的少量標(biāo)注數(shù)據(jù)進(jìn)行端到端的微調(diào)，就能在廣泛的NLP任務(wù)（如問(wèn)答、命名實(shí)體識(shí)別、文本分類等）上取得當(dāng)時(shí)最先進(jìn)的（state-of-the-art）表現(xiàn)。
深遠(yuǎn)影響：BERT的出現(xiàn)為預(yù)訓(xùn)練-微調(diào)的范式設(shè)定了新的標(biāo)準(zhǔn)，證明了雙向表示的強(qiáng)大能力。它被認(rèn)為是NLP領(lǐng)域的一大里程碑，啟發(fā)了此后無(wú)數(shù)基于Transformer編碼器的大型模型，極大地推動(dòng)了NLP技術(shù)的發(fā)展。

T5: Text-to-Text Transfer Transformer (2019)

T5（Text-to-Text Transfer Transformer）是Google于2019年提出的一個(gè)開創(chuàng)性模型。這篇論文的核心思想非常簡(jiǎn)潔而強(qiáng)大：將所有的自然語(yǔ)言處理（NLP）任務(wù)都統(tǒng)一為一個(gè)“文本到文本”（text-to-text）問(wèn)題。這意味著，無(wú)論是機(jī)器翻譯、文本摘要、問(wèn)答，還是文本分類，所有任務(wù)都被重新表述為輸入一段文本，輸出另一段文本。

例如：

翻譯：輸入 “translate English to German: That is good.”，輸出 “Das ist gut.”。
文本分類：輸入 “cola sentence: The course is jumping well.”，輸出 “not acceptable”。
摘要：輸入 “summarize: [原文]”，輸出 “ [摘要]”。

T5將不同類型的NLP任務(wù)（如生成、分類、理解）轉(zhuǎn)換為統(tǒng)一的文本輸入和文本輸出格式是可行且有效的。這使得模型可以利用大規(guī)模無(wú)監(jiān)督數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，并無(wú)縫地遷移到各種有監(jiān)督的下游任務(wù)中，而無(wú)需對(duì)模型架構(gòu)進(jìn)行任何修改。

Retrieval-Augmented Generation (RAG) (2020)

RAG是一種結(jié)合了參數(shù)化記憶（parametric memory）和非參數(shù)化記憶（non-parametric memory）**的生成模型。它旨在解決傳統(tǒng)大型語(yǔ)言模型（LLMs）在處理知識(shí)密集型任務(wù)時(shí)存在的局限性，例如：

知識(shí)更新困難：模型參數(shù)中的知識(shí)是固定的，無(wú)法輕松更新。
容易“幻覺(jué)”：模型可能生成聽起來(lái)合理但實(shí)際上是錯(cuò)誤的事實(shí)。
無(wú)法提供來(lái)源：模型無(wú)法解釋其生成內(nèi)容的知識(shí)來(lái)源。

RAG模型由兩個(gè)主要組件組成，并且可以進(jìn)行端到端的聯(lián)合訓(xùn)練：

檢索器（Retriever）：

這是一個(gè)基于BERT的雙編碼器模型，用于將輸入查詢（例如問(wèn)題）和外部文檔（例如維基百科段落）都編碼成向量。
通過(guò)計(jì)算向量相似度，它能從一個(gè)大型的外部知識(shí)庫(kù)（非參數(shù)化記憶，如包含2100萬(wàn)個(gè)文檔的維基百科向量索引）中快速檢索出與輸入最相關(guān)的K個(gè)文檔。

生成器（Generator）：
- RAG-Sequence：為整個(gè)生成序列使用同一個(gè)檢索到的文檔。
- RAG-Token：在生成每個(gè)詞語(yǔ)時(shí)，都可以基于不同的檢索到的文檔。這種方法允許模型從多個(gè)來(lái)源拼湊信息，生成更復(fù)雜的答案。

這是一個(gè)基于BART的預(yù)訓(xùn)練序列到序列（seq2seq）模型（即參數(shù)化記憶）。
它以輸入查詢和檢索到的文檔作為上下文，生成最終的答案或文本。
論文提出了兩種生成方式：

GPT-1: Generative Pre-Training (2018)

GPT-1由OpenAI于2018年發(fā)布，其核心思想是提出了一種半監(jiān)督學(xué)習(xí)方法，用于解決自然語(yǔ)言處理（NLP）中有標(biāo)簽數(shù)據(jù)稀缺的問(wèn)題。該方法的核心是“預(yù)訓(xùn)練-微調(diào)”（pre-training and fine-tuning）范式，即：

無(wú)監(jiān)督預(yù)訓(xùn)練：在一個(gè)大規(guī)模、未標(biāo)注的文本語(yǔ)料庫(kù)上，用生成式語(yǔ)言模型任務(wù)來(lái)預(yù)訓(xùn)練一個(gè)強(qiáng)大的通用語(yǔ)言模型。
有監(jiān)督微調(diào)：將預(yù)訓(xùn)練好的模型參數(shù)作為初始化，然后用少量有標(biāo)簽的目標(biāo)任務(wù)數(shù)據(jù)對(duì)其進(jìn)行微調(diào)。

在預(yù)訓(xùn)練階段，模型的目標(biāo)是根據(jù)前面所有詞語(yǔ)來(lái)預(yù)測(cè)下一個(gè)詞語(yǔ)，這是一種生成式的、從左到右的建模方式。這種方法使得模型能夠?qū)W習(xí)到廣泛的語(yǔ)言知識(shí)和長(zhǎng)距離依賴關(guān)系。

Transformer的自注意力機(jī)制使其能夠更有效地捕捉長(zhǎng)距離的依賴關(guān)系，這對(duì)于理解復(fù)雜的文本至關(guān)重要，并為模型帶來(lái)了更強(qiáng)的泛化能力。

GPT-1通過(guò)在輸入端對(duì)不同任務(wù)（如自然語(yǔ)言推斷、問(wèn)答等）進(jìn)行統(tǒng)一的格式化，使得所有任務(wù)都可以使用相同的模型架構(gòu)進(jìn)行微調(diào)，無(wú)需對(duì)模型本身進(jìn)行結(jié)構(gòu)上的改變。這大大簡(jiǎn)化了模型適配不同任務(wù)的復(fù)雜性。

GPT-2: Scaling Up (2019)

GPT-2的核心主張是：語(yǔ)言模型在進(jìn)行大規(guī)模無(wú)監(jiān)督預(yù)訓(xùn)練后，能夠無(wú)需任何顯式監(jiān)督或架構(gòu)修改，就能執(zhí)行多種多樣的下游任務(wù)。作者們認(rèn)為，如果一個(gè)語(yǔ)言模型擁有足夠大的參數(shù)規(guī)模，并在一個(gè)足夠多樣化的高質(zhì)量文本數(shù)據(jù)集上進(jìn)行訓(xùn)練，它會(huì)“自發(fā)地”學(xué)習(xí)如何執(zhí)行這些任務(wù)，因?yàn)檫@些任務(wù)的示例（比如問(wèn)答、翻譯等）自然存在于其訓(xùn)練數(shù)據(jù)中。

語(yǔ)言模型本質(zhì)上是無(wú)監(jiān)督的多任務(wù)學(xué)習(xí)者。在預(yù)訓(xùn)練過(guò)程中，模型為了更好地預(yù)測(cè)下一個(gè)詞，會(huì)隱式地學(xué)習(xí)到文本中存在的各種任務(wù)模式，例如：“翻譯法語(yǔ)：[英文]”后面跟著的往往是對(duì)應(yīng)的法文翻譯。

GPT-3: Few-Shot Learning (2020)

GPT-3的核心觀點(diǎn)是：通過(guò)大幅增加語(yǔ)言模型的規(guī)模，可以使其在無(wú)需任何梯度更新或微調(diào)的情況下，僅憑少量示例（或甚至沒(méi)有示例）就能學(xué)會(huì)執(zhí)行新任務(wù)。

論文提出，傳統(tǒng)的“預(yù)訓(xùn)練-微調(diào)”范式雖然有效，但需要為每個(gè)新任務(wù)收集成千上萬(wàn)的標(biāo)注數(shù)據(jù)。GPT-3則展示了，當(dāng)模型擁有1750億參數(shù)的巨大規(guī)模時(shí)，它能夠通過(guò)“上下文學(xué)習(xí)”（in-context learning），即在輸入的文本提示中直接給出任務(wù)指令和少量演示，就表現(xiàn)出強(qiáng)大的零樣本（zero-shot）、單樣本（one-shot）和少樣本（few-shot）學(xué)習(xí)能力，有時(shí)甚至能與經(jīng)過(guò)微調(diào)的SOTA模型相媲美。

零樣本學(xué)習(xí)（Zero-shot）：只給模型一個(gè)自然語(yǔ)言指令，不提供任何示例。例如：“將以下英文翻譯成法文：[英文]”。
單樣本學(xué)習(xí)（One-shot）：提供一個(gè)任務(wù)示例和自然語(yǔ)言指令。例如：“將英文‘Hello’翻譯成法文‘Bonjour’?，F(xiàn)在請(qǐng)翻譯‘Goodbye’?！?/li>
少樣本學(xué)習(xí)（Few-shot）：提供多個(gè)任務(wù)示例和自然語(yǔ)言指令。

ChatGPT: Conversational Interface (2022)

ChatGPT 是 OpenAI 訓(xùn)練的一款大型語(yǔ)言模型，專門設(shè)計(jì)用于通過(guò)對(duì)話進(jìn)行交互。這種對(duì)話形式使其能夠：

回答后續(xù)問(wèn)題。
承認(rèn)并糾正自己的錯(cuò)誤。
質(zhì)疑不正確的前提。
拒絕不當(dāng)或有害的請(qǐng)求。

ChatGPT 的訓(xùn)練方法結(jié)合了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)，這一過(guò)程被稱為人類反饋強(qiáng)化學(xué)習(xí)（RLHF）：

監(jiān)督微調(diào)：

首先，OpenAI 雇傭了人類 AI 訓(xùn)練員。
這些訓(xùn)練員扮演“用戶”和“AI 助手”的角色，編寫對(duì)話，并提供模型生成的建議作為參考，以創(chuàng)建高質(zhì)量的對(duì)話數(shù)據(jù)集。
這個(gè)新的對(duì)話數(shù)據(jù)集與現(xiàn)有的 InstructGPT 數(shù)據(jù)集混合，用于訓(xùn)練一個(gè)初始的 ChatGPT 模型。

強(qiáng)化學(xué)習(xí)：
- 為了訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型（Reward Model），OpenAI 收集了對(duì)比數(shù)據(jù)。
- AI 訓(xùn)練員會(huì)評(píng)估模型為同一條提示生成的多個(gè)備選回復(fù)，并根據(jù)質(zhì)量對(duì)其進(jìn)行排序。
- 利用這些排序數(shù)據(jù)，訓(xùn)練出了一個(gè)獎(jiǎng)勵(lì)模型，該模型可以根據(jù)回復(fù)的質(zhì)量給予分?jǐn)?shù)。
- 最后，使用近端策略優(yōu)化（PPO）算法，根據(jù)獎(jiǎng)勵(lì)模型的分?jǐn)?shù)對(duì)初始模型進(jìn)行微調(diào)，以鼓勵(lì)其生成更高質(zhì)量的回復(fù)。

GPT-4: Multimodal Capabilities (2023)

GPT-4是一個(gè)大規(guī)模、多模態(tài)的模型，能夠同時(shí)接受圖像和文本輸入，并生成文本輸出。盡管它在許多現(xiàn)實(shí)場(chǎng)景中仍不如人類，但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)測(cè)試中，GPT-4展現(xiàn)出了接近人類水平的性能。

GPT-4是OpenAI首個(gè)支持圖像輸入的模型。報(bào)告展示了GPT-4能夠理解圖像中的文本、圖表和幽默，并進(jìn)行描述和回答相關(guān)問(wèn)題。

GPT-4項(xiàng)目的一個(gè)核心挑戰(zhàn)是確保深度學(xué)習(xí)基礎(chǔ)設(shè)施能可預(yù)測(cè)地?cái)U(kuò)展。通過(guò)開發(fā)新的方法，OpenAI能夠使用比GPT-4訓(xùn)練計(jì)算量少1000倍甚至10000倍的小型模型。

OpenAI Sora: World Simulation (2024)

Diffusion-based video generation
Physical world modeling from text descriptions
Temporal consistency across long sequences
Camera movement simulation

GPT-4o: Omni Model (2024)

Real-time responsiveness
Native audio input/output
Improved vision capabilities
Cost-efficient multimodal processing

Google's PaLM (2022)

PaLM（Pathways Language Model），一個(gè)擁有 5400億參數(shù)的巨型語(yǔ)言模型。PaLM 的訓(xùn)練采用了谷歌的新型機(jī)器學(xué)習(xí)系統(tǒng) Pathways，這使得在數(shù)千個(gè)加速器芯片上進(jìn)行高效訓(xùn)練成為可能。

結(jié)合“鏈?zhǔn)剿伎肌碧崾炯夹g(shù)（即模型先生成逐步推理過(guò)程，再給出最終答案），PaLM 在多步推理任務(wù)上的表現(xiàn)超越了許多經(jīng)過(guò)微調(diào)的SOTA模型，展示了其強(qiáng)大的推理能力。

Switch Transformer (MoE) (2021)

Switch Transformer基于“專家混合”（Mixture-of-Experts, MoE）架構(gòu)的Transformer模型。與傳統(tǒng)模型為所有輸入重用相同參數(shù)不同，MoE模型會(huì)為每個(gè)輸入動(dòng)態(tài)選擇不同的參數(shù)子集。

巨大的參數(shù)規(guī)模（最高可達(dá)萬(wàn)億參數(shù)）。
恒定的計(jì)算成本：由于每次只激活部分參數(shù)，計(jì)算量與一個(gè)更小的“密集”模型相當(dāng)。
顯著的訓(xùn)練加速：能夠比相同計(jì)算成本的密集模型（如T5-Base）快7倍以上。

Meta's OPT: First Major Open Model (2022)

Open Pre-trained Transformers (OPT)是一個(gè)由 Meta AI 訓(xùn)練和發(fā)布的一系列語(yǔ)言模型，參數(shù)量從1.25億到1750億不等。該項(xiàng)目的目標(biāo)是開放和負(fù)責(zé)任地與研究社區(qū)共享這些模型，以促進(jìn)對(duì)大型語(yǔ)言模型（LLMs）的深入研究，特別是在魯棒性、偏見和毒性等關(guān)鍵挑戰(zhàn)上。

由于使用了最新的NVIDIA A100 GPU以及高效的訓(xùn)練策略，OPT-175B 的開發(fā)所耗費(fèi)的碳足跡僅為 GPT-3 的七分之一。

LLaMA 1: Meta's Open Research LLM (2023)

LLaMA是一個(gè)由 Meta AI 訓(xùn)練和發(fā)布的系列基礎(chǔ)語(yǔ)言模型，參數(shù)量從70億到650億不等。該研究的核心論點(diǎn)是，通過(guò)在更多的數(shù)據(jù)上訓(xùn)練更小的模型，可以在相同的計(jì)算預(yù)算下實(shí)現(xiàn)與更大模型（如PaLM-540B或GPT-3）相當(dāng)甚至更優(yōu)的性能。

與之前的大型模型（如GPT-3、PaLM）不同，LLaMA系列模型完全使用公開可用的數(shù)據(jù)集進(jìn)行訓(xùn)練，這使其可以完全開放給研究社區(qū)，從而推動(dòng)該領(lǐng)域的民主化。

Stanford Alpaca (2023)

Alpaca 7B是一個(gè)在LLaMA 7B模型基礎(chǔ)上，通過(guò)在5.2萬(wàn)條指令遵循數(shù)據(jù)上進(jìn)行微調(diào)而得到的模型。其主要貢獻(xiàn)在于，Alpaca 在指令遵循能力上定性地類似于當(dāng)時(shí)最先進(jìn)的閉源模型OpenAI 的text-davinci-003，但它的模型規(guī)模非常小，且訓(xùn)練成本極低（不到600美元），使其可以被學(xué)術(shù)界輕松復(fù)現(xiàn)。

訓(xùn)練 Alpaca 7B 的總成本低于600美元，其中數(shù)據(jù)生成成本不到500美元（通過(guò)調(diào)用OpenAI API），模型微調(diào)成本不到100美元。

LLaMA 2: Commercial Open-Source (2023)

Llama 2，一個(gè)由 Meta AI 開發(fā)和發(fā)布的新一代大型語(yǔ)言模型系列。該系列包括了預(yù)訓(xùn)練模型 Llama 2和經(jīng)過(guò)微調(diào)的聊天模型 Llama 2-Chat，參數(shù)規(guī)模從70億到700億不等。該論文的核心貢獻(xiàn)在于：

發(fā)布強(qiáng)大的、可商用的模型：Llama 2-Chat 在大多數(shù)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于其他開源聊天模型，并且通過(guò)人類評(píng)估，其能力足以與一些閉源模型（如 ChatGPT）相媲美。

詳細(xì)公開其微調(diào)和安全對(duì)齊方法：論文詳細(xì)闡述了如何通過(guò)監(jiān)督式微調(diào)（SFT）和人類反饋強(qiáng)化學(xué)習(xí)（RLHF）來(lái)將基礎(chǔ)模型轉(zhuǎn)化為一個(gè)有用的、安全的聊天助手。這種開放性旨在讓研究社區(qū)能夠在此基礎(chǔ)上繼續(xù)研究和改進(jìn)大型語(yǔ)言模型。

LLaMA 3: Continued Scaling (2024)

Meta Llama 3 是 Meta 推出的新一代開源大型語(yǔ)言模型。此次發(fā)布的初始版本包含兩個(gè)模型：8B 和 70B 參數(shù)，旨在支持廣泛的應(yīng)用場(chǎng)景。Meta 宣稱，這些模型是同類中能力最強(qiáng)的開源模型，足以與領(lǐng)先的閉源模型（如 Claude Sonnet 和 GPT-3.5）競(jìng)爭(zhēng)。一個(gè)更大的 400B 參數(shù)模型目前仍在訓(xùn)練中，未來(lái)計(jì)劃增加多模態(tài)、多語(yǔ)言支持等新功能。

LLaMA 4: Mixture-of-Experts (2025)

與前代不同，Llama 4 是 Meta 首個(gè)采用專家混合架構(gòu)（Mixture-of-Experts, MoE）**并原生支持**多模態(tài)功能的模型。

此次發(fā)布了兩個(gè)高效模型：

Llama 4 Scout: 擁有170億活躍參數(shù)和16個(gè)專家，能適配單張 NVIDIA H100 GPU，并擁有業(yè)內(nèi)領(lǐng)先的1000萬(wàn)tokens超長(zhǎng)上下文窗口。它在長(zhǎng)文檔分析、代碼庫(kù)推理等任務(wù)上表現(xiàn)出色。
Llama 4 Maverick: 擁有170億活躍參數(shù)和128個(gè)專家，盡管總參數(shù)達(dá)4000億，但其高效率帶來(lái)了卓越的性能成本比。它在圖像和文本理解方面表現(xiàn)突出，在通用助理和聊天場(chǎng)景中堪稱“主力”。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴