18video性欧美19sex,欧美高清videosddfsexhd,性少妇videosexfreexxx片中国,激情五月激情综合五月看花,亚洲人成网77777色在线播放

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

小白學(xué)大模型:國(guó)外主流大模型匯總

穎脈Imgtec ? 2025-08-27 14:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文轉(zhuǎn)自:Coggle數(shù)據(jù)科學(xué)


Attention Is All You Need (2017)

由Google Brain的團(tuán)隊(duì)撰寫,它徹底改變了自然語(yǔ)言處理(NLP)領(lǐng)域。論文的核心是提出了一種名為Transformer的全新模型架構(gòu),它完全舍棄了以往序列模型(如循環(huán)神經(jīng)網(wǎng)絡(luò) RNNs 和卷積神經(jīng)網(wǎng)絡(luò) CNNs)中常用的循環(huán)和卷積結(jié)構(gòu),而是完全依賴于“注意力機(jī)制”來(lái)處理序列數(shù)據(jù)。

以往的RNN模型必須按順序逐個(gè)處理序列中的詞語(yǔ),這使得訓(xùn)練過(guò)程難以并行化,尤其是在處理長(zhǎng)序列時(shí)效率很低。Transformer通過(guò)引入注意力機(jī)制,允許模型一次性處理整個(gè)序列,極大地提高了訓(xùn)練效率,使得處理超大規(guī)模的數(shù)據(jù)成為可能。

為了Transformer讓模型能從不同角度和層面捕捉詞語(yǔ)之間的關(guān)系,作者提出了多頭注意力。它相當(dāng)于并行運(yùn)行多個(gè)注意力機(jī)制,每個(gè)“頭”都專注于不同的表示子空間,最后將這些結(jié)果拼接起來(lái),使模型能夠更全面地理解復(fù)雜的關(guān)系。


BERT: Bidirectional Encoder Representations (2018)

BERT(Bidirectional Encoder Representations from Transformers)是由Google在2018年推出的一個(gè)強(qiáng)大的語(yǔ)言表示模型。與之前的模型(如OpenAI GPT)不同,BERT的核心思想是通過(guò)雙向的上下文來(lái)學(xué)習(xí)語(yǔ)言表示。這意味著,在預(yù)訓(xùn)練過(guò)程中,模型可以同時(shí)利用一個(gè)詞語(yǔ)的左側(cè)和右側(cè)的上下文信息,從而獲得更深層次、更全面的語(yǔ)言理解能力。

掩碼語(yǔ)言模型 (Masked Language Model, MLM) 為了實(shí)現(xiàn)雙向?qū)W習(xí),BERT不像傳統(tǒng)的語(yǔ)言模型那樣從左到右或從右到左預(yù)測(cè)下一個(gè)詞。它從輸入文本中隨機(jī)遮蓋 (mask) 掉一部分詞(通常為15%),然后讓模型去預(yù)測(cè)這些被遮蓋的詞是什么。這個(gè)任務(wù)迫使模型必須同時(shí)理解一個(gè)詞的左側(cè)和右側(cè)的上下文,才能正確地推斷出被遮蓋的詞語(yǔ)。這解決了之前單向模型無(wú)法同時(shí)利用雙向信息的弊端。

下一句預(yù)測(cè) (Next Sentence Prediction, NSP) 許多重要的下游任務(wù)(如問(wèn)答和自然語(yǔ)言推斷)需要模型理解句子之間的關(guān)系。 為了解決這個(gè)問(wèn)題,BERT被設(shè)計(jì)了一個(gè)下一句預(yù)測(cè)任務(wù)。在預(yù)訓(xùn)練時(shí),它輸入一對(duì)句子A和B,其中50%的B確實(shí)是A的下一句,而另外50%的B是從語(yǔ)料庫(kù)中隨機(jī)選取的。模型需要判斷B是否是A的真實(shí)下一句。這個(gè)任務(wù)幫助BERT學(xué)習(xí)到了句子層面的關(guān)系,使其在處理多個(gè)句子組成的任務(wù)時(shí)表現(xiàn)更佳。

BERT的架構(gòu)基于Transformer的編碼器部分。它的雙向性使其能夠生成對(duì)上下文敏感的詞嵌入,這些嵌入在應(yīng)用于下游任務(wù)時(shí)效果顯著。

  • 統(tǒng)一的微調(diào)方法:BERT的另一個(gè)重要貢獻(xiàn)是其簡(jiǎn)單的微調(diào) (fine-tuning)范式。預(yù)訓(xùn)練好的BERT模型可以通過(guò)在其頂層添加一個(gè)簡(jiǎn)單的輸出層,然后用特定任務(wù)的少量標(biāo)注數(shù)據(jù)進(jìn)行端到端的微調(diào),就能在廣泛的NLP任務(wù)(如問(wèn)答、命名實(shí)體識(shí)別、文本分類等)上取得當(dāng)時(shí)最先進(jìn)的(state-of-the-art)表現(xiàn)。
  • 深遠(yuǎn)影響:BERT的出現(xiàn)為預(yù)訓(xùn)練-微調(diào)的范式設(shè)定了新的標(biāo)準(zhǔn),證明了雙向表示的強(qiáng)大能力。它被認(rèn)為是NLP領(lǐng)域的一大里程碑,啟發(fā)了此后無(wú)數(shù)基于Transformer編碼器的大型模型,極大地推動(dòng)了NLP技術(shù)的發(fā)展。

T5: Text-to-Text Transfer Transformer (2019)

T5(Text-to-Text Transfer Transformer)是Google于2019年提出的一個(gè)開創(chuàng)性模型。這篇論文的核心思想非常簡(jiǎn)潔而強(qiáng)大:將所有的自然語(yǔ)言處理(NLP)任務(wù)都統(tǒng)一為一個(gè)“文本到文本”(text-to-text)問(wèn)題。這意味著,無(wú)論是機(jī)器翻譯、文本摘要、問(wèn)答,還是文本分類,所有任務(wù)都被重新表述為輸入一段文本,輸出另一段文本。

例如:

  • 翻譯:輸入 “translate English to German: That is good.”,輸出 “Das ist gut.”。
  • 文本分類:輸入 “cola sentence: The course is jumping well.”,輸出 “not acceptable”。
  • 摘要:輸入 “summarize: [原文]”,輸出 “ [摘要]”。

T5將不同類型的NLP任務(wù)(如生成、分類、理解)轉(zhuǎn)換為統(tǒng)一的文本輸入和文本輸出格式是可行且有效的。這使得模型可以利用大規(guī)模無(wú)監(jiān)督數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,并無(wú)縫地遷移到各種有監(jiān)督的下游任務(wù)中,而無(wú)需對(duì)模型架構(gòu)進(jìn)行任何修改。


Retrieval-Augmented Generation (RAG) (2020)

RAG是一種結(jié)合了參數(shù)化記憶(parametric memory)非參數(shù)化記憶(non-parametric memory)**的生成模型。它旨在解決傳統(tǒng)大型語(yǔ)言模型(LLMs)在處理知識(shí)密集型任務(wù)時(shí)存在的局限性,例如:

  • 知識(shí)更新困難:模型參數(shù)中的知識(shí)是固定的,無(wú)法輕松更新。
  • 容易“幻覺(jué)”:模型可能生成聽起來(lái)合理但實(shí)際上是錯(cuò)誤的事實(shí)。
  • 無(wú)法提供來(lái)源:模型無(wú)法解釋其生成內(nèi)容的知識(shí)來(lái)源。

RAG模型由兩個(gè)主要組件組成,并且可以進(jìn)行端到端的聯(lián)合訓(xùn)練:

  1. 檢索器(Retriever)
  • 這是一個(gè)基于BERT的雙編碼器模型,用于將輸入查詢(例如問(wèn)題)和外部文檔(例如維基百科段落)都編碼成向量。
  • 通過(guò)計(jì)算向量相似度,它能從一個(gè)大型的外部知識(shí)庫(kù)(非參數(shù)化記憶,如包含2100萬(wàn)個(gè)文檔的維基百科向量索引)中快速檢索出與輸入最相關(guān)的K個(gè)文檔。
  • 生成器(Generator)
    • RAG-Sequence:為整個(gè)生成序列使用同一個(gè)檢索到的文檔
    • RAG-Token:在生成每個(gè)詞語(yǔ)時(shí),都可以基于不同的檢索到的文檔。這種方法允許模型從多個(gè)來(lái)源拼湊信息,生成更復(fù)雜的答案。
  • 這是一個(gè)基于BART的預(yù)訓(xùn)練序列到序列(seq2seq)模型(即參數(shù)化記憶)。
  • 它以輸入查詢檢索到的文檔作為上下文,生成最終的答案或文本。
  • 論文提出了兩種生成方式:

GPT-1: Generative Pre-Training (2018)

GPT-1由OpenAI于2018年發(fā)布,其核心思想是提出了一種半監(jiān)督學(xué)習(xí)方法,用于解決自然語(yǔ)言處理(NLP)中標(biāo)簽數(shù)據(jù)稀缺的問(wèn)題。該方法的核心是“預(yù)訓(xùn)練-微調(diào)”(pre-training and fine-tuning)范式,即:

  1. 無(wú)監(jiān)督預(yù)訓(xùn)練:在一個(gè)大規(guī)模、未標(biāo)注的文本語(yǔ)料庫(kù)上,用生成式語(yǔ)言模型任務(wù)來(lái)預(yù)訓(xùn)練一個(gè)強(qiáng)大的通用語(yǔ)言模型。
  2. 有監(jiān)督微調(diào):將預(yù)訓(xùn)練好的模型參數(shù)作為初始化,然后用少量有標(biāo)簽的目標(biāo)任務(wù)數(shù)據(jù)對(duì)其進(jìn)行微調(diào)。

在預(yù)訓(xùn)練階段,模型的目標(biāo)是根據(jù)前面所有詞語(yǔ)來(lái)預(yù)測(cè)下一個(gè)詞語(yǔ),這是一種生成式的、從左到右的建模方式。這種方法使得模型能夠?qū)W習(xí)到廣泛的語(yǔ)言知識(shí)和長(zhǎng)距離依賴關(guān)系。

Transformer的自注意力機(jī)制使其能夠更有效地捕捉長(zhǎng)距離的依賴關(guān)系,這對(duì)于理解復(fù)雜的文本至關(guān)重要,并為模型帶來(lái)了更強(qiáng)的泛化能力。

GPT-1通過(guò)在輸入端對(duì)不同任務(wù)(如自然語(yǔ)言推斷、問(wèn)答等)進(jìn)行統(tǒng)一的格式化,使得所有任務(wù)都可以使用相同的模型架構(gòu)進(jìn)行微調(diào),無(wú)需對(duì)模型本身進(jìn)行結(jié)構(gòu)上的改變。這大大簡(jiǎn)化了模型適配不同任務(wù)的復(fù)雜性。


GPT-2: Scaling Up (2019)

GPT-2的核心主張是:語(yǔ)言模型在進(jìn)行大規(guī)模無(wú)監(jiān)督預(yù)訓(xùn)練后,能夠無(wú)需任何顯式監(jiān)督或架構(gòu)修改,就能執(zhí)行多種多樣的下游任務(wù)。作者們認(rèn)為,如果一個(gè)語(yǔ)言模型擁有足夠大的參數(shù)規(guī)模,并在一個(gè)足夠多樣化的高質(zhì)量文本數(shù)據(jù)集上進(jìn)行訓(xùn)練,它會(huì)“自發(fā)地”學(xué)習(xí)如何執(zhí)行這些任務(wù),因?yàn)檫@些任務(wù)的示例(比如問(wèn)答、翻譯等)自然存在于其訓(xùn)練數(shù)據(jù)中。

語(yǔ)言模型本質(zhì)上是無(wú)監(jiān)督的多任務(wù)學(xué)習(xí)者。在預(yù)訓(xùn)練過(guò)程中,模型為了更好地預(yù)測(cè)下一個(gè)詞,會(huì)隱式地學(xué)習(xí)到文本中存在的各種任務(wù)模式,例如:“翻譯法語(yǔ):[英文]”后面跟著的往往是對(duì)應(yīng)的法文翻譯。


GPT-3: Few-Shot Learning (2020)

GPT-3的核心觀點(diǎn)是:通過(guò)大幅增加語(yǔ)言模型的規(guī)模,可以使其在無(wú)需任何梯度更新或微調(diào)的情況下,僅憑少量示例(或甚至沒(méi)有示例)就能學(xué)會(huì)執(zhí)行新任務(wù)。

論文提出,傳統(tǒng)的“預(yù)訓(xùn)練-微調(diào)”范式雖然有效,但需要為每個(gè)新任務(wù)收集成千上萬(wàn)的標(biāo)注數(shù)據(jù)。GPT-3則展示了,當(dāng)模型擁有1750億參數(shù)的巨大規(guī)模時(shí),它能夠通過(guò)“上下文學(xué)習(xí)”(in-context learning),即在輸入的文本提示中直接給出任務(wù)指令和少量演示,就表現(xiàn)出強(qiáng)大的零樣本(zero-shot)、單樣本(one-shot)和少樣本(few-shot)學(xué)習(xí)能力,有時(shí)甚至能與經(jīng)過(guò)微調(diào)的SOTA模型相媲美。

  • 零樣本學(xué)習(xí)(Zero-shot):只給模型一個(gè)自然語(yǔ)言指令,不提供任何示例。例如:“將以下英文翻譯成法文:[英文]”。
  • 單樣本學(xué)習(xí)(One-shot):提供一個(gè)任務(wù)示例和自然語(yǔ)言指令。例如:“將英文‘Hello’翻譯成法文‘Bonjour’?,F(xiàn)在請(qǐng)翻譯‘Goodbye’?!?/li>
  • 少樣本學(xué)習(xí)(Few-shot):提供多個(gè)任務(wù)示例和自然語(yǔ)言指令。

ChatGPT: Conversational Interface (2022)

ChatGPT 是 OpenAI 訓(xùn)練的一款大型語(yǔ)言模型,專門設(shè)計(jì)用于通過(guò)對(duì)話進(jìn)行交互。這種對(duì)話形式使其能夠:

  • 回答后續(xù)問(wèn)題。
  • 承認(rèn)并糾正自己的錯(cuò)誤。
  • 質(zhì)疑不正確的前提。
  • 拒絕不當(dāng)或有害的請(qǐng)求。

ChatGPT 的訓(xùn)練方法結(jié)合了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí),這一過(guò)程被稱為人類反饋強(qiáng)化學(xué)習(xí)(RLHF)

  1. 監(jiān)督微調(diào)
  • 首先,OpenAI 雇傭了人類 AI 訓(xùn)練員。
  • 這些訓(xùn)練員扮演“用戶”和“AI 助手”的角色,編寫對(duì)話,并提供模型生成的建議作為參考,以創(chuàng)建高質(zhì)量的對(duì)話數(shù)據(jù)集。
  • 這個(gè)新的對(duì)話數(shù)據(jù)集與現(xiàn)有的 InstructGPT 數(shù)據(jù)集混合,用于訓(xùn)練一個(gè)初始的 ChatGPT 模型。
  • 強(qiáng)化學(xué)習(xí)
    • 為了訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型(Reward Model),OpenAI 收集了對(duì)比數(shù)據(jù)。
    • AI 訓(xùn)練員會(huì)評(píng)估模型為同一條提示生成的多個(gè)備選回復(fù),并根據(jù)質(zhì)量對(duì)其進(jìn)行排序。
    • 利用這些排序數(shù)據(jù),訓(xùn)練出了一個(gè)獎(jiǎng)勵(lì)模型,該模型可以根據(jù)回復(fù)的質(zhì)量給予分?jǐn)?shù)。
    • 最后,使用近端策略優(yōu)化(PPO)算法,根據(jù)獎(jiǎng)勵(lì)模型的分?jǐn)?shù)對(duì)初始模型進(jìn)行微調(diào),以鼓勵(lì)其生成更高質(zhì)量的回復(fù)。

GPT-4: Multimodal Capabilities (2023)

GPT-4是一個(gè)大規(guī)模、多模態(tài)的模型,能夠同時(shí)接受圖像和文本輸入,并生成文本輸出。盡管它在許多現(xiàn)實(shí)場(chǎng)景中仍不如人類,但在各種專業(yè)和學(xué)術(shù)基準(zhǔn)測(cè)試中,GPT-4展現(xiàn)出了接近人類水平的性能。

GPT-4是OpenAI首個(gè)支持圖像輸入的模型。報(bào)告展示了GPT-4能夠理解圖像中的文本、圖表和幽默,并進(jìn)行描述和回答相關(guān)問(wèn)題。

GPT-4項(xiàng)目的一個(gè)核心挑戰(zhàn)是確保深度學(xué)習(xí)基礎(chǔ)設(shè)施能可預(yù)測(cè)地?cái)U(kuò)展。通過(guò)開發(fā)新的方法,OpenAI能夠使用比GPT-4訓(xùn)練計(jì)算量少1000倍甚至10000倍的小型模型。


OpenAI Sora: World Simulation (2024)

  • Diffusion-based video generation
  • Physical world modeling from text descriptions
  • Temporal consistency across long sequences
  • Camera movement simulation

GPT-4o: Omni Model (2024)

  • Real-time responsiveness
  • Native audio input/output
  • Improved vision capabilities
  • Cost-efficient multimodal processing

Google's PaLM (2022)

PaLM(Pathways Language Model),一個(gè)擁有 5400億參數(shù)的巨型語(yǔ)言模型。PaLM 的訓(xùn)練采用了谷歌的新型機(jī)器學(xué)習(xí)系統(tǒng) Pathways,這使得在數(shù)千個(gè)加速器芯片上進(jìn)行高效訓(xùn)練成為可能。

結(jié)合“鏈?zhǔn)剿伎肌碧崾炯夹g(shù)(即模型先生成逐步推理過(guò)程,再給出最終答案),PaLM 在多步推理任務(wù)上的表現(xiàn)超越了許多經(jīng)過(guò)微調(diào)的SOTA模型,展示了其強(qiáng)大的推理能力。


Switch Transformer (MoE) (2021)

Switch Transformer基于“專家混合”(Mixture-of-Experts, MoE)架構(gòu)的Transformer模型。與傳統(tǒng)模型為所有輸入重用相同參數(shù)不同,MoE模型會(huì)為每個(gè)輸入動(dòng)態(tài)選擇不同的參數(shù)子集。

  • 巨大的參數(shù)規(guī)模(最高可達(dá)萬(wàn)億參數(shù))。
  • 恒定的計(jì)算成本:由于每次只激活部分參數(shù),計(jì)算量與一個(gè)更小的“密集”模型相當(dāng)。
  • 顯著的訓(xùn)練加速:能夠比相同計(jì)算成本的密集模型(如T5-Base)快7倍以上。

Meta's OPT: First Major Open Model (2022)

Open Pre-trained Transformers (OPT)是一個(gè)由 Meta AI 訓(xùn)練和發(fā)布的一系列語(yǔ)言模型,參數(shù)量從1.25億到1750億不等。該項(xiàng)目的目標(biāo)是開放和負(fù)責(zé)任地與研究社區(qū)共享這些模型,以促進(jìn)對(duì)大型語(yǔ)言模型(LLMs)的深入研究,特別是在魯棒性、偏見和毒性等關(guān)鍵挑戰(zhàn)上。

由于使用了最新的NVIDIA A100 GPU以及高效的訓(xùn)練策略,OPT-175B 的開發(fā)所耗費(fèi)的碳足跡僅為 GPT-3 的七分之一


LLaMA 1: Meta's Open Research LLM (2023)

LLaMA是一個(gè)由 Meta AI 訓(xùn)練和發(fā)布的系列基礎(chǔ)語(yǔ)言模型,參數(shù)量從70億到650億不等。該研究的核心論點(diǎn)是,通過(guò)在更多的數(shù)據(jù)上訓(xùn)練更小的模型,可以在相同的計(jì)算預(yù)算下實(shí)現(xiàn)與更大模型(如PaLM-540B或GPT-3)相當(dāng)甚至更優(yōu)的性能。

與之前的大型模型(如GPT-3、PaLM)不同,LLaMA系列模型完全使用公開可用的數(shù)據(jù)集進(jìn)行訓(xùn)練,這使其可以完全開放給研究社區(qū),從而推動(dòng)該領(lǐng)域的民主化。


Stanford Alpaca (2023)

Alpaca 7B是一個(gè)在LLaMA 7B模型基礎(chǔ)上,通過(guò)在5.2萬(wàn)條指令遵循數(shù)據(jù)上進(jìn)行微調(diào)而得到的模型。其主要貢獻(xiàn)在于,Alpaca 在指令遵循能力上定性地類似于當(dāng)時(shí)最先進(jìn)的閉源模型OpenAI 的text-davinci-003,但它的模型規(guī)模非常小,且訓(xùn)練成本極低(不到600美元),使其可以被學(xué)術(shù)界輕松復(fù)現(xiàn)。

訓(xùn)練 Alpaca 7B 的總成本低于600美元,其中數(shù)據(jù)生成成本不到500美元(通過(guò)調(diào)用OpenAI API),模型微調(diào)成本不到100美元。


LLaMA 2: Commercial Open-Source (2023)

Llama 2,一個(gè)由 Meta AI 開發(fā)和發(fā)布的新一代大型語(yǔ)言模型系列。該系列包括了預(yù)訓(xùn)練模型 Llama 2經(jīng)過(guò)微調(diào)的聊天模型 Llama 2-Chat,參數(shù)規(guī)模從70億到700億不等。該論文的核心貢獻(xiàn)在于:

發(fā)布強(qiáng)大的、可商用的模型:Llama 2-Chat 在大多數(shù)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于其他開源聊天模型,并且通過(guò)人類評(píng)估,其能力足以與一些閉源模型(如 ChatGPT)相媲美。

詳細(xì)公開其微調(diào)和安全對(duì)齊方法:論文詳細(xì)闡述了如何通過(guò)監(jiān)督式微調(diào)(SFT)人類反饋強(qiáng)化學(xué)習(xí)(RLHF)來(lái)將基礎(chǔ)模型轉(zhuǎn)化為一個(gè)有用的、安全的聊天助手。這種開放性旨在讓研究社區(qū)能夠在此基礎(chǔ)上繼續(xù)研究和改進(jìn)大型語(yǔ)言模型。


LLaMA 3: Continued Scaling (2024)

Meta Llama 3 是 Meta 推出的新一代開源大型語(yǔ)言模型。此次發(fā)布的初始版本包含兩個(gè)模型:8B 和 70B 參數(shù),旨在支持廣泛的應(yīng)用場(chǎng)景。Meta 宣稱,這些模型是同類中能力最強(qiáng)的開源模型,足以與領(lǐng)先的閉源模型(如 Claude Sonnet 和 GPT-3.5)競(jìng)爭(zhēng)。一個(gè)更大的 400B 參數(shù)模型目前仍在訓(xùn)練中,未來(lái)計(jì)劃增加多模態(tài)、多語(yǔ)言支持等新功能。


LLaMA 4: Mixture-of-Experts (2025)

與前代不同,Llama 4 是 Meta 首個(gè)采用專家混合架構(gòu)(Mixture-of-Experts, MoE)**并原生支持**多模態(tài)功能的模型。

此次發(fā)布了兩個(gè)高效模型:

  • Llama 4 Scout: 擁有170億活躍參數(shù)和16個(gè)專家,能適配單張 NVIDIA H100 GPU,并擁有業(yè)內(nèi)領(lǐng)先的1000萬(wàn)tokens超長(zhǎng)上下文窗口。它在長(zhǎng)文檔分析、代碼庫(kù)推理等任務(wù)上表現(xiàn)出色。
  • Llama 4 Maverick: 擁有170億活躍參數(shù)和128個(gè)專家,盡管總參數(shù)達(dá)4000億,但其高效率帶來(lái)了卓越的性能成本比。它在圖像和文本理解方面表現(xiàn)突出,在通用助理和聊天場(chǎng)景中堪稱“主力”。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1813

    文章

    49536

    瀏覽量

    259351
  • 自然語(yǔ)言處理
    +關(guān)注

    關(guān)注

    1

    文章

    629

    瀏覽量

    14517
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3365

    瀏覽量

    4816
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    小白學(xué)模型:大模型加速的秘密 FlashAttention 1/2/3

    在Transformer架構(gòu)中,注意力機(jī)制的計(jì)算復(fù)雜度與序列長(zhǎng)度(即文本長(zhǎng)度)呈平方關(guān)系()。這意味著,當(dāng)模型需要處理更長(zhǎng)的文本時(shí)(比如從幾千個(gè)詞到幾萬(wàn)個(gè)詞),計(jì)算時(shí)間和所需的內(nèi)存會(huì)急劇增加。最開始
    的頭像 發(fā)表于 09-10 09:28 ?4128次閱讀
    <b class='flag-5'>小白</b><b class='flag-5'>學(xué)</b>大<b class='flag-5'>模型</b>:大<b class='flag-5'>模型</b>加速的秘密 FlashAttention 1/2/3

    模型在半導(dǎo)體行業(yè)的應(yīng)用可行性分析

    的應(yīng)用,比如使用機(jī)器學(xué)習(xí)分析數(shù)據(jù),提升良率。 這一些大模型是否真的有幫助 能夠在解決工程師的知識(shí)斷層問(wèn)題 本人純小白,不知道如何涉足這方面 應(yīng)該問(wèn)什么大模型比較好,或者是看什么視頻能夠涉足這個(gè)行業(yè)
    發(fā)表于 06-24 15:10

    FA模型卡片和Stage模型卡片切換

    卡片切換 卡片切換主要包含如下三部分: 卡片頁(yè)面布局:FA模型卡片和Stage模型卡片的布局都采用類web范式開發(fā)可以直接復(fù)用。 卡片配置文件:FA模型的卡片配置在config.json中
    發(fā)表于 06-06 08:10

    FA模型和Stage模型API切換概述

    API切換概述 FA模型和Stage模型由于線程模型和進(jìn)程模型的差異,部分接口僅在FA模型下才能使用,針對(duì)這部分接口在SDK的接口中有FA
    發(fā)表于 06-06 06:29

    從FA模型切換到Stage模型時(shí):module的切換說(shuō)明

    module的切換 從FA模型切換到Stage模型時(shí),開發(fā)者需要將config.json文件module標(biāo)簽下的配置遷移到module.json5配置文件module標(biāo)簽下,具體差異
    發(fā)表于 06-05 08:16

    FA模型訪問(wèn)Stage模型DataShareExtensionAbility說(shuō)明

    FA模型訪問(wèn)Stage模型DataShareExtensionAbility 概述 無(wú)論FA模型還是Stage模型,數(shù)據(jù)讀寫功能都包含客戶端和服務(wù)端兩部分。 FA
    發(fā)表于 06-04 07:53

    小白學(xué)模型:從零實(shí)現(xiàn) LLM語(yǔ)言模型

    在當(dāng)今人工智能領(lǐng)域,大型語(yǔ)言模型(LLM)的開發(fā)已經(jīng)成為一個(gè)熱門話題。這些模型通過(guò)學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語(yǔ)言文本,完成各種復(fù)雜的任務(wù),如寫作、翻譯、問(wèn)答等。https
    的頭像 發(fā)表于 04-30 18:34 ?928次閱讀
    <b class='flag-5'>小白</b><b class='flag-5'>學(xué)</b>大<b class='flag-5'>模型</b>:從零實(shí)現(xiàn) LLM語(yǔ)言<b class='flag-5'>模型</b>

    KaihongOS操作系統(tǒng)FA模型與Stage模型介紹

    FA模型與Stage模型介紹 KaihongOS操作系統(tǒng)中,F(xiàn)A模型(Feature Ability)和Stage模型是兩種不同的應(yīng)用模型
    發(fā)表于 04-24 07:27

    小白學(xué)模型:訓(xùn)練大語(yǔ)言模型的深度指南

    在當(dāng)今人工智能飛速發(fā)展的時(shí)代,大型語(yǔ)言模型(LLMs)正以其強(qiáng)大的語(yǔ)言理解和生成能力,改變著我們的生活和工作方式。在最近的一項(xiàng)研究中,科學(xué)家們?yōu)榱松钊肓私馊绾胃咝У赜?xùn)練大型語(yǔ)言模型,進(jìn)行了超過(guò)
    的頭像 發(fā)表于 03-03 11:51 ?1082次閱讀
    <b class='flag-5'>小白</b><b class='flag-5'>學(xué)</b>大<b class='flag-5'>模型</b>:訓(xùn)練大語(yǔ)言<b class='flag-5'>模型</b>的深度指南

    小白學(xué)解釋性AI:從機(jī)器學(xué)習(xí)到大模型

    科學(xué)AI需要可解釋性人工智能的崛起,尤其是深度學(xué)習(xí)的發(fā)展,在眾多領(lǐng)域帶來(lái)了令人矚目的進(jìn)步。然而,伴隨這些進(jìn)步而來(lái)的是一個(gè)關(guān)鍵問(wèn)題——“黑箱”問(wèn)題。許多人工智能模型,特別是復(fù)雜的模型,如神經(jīng)網(wǎng)
    的頭像 發(fā)表于 02-10 12:12 ?975次閱讀
    <b class='flag-5'>小白</b><b class='flag-5'>學(xué)</b>解釋性AI:從機(jī)器學(xué)習(xí)到大<b class='flag-5'>模型</b>

    小白學(xué)模型:構(gòu)建LLM的關(guān)鍵步驟

    隨著大規(guī)模語(yǔ)言模型(LLM)在性能、成本和應(yīng)用前景上的快速發(fā)展,越來(lái)越多的團(tuán)隊(duì)開始探索如何自主訓(xùn)練LLM模型。然而,是否從零開始訓(xùn)練一個(gè)LLM,并非每個(gè)組織都適合。本文將根據(jù)不同的需求與資源,幫助
    的頭像 發(fā)表于 01-09 12:12 ?1465次閱讀
    <b class='flag-5'>小白</b><b class='flag-5'>學(xué)</b>大<b class='flag-5'>模型</b>:構(gòu)建LLM的關(guān)鍵步驟

    【「大模型啟示錄」閱讀體驗(yàn)】+開啟智能時(shí)代的新鑰匙

    那些擁有數(shù)十億甚至數(shù)千億參數(shù)的大規(guī)模模型成為了現(xiàn)實(shí)可能。Transformer 等機(jī)制模型架構(gòu)的橫空出世,徹底改變了模型訓(xùn)練的效率和性能。 我有時(shí)在想國(guó)外為何能夠在大
    發(fā)表于 12-24 13:10

    【「大模型啟示錄」閱讀體驗(yàn)】如何在客服領(lǐng)域應(yīng)用大模型

    在客服領(lǐng)域是大模型落地場(chǎng)景中最多的,也是最容易實(shí)現(xiàn)的。本身客服領(lǐng)域的特點(diǎn)就是問(wèn)答形式,大模型接入難度低。今天跟隨《大模型啟示錄 》這本書,學(xué)習(xí)大模型在客服領(lǐng)域的改變。選擇大
    發(fā)表于 12-17 16:53

    寫給小白的大模型入門科普

    什么是大模型?大模型,英文名叫LargeModel,大型模型。早期的時(shí)候,也叫FoundationModel,基礎(chǔ)模型。大模型是一個(gè)簡(jiǎn)稱。完
    的頭像 發(fā)表于 11-23 01:06 ?936次閱讀
    寫給<b class='flag-5'>小白</b>的大<b class='flag-5'>模型</b>入門科普