來源:NVIDIA英偉達
數(shù)據(jù)飛輪是一種反饋循環(huán)機制,通過從交互或流程中收集數(shù)據(jù),持續(xù)優(yōu)化 AI 模型,進而產(chǎn)生更優(yōu)的結(jié)果和更有價值的數(shù)據(jù)。
1AI 數(shù)據(jù)飛輪的工作原理是什么?
AI 數(shù)據(jù)飛輪的工作原理是通過創(chuàng)造循環(huán)機制,幫助 AI 模型整合機構(gòu)知識與用戶反饋,從而實現(xiàn)持續(xù)的改進。當模型生成輸出結(jié)果時,數(shù)據(jù)飛輪會將反饋與新數(shù)據(jù)收集起來,用于模型的優(yōu)化與增強。這一流程涉及數(shù)據(jù)管護與數(shù)據(jù)質(zhì)量的提升,以便確保 AI 模型的精度和性能均得到持續(xù)改善。

數(shù)據(jù)飛輪:由數(shù)據(jù)處理、模型定制、評估、護欄和及部署構(gòu)成的持續(xù)運轉(zhuǎn)周期,能夠利用企業(yè)數(shù)據(jù)改進 AI 系統(tǒng)
此外,數(shù)據(jù)飛輪內(nèi)置 AI 護欄,以保持數(shù)據(jù)的完整性和可靠性,確保輸出結(jié)果準確、合規(guī)、安全。這種持續(xù)的反饋和增強周期能夠使 AI 模型的效能與日俱增。這一工作流由六大步驟組成:
數(shù)據(jù)處理:AI 數(shù)據(jù)飛輪的基礎(chǔ)是企業(yè)數(shù)據(jù)。這類數(shù)據(jù)形式多樣,包括文本文檔、圖像、視頻、表格和圖表。AI 數(shù)據(jù)飛輪需要通過對原始數(shù)據(jù)進行數(shù)據(jù)處理來提取和優(yōu)化信息。隨后,原始數(shù)據(jù)將接受進一步的篩選,去除低質(zhì)量文檔、個人身份信息 (PII) 與不良、有害數(shù)據(jù),生成高質(zhì)量數(shù)據(jù)。這樣的數(shù)據(jù)管護能夠有效提高應(yīng)用的準確性。
模型定制:借助領(lǐng)域自適應(yīng)預(yù)訓(xùn)練 (DAPT) 和監(jiān)督式微調(diào) (SFT) 等大語言模型 (LLM) 技術(shù),您能夠在資源要求較低情況下,快速為模型增添領(lǐng)域特定知識與任務(wù)專屬技能。到這一步,模型已對公司的特有詞匯和上下文有了更深的理解。
模型評估:接下來,您可以評估模型性能、驗證答案(輸出)是否符合應(yīng)用的要求。以迭代的方式執(zhí)行前三步,能夠確保模型質(zhì)量得到改進,且結(jié)果符合目標應(yīng)用的要求。
AI 護欄實施:將 AI 護欄添加到定制模型中,可確保應(yīng)用的部署符合企業(yè)對隱私、安全保障和安全的特定要求。
自定義模型部署:在同時部署生成式 AI 和代理式 AI 應(yīng)用時,從不斷擴大的數(shù)據(jù)庫中持續(xù)檢索信息。用戶反饋和系統(tǒng)運行數(shù)據(jù)會被反復(fù)收集。借助 AI 數(shù)據(jù)飛輪,您可以在基于應(yīng)用交互構(gòu)建機構(gòu)知識的同時,生成經(jīng)優(yōu)化、更智能的答案。
企業(yè)數(shù)據(jù)優(yōu)化:由此產(chǎn)生的結(jié)果就是,隨著時間推移,機構(gòu)數(shù)據(jù)會基于收集自人類反饋和 AI 模型反饋的新數(shù)據(jù)持續(xù)更新。隨著流程的重復(fù),這一過程將反饋到數(shù)據(jù)處理中。
2擴展 AI 數(shù)據(jù)飛輪策略的目的是什么?
現(xiàn)實世界的 AI 智能體系統(tǒng)可能包含數(shù)百至數(shù)千個 AI 智能體,通過同時工作來實現(xiàn)流程的自動化。數(shù)據(jù)飛輪對于簡化智能體操作(如審查新數(shù)據(jù))至關(guān)重要,特別是在業(yè)務(wù)需求發(fā)生變化的情況下。這可確保 AI 智能體編排更加流暢,因為專業(yè)化的 AI 智能體團隊可以提供針對資源優(yōu)化的規(guī)劃,并以更少的人工輸入執(zhí)行這些計劃。
代理式 AI 的可擴展性依賴于由數(shù)據(jù)管護、模型訓(xùn)練、部署以及機構(gòu)知識收集審查構(gòu)成的自動化周期,最終實現(xiàn)智能體性能的不斷提升。
此外,AI 應(yīng)用還涉及若干身擔(dān)特定職責(zé)的人類協(xié)作者:

3為什么數(shù)據(jù)飛輪對于代理式 AI和生成式 AI 的采用至關(guān)重要?
在采用 AI 智能體和生成式 AI 應(yīng)用時,需要借助數(shù)據(jù)飛輪來推動軟件持續(xù)改進、提升適應(yīng)性。例如,隨著業(yè)務(wù)需求發(fā)生變化或復(fù)雜性增加,性能和成本往往成為決定商業(yè)成敗的關(guān)鍵。
借助高效的 AI 數(shù)據(jù)飛輪,企業(yè)組織可以:
開發(fā)符合業(yè)務(wù)或客戶需求且經(jīng)濟高效的應(yīng)用。
對產(chǎn)品進行個性化和優(yōu)化,改善用戶體驗。
達成切實的目標,如提高銷售轉(zhuǎn)化率或通過實施自動化提升生產(chǎn)力。
為保持競爭優(yōu)勢,企業(yè)組織可以收集處理新的交互數(shù)據(jù)、優(yōu)化 AI 模型,并逐步提升其 AI 應(yīng)用的性能。從 LLM 到視覺語言模型 (VLM),可用于集成的數(shù)據(jù)類型豐富多樣。
開發(fā)團隊也可以加快模型訓(xùn)練速度,專注于利用其專有數(shù)據(jù)對現(xiàn)有基礎(chǔ)模型進行調(diào)優(yōu)。生成式 AI 微服務(wù)可通過 API 調(diào)用進一步簡化這一流程。
這種方法能夠大幅減少開發(fā)和部署代理式 AI 和生成式 AI 解決方案所需的時間和資源。
4應(yīng)該在何時對數(shù)據(jù)飛輪進行加速?
加速 AI 數(shù)據(jù)飛輪對解決與代理式 AI 技術(shù)相關(guān)的依賴關(guān)系具有重要意義。
例如,如果沒有集中式反饋和日志記錄系統(tǒng),我們就難以對系統(tǒng)性能進行跟蹤和分析,而這有可能影響數(shù)據(jù)飛輪的運行速度。如果評估數(shù)據(jù)集不能準確反映現(xiàn)實世界場景,就有可能導(dǎo)致模型性能欠佳。
隨著知識庫的更新,系統(tǒng)反饋的相關(guān)性可能會下降,從而使飛輪難以實現(xiàn)持續(xù)改進。人工干預(yù)雖然有益,但需要耗費大量資源和時間。解決這一問題,將有助于在加速數(shù)據(jù)飛輪同時保持其效能。
這樣一來,當系統(tǒng)層面發(fā)生大量影響性能的交互時,加速就變得很有必要。例如,在生成式 AI 應(yīng)用中,準確性和與符合人類偏好很重要。在代理式 AI 應(yīng)用中,則需要 AI 知識工作者對計劃進行簡化和執(zhí)行。

5如何開始使用數(shù)據(jù)飛輪?
要借助數(shù)據(jù)飛輪構(gòu)建新一代代理式 AI 和生成式 AI 應(yīng)用,需要對機構(gòu)數(shù)據(jù)進行快速迭代和利用。
NVIDIA NeMo 是一個用于構(gòu)建數(shù)據(jù)飛輪的端到端平臺,可助力企業(yè)利用最新信息對 AI 智能體進行持續(xù)優(yōu)化。
借助 NeMo,企業(yè) AI 開發(fā)者能夠輕松完成對數(shù)據(jù)的大規(guī)模管護,利用熱門調(diào)優(yōu)技術(shù)定制 LLM,根據(jù)行業(yè)和自定義基準測試對模型進行具有一致性的評估,并在護欄的保障下得到適用且可靠的輸出結(jié)果。
NeMo 平臺包含:
NeMo Curator:可高效管護用于訓(xùn)練 LLM 的高質(zhì)量數(shù)據(jù)集,從而起到提高模型性能、加速 AI 解決方案部署的作用。
NeMo Customizer:一項高性能、可擴展的微服務(wù),可運用 LoRA、DPO 等熱門參數(shù)高效調(diào)優(yōu)技術(shù),簡化 LLM 的微調(diào)和校準工作。
NeMo Evaluator:一項企業(yè)級微服務(wù),用于提供生成式 AI 模型的行業(yè)標準基準測試、合成數(shù)據(jù)生成以及端到端的 RAG 工作流。
NeMo Guardrails:一項面向開發(fā)者的微服務(wù),可幫助開發(fā)者在基于 LLM 的應(yīng)用中實現(xiàn)強大的安全性和保障措施,確保這些應(yīng)用始終具有可靠性,且符合組織的政策和指南。
NeMo Retriever:一組微服務(wù),可通過可擴展的數(shù)據(jù)采集和高精度的隱私保護檢索為 AI 數(shù)據(jù)飛輪賦能。依靠源自大型數(shù)據(jù)集合、具有上下文感知能力的快速響應(yīng)能力,開發(fā)者能夠?qū)?AI 應(yīng)用與不同數(shù)據(jù)源連接起來,構(gòu)建 AI 查詢引擎,并利用實時洞察對 AI 模型進行持續(xù)優(yōu)化。
-
AI
+關(guān)注
關(guān)注
88文章
37224瀏覽量
292052 -
模型
+關(guān)注
關(guān)注
1文章
3618瀏覽量
51547 -
智能體
+關(guān)注
關(guān)注
1文章
369瀏覽量
11483
原文標題:麗臺科普丨什么是數(shù)據(jù)飛輪?
文章出處:【微信號:Leadtek,微信公眾號:麗臺科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
飛輪儲能的電機控制方法
FLASH的工作原理與應(yīng)用

AI數(shù)據(jù)飛輪的工作原理
評論