男女啪啪真实无遮挡免费,亚洲欧美激情小说另类,人人爽人人爽人人片a

本文討論了一位程序員利用樹莓派、攝像頭、Gemini和Python構(gòu)建PeregrineEye設(shè)備，使其成為“數(shù)字導(dǎo)盲犬”為視障者服務(wù)的項目經(jīng)歷，包括項目靈感、功能、構(gòu)建過程、遇到的挑戰(zhàn)及未來計劃等。關(guān)鍵要點(diǎn)包括：

1.項目靈感：程序員因眼睛疲勞引發(fā)思考，結(jié)合AutoBerry Pi項目，想為視障人士創(chuàng)造了解周圍環(huán)境的設(shè)備。

2.項目功能：能進(jìn)行圖像描述，將圖片和音頻描述保存為MP3；未來將推出交互式指導(dǎo)。

3.項目構(gòu)建：利用Gemini視覺模型分析圖片，Python的Google文本轉(zhuǎn)語音引擎實(shí)現(xiàn)文本轉(zhuǎn)語音，硬件包含樹莓派等部件，以Python集成硬件和庫。

4.面臨挑戰(zhàn)：存在照明敏感度、大模型幻覺、距離和細(xì)節(jié)、多任務(wù)管理等問題。

5.未來計劃：增加麥克風(fēng)支持，連接API保存相關(guān)數(shù)據(jù)，集成RAG模塊增強(qiáng)理解能力。

6.項目潛力：可用于獲取營養(yǎng)信息、識別倉庫標(biāo)簽、跟蹤健康進(jìn)度等。

7.引發(fā)思考：項目引發(fā)對視覺大模型、TTS領(lǐng)域及接入其他模型的討論，演變?yōu)闄z驗AI普惠性的課題。

導(dǎo)語

當(dāng)Gemini初現(xiàn)鋒芒，全球開發(fā)者都為多模態(tài)AI的"視覺智能"心跳加速——演示視頻里，模型對漢堡配料如數(shù)家珍，對化學(xué)方程式信手拈來。但鮮有人追問：當(dāng)炫技的聚光燈熄滅，這些技術(shù)究竟能在真實(shí)世界的暗角點(diǎn)燃怎樣的火種？

一位程序員用樹莓派+攝像頭+Gemini+Python構(gòu)建的PeregrineEye設(shè)備，給出了他的答案：在視力模糊的日子里，讓AI化身"數(shù)字導(dǎo)盲犬"，通過實(shí)時圖像描述與語音反饋，為視障者重構(gòu)空間認(rèn)知。這個極客版"第三只眼"，既驗證了多模態(tài)大模型的實(shí)用價值，也暴露出技術(shù)落地時的刺骨現(xiàn)實(shí)。下面來看看他的項目經(jīng)歷吧！

靈感

作為一名程序員，我花了無數(shù)的時間盯著代碼。有一天，眼睛疲勞迫使我只能用模糊的視線面對世界。這次經(jīng)歷凸顯了視力對我們?nèi)粘Ｉ畹纳钸h(yuǎn)影響。這引發(fā)了一個問題：當(dāng)我的視力需要休息時，導(dǎo)致這種暫時退步的技術(shù)——人工智能能否成為一種輔助工具？

由于我一直在從事另一個名為AutoBerry Pi的項目，我決定在它上面添加一個攝像頭和一個音響罩，這樣我就可以與 LLM 和周圍環(huán)境進(jìn)行互動，創(chuàng)造出一些可以幫助視障人士了解周圍環(huán)境的東西。

值得一提的是，我知道這個概念已經(jīng)存在了有：一個非?？岬母拍钜曨l，一個男人使用 ChatGPT幫助導(dǎo)航。

PEREGRINEYE項目并不是想與之競爭；這個項目是在該視頻發(fā)布之前構(gòu)思的，純粹是出于我對在旅途中使用設(shè)備測試 LLM 的熱愛。

項目預(yù)覽

下面是這款相機(jī)的外形

功能

- 圖像描述：在光線充足的任何地方拍攝一張照片，AI相機(jī)會立即從您的視角描述圖像中的元素，提供豐富的細(xì)節(jié)。它將圖片和音頻描述都保存為 MP3 以供日后參考。

- 即將推出：交互式指導(dǎo)。不久，AI相機(jī) 將更進(jìn)一步。只需告訴它您在拍攝的圖像中尋找什么，它就會提供音頻說明，幫助您找到物體、繞過障礙物或與周圍環(huán)境互動。

它是如何建造的

1、圖像描述引擎

我們利用 Gemini 視覺模型來分析設(shè)備拍攝的圖片并生成詳細(xì)的描述。提示詞對于塑造輸出的質(zhì)量極為重要。我們目前使用的基本提示為我們提供了中等到良好的結(jié)果：

提示詞：您是一個數(shù)字助理，需要為盲人提供視覺反饋，幫助他們在周圍環(huán)境中導(dǎo)航。收到圖像后，詳細(xì)描述關(guān)鍵物體和結(jié)構(gòu)，包括它們的相對位置和上下文信息。您的回復(fù)應(yīng)簡潔、清晰且信息豐富，使用戶能夠有效地定位自己。此外，學(xué)習(xí)并適應(yīng)經(jīng)常訪問的地方，以提供個性化指導(dǎo)。您的回復(fù)要自然，并專注于提供有價值的幫助，使您的用戶能夠進(jìn)行日常導(dǎo)航。

代碼現(xiàn)在需要從更新1.5-flash到：

model= genai.GenerativeModel(model_name="gemini-1.5-pro-latest")

盡管 Gemini 視覺模型提供了不錯的結(jié)果，但它并不是這類項目的最佳選擇，因為它有時會產(chǎn)生不準(zhǔn)確的描述（“幻覺”）。通過更好的參數(shù)化和模型微調(diào)，這可能會得到改善。

2、文本轉(zhuǎn)語音 (TTS)

我們使用 Python 的 Google 文本轉(zhuǎn)語音 (gTTS) 引擎，該引擎可將描述性文本轉(zhuǎn)換為清晰的音頻供用戶使用。gTTS 是一個易于使用的庫，可讓您創(chuàng)建無限量的語音，使其成為付費(fèi) TTS 服務(wù)的絕佳替代品。使用 gTTS，您可以將任何文本轉(zhuǎn)換為語音，包括較長的文本。雖然某些基于云的 TTS 服務(wù)可能有使用限制，但gTTS 目前不需要任何付費(fèi) API或額外功能來實(shí)現(xiàn)我們一直使用的目的，允許免費(fèi)和無限地生成語音。

frombutton_libraryimportButtonimportsubprocessimportosfromPILimportImagefromaudio_libraryimportAudioRecorderfromgttsimportgTTSfrompygameimportmixerfromdotenvimportload_dotenvimportglob

3、硬件

系統(tǒng)的核心部件包括：

- Raspberry Pi Zero 2W：系統(tǒng)核心的緊湊且價格實(shí)惠的微控制器。

- Adafruit Voice Bonnet：用于高品質(zhì)音頻輸入和輸出，確保用戶和設(shè)備之間的清晰通信。

- UPS Lite：提供可靠的電源，確保不間斷運(yùn)行。

- Raspberry Pi 攝像頭：捕獲圖像，并通過圖像描述引擎進(jìn)行實(shí)時分析。

由于樹莓派的配件豐富，要搭建這樣一個應(yīng)用的原型非常容易。

4、編程

Python 作為主要的編程語言來集成各種硬件組件和庫，確保攝像頭、視覺模型和文本轉(zhuǎn)語音系統(tǒng)之間的順暢交互。

我們遇到的挑戰(zhàn)

1、照明敏感度

- 照明條件差時的表現(xiàn)：正如預(yù)期的那樣，Gemini Vision 的準(zhǔn)確度在照明條件差的情況下會顯著降低。這會導(dǎo)致幻覺增多和物體識別不準(zhǔn)確。

- 照明條件充足的表現(xiàn)：模型在光線充足的圖像下表現(xiàn)最佳，表現(xiàn)出更高的精度和更少的幻覺。

更新：更換相機(jī)后，我注意到圖像質(zhì)量有了顯著改善，這大大提高了模型的性能。因此，我建議選擇原裝 Raspberry Pi 相機(jī)：Raspberry Pi 相機(jī)，它提供了更好的效果。

2、大模型幻覺

物體幻覺：

- Gemini Vision有時會識別出圖像中實(shí)際上不存在的物體。這通常涉及通常在場景環(huán)境中發(fā)現(xiàn)但在特定圖片中不存在的物體。例如，即使沒有視覺證據(jù)，它也可能推斷出架子后面有柜臺。

- 在一個例子中，模型錯誤地識別了廣告牌上的墨西哥公眾人物L(fēng)ily Téllez，盡管她沒有出現(xiàn)在圖片中。這表明模型可能傾向于將知名人物與某些地點(diǎn)、背景甚至顏色聯(lián)系起來。我仍然不完全理解它怎么會錯誤地識別圖片中的 Lily。雖然這張照片與政治有關(guān)（這是準(zhǔn)確的，盡管照片中的人不是政治人物），但唯一明顯的線索似乎是“VOTA”這個詞，意思是“投票”。

3、距離和細(xì)節(jié)

- 特寫圖像準(zhǔn)確度：Gemini Vision 在分析特寫圖像時表現(xiàn)出色。細(xì)節(jié)更清晰，幻覺更少，物體識別更準(zhǔn)確。

- 距離帶來的挑戰(zhàn)：相機(jī)與拍攝對象之間的距離越大，性能就越差。細(xì)節(jié)變得越不清晰，從而導(dǎo)致誤解和幻覺。

4、多任務(wù)管理

- 當(dāng)前面臨的一個重大挑戰(zhàn)是同時管理多項服務(wù)。這包括語音生成、AI API 調(diào)用、按鈕和麥克風(fēng)輸入，以及確保 AI 的快速響應(yīng)時間。

下一步是什么？

1、麥克風(fēng)支持

下一步是使提示動態(tài)化，以適應(yīng)用戶與設(shè)備交互的特定需求。通過將麥克風(fēng)集成到音頻引擎蓋中，可以實(shí)現(xiàn)這一點(diǎn)，允許根據(jù)用戶輸入實(shí)時自定義提示。

2、連接 API 以保存圖像、請求和 LLM 輸出

我計劃創(chuàng)建一個端點(diǎn)來保存圖像、用戶請求和 LLM 生成的輸出。這將使我能夠建立與設(shè)備交互的全面記錄，并有可能轉(zhuǎn)變?yōu)橛脩粼O(shè)備交互的有用百科全書。

3、RAG 集成（檢索增強(qiáng)生成）

我的目標(biāo)是集成一個模塊，允許設(shè)備從另一個 API 檢索數(shù)據(jù)，通過訪問外部知識源來增強(qiáng)其理解和與圖像交互的能力。這將有助于提供更多背景信息并提高圖像解釋的準(zhǔn)確性。

結(jié)論

老實(shí)說，在超市里閑逛，指著隨機(jī)的東西，看看 LLM 認(rèn)為它在看什么，這真是太有趣了——有時它很準(zhǔn)確，有時，嗯，不太準(zhǔn)確！但這都是樂趣的一部分。這個小裝置有太多的潛力，不僅僅是玩玩而已。想象一下，用它來從食物圖片中獲取營養(yǎng)信息，在繁忙的倉庫中識別標(biāo)簽，甚至跟蹤你的健康和康復(fù)進(jìn)度。這個東西可以做很多事情，我迫不及待地想看看它下一步會去哪里！

結(jié)語

如今大模型的都在你追我趕，當(dāng)GPT-4o的實(shí)時視頻解析刷新認(rèn)知，當(dāng)Llava-1.6在本地端跑出驚艷的視覺推理，這個開源項目正站在多模態(tài)大模型革命的十字路口。我們亟需一場開發(fā)者間的"技術(shù)眾籌"：

您是否部署過更"接地氣"的視覺大模型？哪些開源方案在抗干擾、防幻覺方面表現(xiàn)優(yōu)異？

在TTS領(lǐng)域，ElevenLabs的擬真聲線、Azure Neural的抑揚(yáng)頓挫，或是本地部署的Bark模型，誰能賦予設(shè)備更溫暖的"聲音靈魂"？

若將設(shè)備接入SAM圖像分割模型，能否實(shí)現(xiàn)"幫我找到左邊第三個紅色罐頭"的精準(zhǔn)定位？

這場始于程序員個人痛點(diǎn)的極客實(shí)驗，正在演變?yōu)闄z驗AI普惠性的社會課題。歡迎大家在評論區(qū)參與討論！

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴