在线播放亚洲第一字幕,国产精品视频免费看,国产尤物首页在线观看

用幾塊3000元顯卡作為加速主力的一體機(jī)，就能跑通671B的DeepSeek。

放在個(gè)把月前，你敢想象這樣的場(chǎng)景么？

正在埋頭苦干，希望有更多樣化產(chǎn)品交付的一體機(jī)廠商們，pick英特爾銳炫™ 顯卡 + 至強(qiáng)® W 處理器這套組合拳，首要原因就是它的成本確實(shí)誘人——基本算是砍掉了一個(gè)數(shù)量級(jí)（下線可以控制在10萬(wàn)元以內(nèi)）。

其次就是這套組合也很能打，上面那個(gè)場(chǎng)景就是它目前的“標(biāo)桿式”戰(zhàn)績(jī)。

這兩點(diǎn)加起來(lái)就是“真香”定律的復(fù)現(xiàn)。

但別光說(shuō)不練，這種極具性價(jià)比的一體機(jī)實(shí)測(cè)的體感到底如何呢？

帶著這個(gè)問(wèn)題，我們直接上手親自測(cè)試了一波。

例如我們先用QwQ-32B離線狀態(tài)下問(wèn)了個(gè)經(jīng)典題目：

>9.9和9.11哪個(gè)大？

從效果上來(lái)看，若是**單人**使用，一體機(jī)的速度已經(jīng)達(dá)到了**32 tokens/s**。

講真，這個(gè)速度在體感上已經(jīng)是非常OK了。

而且這還不是個(gè)偶然事件，在同樣的情況下，我們?cè)賳?wèn)一個(gè)問(wèn)題：

>一個(gè)外星人來(lái)到地球后等可能選擇以下四件事中的一件完成：

>1，自我毀滅；

>2，分裂成兩個(gè)外星人；

>3，分裂成三個(gè)外星人；

>4，什么都不做。

>此后每天，每個(gè)外星人均會(huì)做一次選擇，且彼此之間相互獨(dú)立。

>求地球上最終沒(méi)有外星人的概率。

同樣的，輸出速度依舊是非常的快。

而當(dāng)同時(shí)使用人數(shù)增加時(shí)，我們做了初步的計(jì)算，其每秒tokens的速度大概是這樣的：

那么如果是地獄難度的671B DeepSeek R1，結(jié)果又會(huì)如何呢？

畢竟即便是Q4量化版本，以往承載它的一體機(jī)成本動(dòng)輒就要達(dá)到200萬(wàn)元。

請(qǐng)聽(tīng)題：

>一個(gè)漢字具有左右結(jié)構(gòu)，左邊是木，右邊是乞。這個(gè)字是什么？只需回答這個(gè)字即可。

如此大體量的大模型，這種10萬(wàn)元級(jí)別的一體機(jī)依然可以達(dá)到10 tokens/s的速度。

雖然體感上會(huì)覺(jué)得稍慢一些，但夠用卻是真的。

而且有一說(shuō)一，輸出速度夠快、時(shí)延夠低、性價(jià)比夠高，還只是這種英特爾一體機(jī)的優(yōu)點(diǎn)的一隅。

在它的背后，還有易部署、易操作等特點(diǎn)。

那么為何基于英特爾的一體機(jī)可以做到如此物美價(jià)廉？

##價(jià)低質(zhì)優(yōu)的一體機(jī)，是如何煉就的？

正如我們剛才提到的，10萬(wàn)級(jí)別的一體機(jī)能有如此實(shí)用質(zhì)感，其關(guān)鍵就是英特爾的組合拳：

銳炫™ 顯卡 + 至強(qiáng)® W 處理器。

首先我們來(lái)看下這張英特爾銳炫™ 顯卡。

它是英特爾專門為AI和圖形處理打造的高性能顯卡，不僅游戲表現(xiàn)亮眼，在AI推理、視頻處理這些專業(yè)領(lǐng)域也很能打。

銳炫™ 顯卡采用了最新的Xe架構(gòu)，內(nèi)置XMX AI加速引擎，提供強(qiáng)大的AI加速能力，支持Ollama和vLLM serving等多種大模型主流框架，跑大模型推理可以說(shuō)是完全沒(méi)有壓力。

而且它還支持TensorFlow、PyTorch這些主流AI框架，搭配OpenVINO™ 工具套件還能進(jìn)一步優(yōu)化性能，讓AI任務(wù)跑得更快、更省資源。

銳炫™ 顯卡還有一個(gè)特點(diǎn)，就是特別適合邊緣計(jì)算——

銳炫™ 顯卡針對(duì)邊緣計(jì)算場(chǎng)景優(yōu)化，提供低功耗（110-150瓦）和小尺寸選項(xiàng)，支持PCIe Gen 4接口，并為邊緣應(yīng)用場(chǎng)景承諾五年產(chǎn)品供應(yīng)和軟件支持。

也正像剛才展示的那樣，比如DeepSeek、Qwen這些開(kāi)源模型，銳炫™顯卡能輕松搞定，尤其是支持多卡并聯(lián)，2卡、4卡甚至8卡都能配，性能直接起飛。

而且裝載它的一體機(jī)不僅僅能作為AI或大模型一體機(jī)來(lái)使用，有需求時(shí)還能用來(lái)執(zhí)行視頻分析、8K視頻編解碼、3D渲染這些高負(fù)載任務(wù)，一機(jī)多用，性價(jià)比超高。

除了顯卡之外，至強(qiáng)® W 處理器，這塊適用于工作站和一體機(jī)的“性能怪獸”CPU，也是一個(gè)關(guān)鍵點(diǎn)。

從算力層面來(lái)看，它最高60核的配置，搭配DDR5-4800內(nèi)存和TB級(jí)內(nèi)存擴(kuò)展，跑大模型、做數(shù)據(jù)處理都游刃有余。

它內(nèi)置的AMX（高級(jí)矩陣擴(kuò)展）技術(shù)，就算沒(méi)有獨(dú)立顯卡，也能加速中小規(guī)模參數(shù)的大語(yǔ)言模型推理，性價(jià)比也是直接拉滿。

至強(qiáng)® W 處理器能與銳炫™ 顯卡搭檔的原因還有它支持多顯卡配置，擁有多達(dá)112條PCIe Lane，PCIe 5.0通道管夠。

在此之上，英特爾還通過(guò)統(tǒng)一的計(jì)算架構(gòu)和優(yōu)化工具鏈，讓銳炫™ 顯卡和至強(qiáng)® W 處理器，發(fā)揮出1+1＞2的效果。例如：

· IPEX-LLM：專門為大模型優(yōu)化，支持DeepSeek、Qwen、Llama等主流開(kāi)源模型，讓CPU+GPU協(xié)同推理更高效。

· OpenVINO™ 工具套件：優(yōu)化AI推理，自動(dòng)分配任務(wù)給CPU或GPU，還能壓縮模型，減少內(nèi)存占用，提升速度。

· oneAPI：統(tǒng)一編程模型，開(kāi)發(fā)者只需寫一次代碼，就能同時(shí)在CPU和GPU上運(yùn)行，不用再為不同硬件適配發(fā)愁。

總而言之，英特爾可以說(shuō)是通過(guò)硬件協(xié)同+軟件優(yōu)化，讓CPU和GPU不再是孤立的計(jì)算單元，而是高效配合的“黃金搭檔”。

這也就不難理解為什么基于英特爾解決方案的一體機(jī)，能夠做到如此的價(jià)低+質(zhì)優(yōu)了。

##實(shí)戰(zhàn)：如何在英特爾架構(gòu)一體機(jī)上玩轉(zhuǎn)DeepSeek？

看過(guò)Demo演示和一體機(jī)介紹，你可能會(huì)好奇，假如現(xiàn)在就有機(jī)會(huì)拿到一臺(tái)這樣的一體機(jī)，該怎么用它把DeepSeek跑起來(lái)？

首先要配置系統(tǒng)環(huán)境，更新GPU驅(qū)動(dòng)版本必不可少。

主要框架是英特爾IPEX-LLM版本的llama.cpp，

以Linux系統(tǒng)為例，IPEX-LLM llama.cpp portable tgz包

在這個(gè)框架中，推薦使用GGUF格式的模型，這里使用unsloth開(kāi)源版本來(lái)說(shuō)明。

開(kāi)啟終端后，輸入以下命令進(jìn)入解壓縮后的文件夾：

cd /PATH/TO/EXTRACTED/FOLDER

要使用英特爾GPU加速，在運(yùn)行 llama.cpp 之前，需要設(shè)置如下環(huán)境變量：

export SYCL_CACHE_PERSISTENT=1

接下來(lái)，如果要運(yùn)行的是671B版本DeepSeek-R1，就要請(qǐng)出FlashMoE來(lái)幫忙了。

DeepSeek-R1基于MoE架構(gòu)，其實(shí)滿血版的激活參數(shù)僅約37億，但還是需要完整加載整個(gè)模型，這也是對(duì)于一體機(jī)來(lái)說(shuō)最大的難點(diǎn)。

FlashMoE是一款基于llama.cpp構(gòu)建的命令行工具，專為MoE模型進(jìn)行優(yōu)化，整合了至強(qiáng)® W處理器內(nèi)置的AMX/AVX-512技術(shù)和GPU加速庫(kù)，進(jìn)一步釋放CPU與GPU的異構(gòu)協(xié)作能力，能在較低的硬件成本下獲得更高的推理吞吐量與更優(yōu)的性能表現(xiàn)。

在llama.cpp + FlashMoE組合加持下，初步的性能驗(yàn)證表明，在單路至強(qiáng)® W處理器加2-4塊英特爾銳炫™ A770顯卡配置下，本文所述方案可以獲得接近10 Token/s 的性能表現(xiàn)，已能滿足企業(yè)級(jí)生成式AI，例如離線語(yǔ)音助手、文檔摘要等應(yīng)用場(chǎng)景的需求。

總的來(lái)說(shuō)，這套高度集成的軟硬一體模式，既滿足了長(zhǎng)上下文推理需求，又實(shí)現(xiàn)了能耗和成本的可控，為 AI 服務(wù)規(guī)?；涞靥峁┝丝煽壳乙子玫幕A(chǔ)設(shè)施。同時(shí)，它能更好地滿足近期用戶在 DeepSeek 或其他開(kāi)源大模型實(shí)踐中的迫切需求，部署方式更靈活、更貼近業(yè)務(wù)環(huán)境，響應(yīng)速度更快，還在數(shù)據(jù)安全和隱私保護(hù)方面具有先天優(yōu)勢(shì)。

以上是針對(duì)671B版DeepSeek的部署方法簡(jiǎn)要介紹，但實(shí)際上，蒸餾版憑借其精簡(jiǎn)而高效的特點(diǎn)，能夠更好地貼合各行業(yè)的實(shí)際業(yè)務(wù)場(chǎng)景和需求。

蒸餾版和滿血版的部的部署指南，都可在英特爾官網(wǎng)搜索“銳炫一體機(jī)”獲取。

它在應(yīng)對(duì)這些行業(yè)的常規(guī)任務(wù)時(shí)，不僅能夠提供足夠的處理能力和精準(zhǔn)度，還能以更加靈活和易于部署及適配的方式融入到行業(yè)的業(yè)務(wù)流程當(dāng)中。

##“低成本+高效率”的路子還在繼續(xù)

隨著DeepSeek的影響力不斷擴(kuò)大，大模型發(fā)展迎來(lái)了新的趨勢(shì)：走向推理普及化。

在以往，算力大多被集中投入到模型訓(xùn)練中，但在未來(lái)，算力資源的分配將發(fā)生顯著轉(zhuǎn)變，更多的算力會(huì)被應(yīng)用于推理環(huán)節(jié)而非訓(xùn)練。

（圖源：IDC&浪潮信息）

從應(yīng)用場(chǎng)景和市場(chǎng)選擇來(lái)看，除了超大規(guī)模的數(shù)據(jù)中心依舊在大模型運(yùn)算中扮演關(guān)鍵角色外，一體機(jī)憑借其獨(dú)特的優(yōu)勢(shì)，正成為越來(lái)越多企業(yè)的心儀之選。

而在這個(gè)趨勢(shì)之中，一體機(jī)的優(yōu)勢(shì)就在于“低成本+高效率”，具體而言：

首先，一體機(jī)啟動(dòng)成本低。與傳統(tǒng)分散式設(shè)備組合搭建系統(tǒng)相比，其在硬件采購(gòu)、軟件授權(quán)和初始配置等方面資金投入少，企業(yè)無(wú)需花大量前期資金構(gòu)建完整運(yùn)作體系，能以較低成本開(kāi)啟業(yè)務(wù)或辦公流程。

同時(shí)，一體機(jī)易于維護(hù)部署。其高度集成化設(shè)計(jì)優(yōu)化硬件兼容性，減少硬件不匹配故障。日常維護(hù)中，其整體性強(qiáng)，便于技術(shù)人員進(jìn)行故障排查和維修，提高維護(hù)效率、降低難度。

此外，一體機(jī)可常駐用戶辦公與業(yè)務(wù)環(huán)境邊緣加速操作，在靠近數(shù)據(jù)源頭和使用場(chǎng)景處運(yùn)行，減少數(shù)據(jù)傳輸距離和時(shí)間，降低延遲，提升業(yè)務(wù)處理速度和響應(yīng)效率。

當(dāng)然，一體機(jī)只是運(yùn)行模型的硬件基礎(chǔ)，從英特爾最近的動(dòng)作看來(lái)，對(duì)接和擴(kuò)展更多接地氣的AI應(yīng)用才是下一步重點(diǎn)：

聯(lián)合Hugging Face、Anyscale、Zilliz等AI行業(yè)合作伙伴推出的企業(yè)AI開(kāi)放平臺(tái) (OPEA) ，就是最好的證明。

如何理解OPEA？

首先，它提供了搭建大模型應(yīng)用所需的零件，如提示引擎、數(shù)據(jù)處理、記憶系統(tǒng)、安全護(hù)欄等一起打包提供，解決生成式AI技術(shù)的工具碎片化問(wèn)題。

然后，它還是一款評(píng)估和優(yōu)化應(yīng)用，能夠從性能、可信度、可擴(kuò)展性和彈性等方面對(duì)AI應(yīng)用進(jìn)行 “體檢”。以電商推薦商品的 AI 應(yīng)用為例，通過(guò) “體檢” 可對(duì)應(yīng)用進(jìn)行針對(duì)性的改進(jìn)，使其更實(shí)用。

所以眾多合作伙伴加入，共建這個(gè)項(xiàng)目也就不奇怪了。

隨著越來(lái)越多的合作伙伴加入，OPEA生態(tài)將不斷發(fā)展壯大并衍生出多樣化的發(fā)展路徑。

例如中國(guó)開(kāi)放智能計(jì)算產(chǎn)業(yè)聯(lián)盟（COIA）目前已匯聚近60家成員單位，專注于推動(dòng)企業(yè)AI生態(tài)協(xié)同發(fā)展。該聯(lián)盟即將推出“Powered By OPEA”認(rèn)證體系，旨在確保合作伙伴間OPEA生態(tài)的互聯(lián)互通。

作為業(yè)界首個(gè)企業(yè)級(jí)AI應(yīng)用認(rèn)證標(biāo)準(zhǔn)，該體系將成為OPEA生態(tài)的核心保障機(jī)制，為通過(guò)認(rèn)證的產(chǎn)品授予跨平臺(tái)互操作性標(biāo)識(shí)。

“Powered By OPEA”認(rèn)證將促進(jìn)AI產(chǎn)業(yè)生態(tài)的完善，加速企業(yè)AI標(biāo)準(zhǔn)化進(jìn)程，并最終發(fā)展成為企業(yè)選擇生成式AI組件的重要信任基準(zhǔn)。

“AI無(wú)處不在”的故事在持續(xù)上演。

(來(lái)源：量子位作者：金磊夢(mèng)晨)

申請(qǐng)創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

當(dāng)前位置：首頁(yè) > 科技 > IT業(yè)界 > 正文

榨干3000元顯卡,跑通千億級(jí)大模型的秘方來(lái)了

相關(guān)文章

熱門排行

信息推薦

編輯推薦

阿里一元店是新解“囊”雜貨鋪？

億企聯(lián)解答互聯(lián)網(wǎng)廣告的存在意義何在？

熱門標(biāo)簽