游客發(fā)表
毫無疑問如今是AI的年代,各大廠商都希望自家的產(chǎn)品能夠搭乘上AI的順風(fēng)車,從而獲得行業(yè)以及用戶的青睞,更重要的是借助AI這股風(fēng),自家的產(chǎn)品也能獲得更高的溢價,從而帶動營收的增加。就在去年下半年,英特爾推出了Meteor Lake處理器,同時與合作伙伴一起推出了AI PC的概念,希望讓Meteor Lake處理器能夠扛起AI PC的大旗,不過現(xiàn)在看起來Meteor Lake處理器的AI性能還是有所欠缺,并不能滿足微軟Copilot +PC的算力需求。
到了2024年,英特爾再一次將移動處理器進(jìn)行徹底的改造,推出了Lunar Lake處理器,讓E核有著脫胎換骨般的改變,而且也砍掉了陪伴多年的超線程技術(shù),更為重要的是這一次英特爾NPU的AI性能提升極其明顯,面對微軟Copilot +PC也絲毫不怵。現(xiàn)在我們就為大家?guī)鞮unar Lake處理器的架構(gòu)講解。
CPU:E核脫胎換骨,告別超線程
作為Lunar Lake架構(gòu)的核心,處理器的CPU部分可以說有著天翻地覆的變化,首先就是取消了超線程技術(shù),讓CPU最高變成了8核8線程,其中四顆為P核,另外四顆為E核,伴隨著超線程的消失,僅在Meteor Lake上使用的LPE核也隨之不見。英特爾官方則稱盡管去掉了超線程技術(shù),但是CPU的性能卻沒有因此而降低,反而更加出色,其中的最重要的原因就是脫胎換骨的E核。
英特爾在12代酷睿處理器上采用了P核以及E核的混合架構(gòu)設(shè)計,其中P核負(fù)責(zé)高性能計算,E核則負(fù)責(zé)高效率的運(yùn)算。P核與E核也是井水不犯河水,而到了Lunar Lake處理器上,E核的性能得到巨大的提升,例如L2緩存的容量達(dá)到了4MB,AI以及矢量計算性能達(dá)到了上代的2倍。
與上代相比,Skymont的IPC整數(shù)性能提升了38%,而浮點(diǎn)性能則提升了68%能耗方面,和 Meteor Lake的LP E核相比,在保持繼續(xù)相同性能的前提下功耗僅為后者的三分之一。事實(shí)上英特爾將Skymont按照Raptor Lake處理器的P核性能去設(shè)計,最終目標(biāo)也達(dá)到了英特爾的預(yù)期。無論是整數(shù)性能還是浮點(diǎn)性能,Skymont都比上代的P核提升2%左右的性能。
可以說作為E核的Skymont已經(jīng)和上代P核的性能不相上下,因此英特爾也就沒有必要讓重型繁瑣的任務(wù)已經(jīng)交給P核去運(yùn)行,英特爾還表示,如果E核能夠勝任任務(wù)的處理器,那么僅需開啟E核就已經(jīng)足夠,這樣關(guān)閉P核還可以省點(diǎn)電,提升筆記本的續(xù)航,畢竟Lunar Lake處理器的用戶主要就是超極本。
看完了E核接下來就是P核了,與E核天翻地覆的進(jìn)步相比,P核最大的改變就是取消了多線程技術(shù),這樣技術(shù)已經(jīng)跟了英特爾20多年的時間,而隨著E核性能的提升,實(shí)際上不開啟多線程都可以滿足日常辦公以及視頻剪輯等應(yīng)用的算力需求。
英特爾也舉例了在開啟與關(guān)閉雙線程之后處理器的功耗、性能,能效比究竟有多少變化。與上代P核相比,這代P核的能效比提升了15%,單位面積性能達(dá)到了10%,英特爾稱最后能夠讓單位面積的能效比提升30%,而IPC則提升了14%,這個程度還是相當(dāng)恐怖的。
假如打開了超線程,英特爾表示與超線程相比,能效比提升5%,單位面積的性能降低了15%,而單位面積的能效比性能則最終提升了15%,此外英特爾還表示這是在理想條件下進(jìn)行測試,實(shí)際測試的時候還要考慮軟件等的優(yōu)化,因此直接將性能加在E核要遠(yuǎn)比開啟超線程代的能效比提升來的大。
英特爾也利用AI來精準(zhǔn)地控制CPU的頻率,最小步進(jìn)為16.67MHz,根據(jù)實(shí)際的平臺溫度、環(huán)境,設(shè)置適當(dāng)?shù)臅r間閾值,進(jìn)而確保CPU頻率處于最高效的水平,也讓CPU的溫度曲線時刻處于理想水平,降低了輕薄版的散熱壓力。
具體到實(shí)際性能上,與上代的P核相比,Lion Cove的IPC提升了18%,而能效比則提升了14%。此外內(nèi)存對于AI、圖形都是至關(guān)重要的,所以英特爾這一次把內(nèi)存集成到了SoC上,通過縮短內(nèi)存的走線將內(nèi)存的物理功耗降低高達(dá)40%。還可以節(jié)省主板面積,最多可以節(jié)省250平方毫米,使得主板的價格可以往下降。
實(shí)際上這還不是全部,英特爾還表示隨著Lunar Lake的推出,未來英特爾在設(shè)計CPU的時候?qū)捎萌碌牧鞒獭⒐ぞ吆头椒?。過去英特爾將CPU分為幾百上千個模塊,每個模塊里面有幾萬個單元,十分地零散,而到了Lunar Lake時代,英特爾則采用了模塊化的設(shè)計每個大模塊里面包含數(shù)十萬甚至是上百萬的單元.
這種設(shè)計可以讓處理器的邊界大幅減少,從而讓芯片的利用率大幅提升,迭代升級也更加方便。英特爾面向高性能計算打造的Arrow Lake與高能效打造的Lunar Lake都采用的全新芯片設(shè)計工具,英特爾設(shè)計部分也可以很快地進(jìn)行轉(zhuǎn)換。此外全新的CPU設(shè)計思路也對制程的變動不那么敏感,這也對英特爾處理器采用不同制程架構(gòu)打下了基礎(chǔ)。
GPU:采用新架構(gòu),AI生圖更快
CPU主要還是負(fù)責(zé)通用計算,而想要讓AI發(fā)揮更大的作用,GPU的AI性能顯然必不可少。而在Lunar Lake架構(gòu)上,英特爾也首次采用了Xe2 GPU架構(gòu),比桌面顯卡更早。在Lunar Lake處理器中,每個Xe Core都有八個矢量引擎,每個引擎都有2048比特的寬度,而每顆核心又有192KB的L1緩存,還支持SIMD16指令,從而在游戲以及AI上表現(xiàn)得更加出色。目前隨著AI應(yīng)用的普及和流行,GPU的矩陣計算將會變得十分地重要,而XMX就是提升矩陣計算效率的有效之舉。XMX的引入大大加強(qiáng)了矩陣運(yùn)算的性能。
除此之外Xe2內(nèi)部也加入了Excute Indirect的支持,傳統(tǒng)的圖形渲染中,GPU需要得到CPU的指令才可以執(zhí)行3D任務(wù)的渲染,而有了Excute Indirect,無需CPU,GPU自己就可以完成繪圖等指令,并且GPU還是并行計算,大大提升了計算的效率,而且也可以降低CPU的使用率,從而降低功耗。上述這些技術(shù)讓Xe2的頂點(diǎn)以及渲染性能提升了3倍。同時得益于優(yōu)化后的光追處理單元,Xe2的光追性能也有2倍的提升。
與Meteor Lake所采用的Xe架構(gòu)相比,Xe2架構(gòu)的能效比提升了50%,這樣可以讓廠商有了更多的選擇,例如只要15W的功耗就可以實(shí)現(xiàn)與25W Xe架構(gòu)GPU一樣的圖形性能,這對于輕薄筆記本來說十分地實(shí)用。在AI性能上,得益于XMX的加持,這顆GPU可以實(shí)現(xiàn)67TOPS的INT8算力,再加上NPU和少部分CPU AI算力,從而讓Lunar Lake處理器的AI算力突破了100TOPS。使用Stable Diffusion進(jìn)行演示,Lunar Lake 的圖用了6.3s,而Meteor Lake花了13秒以上,作圖時間快了1倍。
此外Lunar Lake也支持DP1.5,VCC也就是H.266視頻解碼,VCC擁有比AV1更加高效的編碼效率,同等畫質(zhì)下體積大約減少了10%,可以讓用戶使用更小的帶寬觀看超高清的視頻。不過這一次Lunar Lake技術(shù)講解會并沒有透露實(shí)際的游戲性能提升,大家需要等到Intel未來的發(fā)布會上才能知曉。
NPU:不再雞肋,滿足微軟需求
這幾年AI PC越來越熱門,包括ChatGPT的文生文、Stable Diffusion的文生圖以及Sora的文生視頻對于AI算力要求越來越高,而過去這些任務(wù)主要是由CPU以及GPU負(fù)責(zé),而隨著NPU的加入,這幾年越來越多的AI計算開始由CPU轉(zhuǎn)移到NPU之中,英特爾預(yù)計明年有30%的AI任務(wù)由NPU來承擔(dān),因此NPU的算力變得愈發(fā)重要。
Lunar Lake一共提供了120TOPS左右的AI算力,GPU貢獻(xiàn)了67TOPS,而貢獻(xiàn)第二多的便是NPU,上一代Meteor Lake處理器的NPU算力大約為10TOPS上下,顯然還不能幫CPU承擔(dān)一些復(fù)雜的任務(wù),而到了Lunar Lake架構(gòu)中,英特爾NPU已經(jīng)進(jìn)化到第四代,能夠帶來48TOPS的AI算力,并且效率大幅提升,可以說NPU兼顧了效率和算力,未來將會承擔(dān)更多的AI應(yīng)用負(fù)載。
大家平時都在說TOPS,那么什么是TOPS,AI最重要的計算就是矩陣計算,而OP就是每秒能夠完成多少次計算TOPS就是每秒完成多少萬億次矩陣計算。Lunar Lake所采用的第四代NPU擁有6個神經(jīng)運(yùn)算引擎,每個引擎有4096個運(yùn)算單元,而上一代則是2個神經(jīng)運(yùn)算引擎,紙面算力就有3倍的提升,實(shí)際上第四代NPU的運(yùn)算效率更高,例如英特爾增加了NPU與CPU之間的帶寬數(shù)據(jù)傳輸速度,而且也增加了NPU的算法,包括INT8以及FP16都可以在NPU上進(jìn)行計算,因此算力最終達(dá)到了前代的4倍。而在Stable Diffusion中,NPU 3的繪圖速度為20.9秒,而NPU 4則是5.8秒,速度提升了3倍左右。
從Lunar Lake架構(gòu)開始,你可以選擇讓NPU來負(fù)責(zé)第一步的文本轉(zhuǎn)換,隨后NPU繼續(xù)負(fù)責(zé)文字解碼以及全卷積神經(jīng)網(wǎng)絡(luò)擴(kuò)展,只有最后一步圖形輸出才是GPU來負(fù)責(zé)。這樣可以讓NPU肩負(fù)起AI計算與推理中的重?fù)?dān)。
ITD:讓AI來協(xié)助資源分配
英特爾硬件線程調(diào)度器是英特爾在12代酷睿處理器中引入了全新單元,它可以實(shí)時監(jiān)控和分析工作負(fù)載,能夠把正確的進(jìn)程放到正確的核心上運(yùn)行,保證最佳的能效。過去硬件線程調(diào)度器在處理任務(wù)中,優(yōu)先將任務(wù)放到P核,如果P核算力完全能夠應(yīng)付甚至還有多余的算力,那么將會把進(jìn)程扔到E核中。
至于Meteor Lake,則首先考慮LPE核,LPE核性能不夠才逐級提升,而到了Lunar Lake架構(gòu)中,它只有兩層,先放E核,如果說超出需求就往P核上移。Lunar Lake的E核已經(jīng)是相當(dāng)于Meteor Lake的大核,所以英特爾希望Lunar Lake的E核,可以覆蓋日常常見的工作負(fù)載,只有在重載的情況下才需要往P核上移。這樣子可以確保CPU的功耗降到極低的水平。
目前NPU的AI算力越來越大,因此英特爾也將AI引入到線程調(diào)度中來,利用于AI機(jī)器學(xué)習(xí)的預(yù)測來分配任務(wù),而SoC的電源管理引擎會基于AI的機(jī)器學(xué)習(xí)來判斷工作負(fù)載到底是屬于哪一種,從而讓進(jìn)程能夠更加高效地調(diào)度。英特爾還表示Lunar Lake與微軟Win11作了進(jìn)一步的融合,還可以讓OEM去選擇不同的模式,更加地靈活
外部連接:囊括Wi-Fi 7、Bluetooth 5.4與Thunderbolt 4
對于AI PC來說,強(qiáng)大的算力需要強(qiáng)有力的外部連接才能發(fā)揮最大的作用,而Lunar Lake則是英特爾首個集成Wi-Fi 7、Bluetooth 5.4以及Thunderbolt 4的處理器架構(gòu),同時借助AI的一些新技術(shù)來讓連接更加高質(zhì)量。
Lunar Lake處理器支持最多3個Thunderbolt端口,還將支持Thunderbolt share,將兩個PC連接,實(shí)現(xiàn)60幀的屏幕分享,以及超高的數(shù)據(jù)傳輸,從而提高工作效率。而Lunar Lake處理器集成了最新的BE201,面積減少了28%,同時可以更快地與SOC相互連接。英特爾希望未來通過AI和Connectivity的結(jié)合,讓PC更具感知化、智能化。
XPU戰(zhàn)略深入其中
去年Meteor Lake可以說是英特爾過去10年來最大的架構(gòu)改革,英特爾也借助Meteor Lake處理器敲開了AI PC的大門,然而英特爾沒想到AI的發(fā)展超乎了所有人的想象,促使英特爾對旗下的處理器進(jìn)行更加激進(jìn)的設(shè)計,從而帶來了Lunar Lake架構(gòu)。
在Lunar Lake上,我們看到了英特爾對于AI運(yùn)算有著自己的理解,借助更加強(qiáng)大的NPU,取代CPU在AI任務(wù)中的角色,另外大幅提升E核的性能,取消經(jīng)典的超線程設(shè)計,從而讓CPU的功耗更低,讓處理器滿足未來的計算需求。而強(qiáng)勁的核顯則加速了AI任務(wù)的處理速度,即使沒有獨(dú)立顯卡也能獲得相當(dāng)不錯的作圖性能。
最為重要的是,英特爾引入了新的芯片設(shè)計方式,這種方式證明了同一個架構(gòu),只要利用現(xiàn)代的設(shè)計方式,就可以利用不同的制程去做同一個微架構(gòu)的產(chǎn)品。這給了英特爾更多的制程選擇余地。
隨機(jī)閱讀
熱門排行
友情鏈接