AMD PUMA+低功耗APU技術(shù)與性能分析
不要以為AMD與英特爾的戰(zhàn)場只有酷睿與Kaveri,AMD與英特爾早已展開一場全面的戰(zhàn)爭。從英特爾推出Atom,進(jìn)入超低功耗處理器市場開始,AMD就針鋒相對地推出了相應(yīng)的產(chǎn)品和英特爾競爭。之前AMD已推出過代號分別為Brazos、Kabini和Temash的多代超低功耗產(chǎn)品,不過市場反響不算出色。而在今年四月底,AMD則發(fā)布了它們?nèi)乱淮?、代號為Beema和Mullins的超低功耗APU。這一次,AMD又有怎樣的改變?Beema和Mullins又有哪些絕活呢? 事實(shí)上,AMD在超低功耗CPU市場早已耕耘多年,去年還發(fā)布了每瓦特性能非常出色的Kabini和Temash APU,但市場反應(yīng)并不理想。在這些產(chǎn)品中,盡管低功耗APU的TDP最低能夠下探至15W,而其中超低功耗的1GHz雙核心產(chǎn)品功耗更是降低至3.9W,但相比英特爾已經(jīng)將超極本的Haswell處理器TDP功耗降低到15W以內(nèi),同時(shí)能提供更強(qiáng)悍的CPU性能而言,AMD的這些產(chǎn)品除了價(jià)格以外就沒有太多亮點(diǎn)。尤其是英特爾發(fā)布了Bay Trail架構(gòu)的產(chǎn)品后,英特爾展示了自己是如何使得類似的產(chǎn)品運(yùn)行在更高的性能上,同時(shí)TDP又保持在8W以內(nèi)的。這樣一來,AMD必須更新自己的產(chǎn)品線,才能盡可能多地保持自己的競爭力。 終于在2014年,AMD發(fā)布了代號為Beema和Mullins的超低功耗APU。雖然有兩個代號,但這兩款產(chǎn)品實(shí)際上采用了完全相同的Puma+(美洲獅)架構(gòu)。其中Beema面向的是入門級或者超便攜的筆記本電腦,而Mullins則更偏向于平板電腦。這兩款產(chǎn)品都是為Windows市場而設(shè)計(jì)的。 從架構(gòu)角度來說,AMD在Beema和Mullins上也并沒有徹底更新架構(gòu)設(shè)計(jì)。Beema和Mullins的最根本改變在于將制程從TSMC 28nm轉(zhuǎn)移到了GlobalFoundries的 28nm,同時(shí)在架構(gòu)和設(shè)計(jì)上進(jìn)行了一些調(diào)整。作為從AMD拆分出去的晶圓工廠,GlobalFoundries一直以來都在新工藝研發(fā)上困難重重,這次的超低功耗處理器能夠順利在GlobalFoundries工廠投產(chǎn),證明GlobalFoundries已經(jīng)從之前的技術(shù)泥潭中抽身而出。所以在了解AMD的新品之前,讓我們先來看看有關(guān)GlobalFoundries 28nm工藝的情況。 最后的Gate First?GlobalFoundries 28nm工藝解析 說起GlobalFoundries在工藝上的跌跌撞撞,不得不提及Gate First和Gate Last。Gate First和Gate Last實(shí)際上是在進(jìn)入45nm以后,以IBM為核心的陣營和以英特爾為核心的陣營在未來工藝發(fā)展上的一次分歧。最終以英特爾大勝、IBM失敗告終。 Gate First和Gate Last都是半導(dǎo)體制造的其中一步,其中Gate First是指先為晶圓生成金屬柵極,再進(jìn)行漏區(qū)、源區(qū)的離子注入,最后進(jìn)行退火操作;Gate Last則完全相反,其生產(chǎn)流程是先注入離子,再退火,最后才生成金屬柵極結(jié)構(gòu)。這兩種方法在當(dāng)時(shí)看起來各有優(yōu)劣,Gate First工藝簡單,但是隨后的高溫退火可能影響柵極尤其是PMOS的性能,并且對柵極金屬性能要求較高。而Gate Last雖然對柵極金屬性能要求不那么高,但是工藝更為復(fù)雜。 目前GlobalFoundries主力推薦的28nm生產(chǎn)工藝有HPP和SLP兩種 IBM在Gate First上已經(jīng)研究了10年之久,并且IBM認(rèn)為Gate First是進(jìn)入45nm時(shí)代后最應(yīng)該選擇的工藝,還成功拉攏了三星、TSMC、AMD作為自己的盟友,而英特爾一方堅(jiān)持Gate Last才符合未來發(fā)展的需求。不過隨著研究進(jìn)展的深入,IBM和盟友們發(fā)現(xiàn),Gate First最多只能堅(jiān)持到28nm,就會由于材料和高溫的問題而無法使用,反倒英特爾是正確的,Gate Last雖然短期內(nèi)看起來麻煩一些,但是一直在28nm以后的工藝都可以繼續(xù)使用。 當(dāng)發(fā)現(xiàn)問題后,三星雖然嘴上說會提供Gate First的產(chǎn)品,但是卻發(fā)布了新的論文,將支持Gate Last的研究。TSMC也宣布在28nm以后全面轉(zhuǎn)向新工藝,不再考慮Gate First。不過AMD就有點(diǎn)麻煩了,受制于財(cái)務(wù)問題再加上企業(yè)并購拆分,AMD的晶圓廠在工藝上的進(jìn)展一直很不順利,隨后拆分出去的GlobalFoundries在32nm工藝和28nm工藝上都摔了跟頭,直到2013年才徹底搞定了28nm Gate First High-k Metal Gate的全部技術(shù)問題,得到了和預(yù)想中一樣的產(chǎn)品。但是這個時(shí)候,英特爾的FinFET 22nm已經(jīng)投產(chǎn)多時(shí),14nm也已經(jīng)箭在弦上了。 采用Beema架構(gòu)的產(chǎn)品比上一代Kabini APU的能耗比綜合提升了約20% 目前GlobalFoundries提供三種28nm工藝供用戶選擇,其中有專門為超低功耗設(shè)備設(shè)計(jì)的28nm SLP(Super Low Power)、為高性能設(shè)備設(shè)計(jì)的28nm HPP(High Performance-Plus)以及兼顧高性能和低功耗的28nm LPH(Low Power, High Performance)。其中28nm SLP最為便宜,28nm HPP價(jià)格最為昂貴,中間的則是28nm LPH工藝。不過在比較新的宣傳內(nèi)容中,已經(jīng)看不到28nm LPH工藝的內(nèi)容了,可能是GlobalFoundries考慮到市場和生產(chǎn)的問題,取消了LPH工藝。 AMD在功耗控制技術(shù)上獲得了巨大的發(fā)展,處理器待機(jī)功耗逐年得到降低 根據(jù)GlobalFoundries的官方資料,28nm HPP工藝和SLP工藝對比40/45nm時(shí)代的類似工藝,有顯著的優(yōu)勢。比如28nm的HPP工藝比40G工藝性能提高20%,同時(shí)功耗降低大約40%;28nm SLP工藝相比低功耗的40LP工藝速度提升高達(dá)30%,功耗也最多降低了40%。無論是哪種28nm工藝,芯片面積都只有40/45nm工藝的一半左右,大大節(jié)省了成本。 目前沒有資料表示AMD的新APU使用了哪種工藝,不過據(jù)推測使用28nm HPP的可能性更高一些,這個工藝本身就是面向高性能設(shè)備使用的,核心電壓又比較低,能夠達(dá)到更高的性能功耗比。至于28nm SLP,面向的是超低功耗領(lǐng)域,比如手機(jī)、藍(lán)牙模塊等,本身頻率最高只能達(dá)到1.8GHz。當(dāng)然不排除AMD分別使用這兩種工藝的可能。總的來說,目前在AMD的Beema和Mullins上所使用的28nm工藝,很可能是最后一代使用Gate First的產(chǎn)品了,未來GlobalFoundries也將轉(zhuǎn)向Gate Last工藝,并加入FinFET大軍中去。 更低的功耗指標(biāo) 前面我們已經(jīng)說過,Beema和Mullins實(shí)際上并沒有包含太多的架構(gòu)方面的調(diào)整,AMD在轉(zhuǎn)換工藝的同時(shí),加入了大量頻率控制和功耗控制技術(shù),顯著提高了產(chǎn)品的性能功耗比并降低了TDP指標(biāo)。根據(jù)AMD給出的功能模塊圖,一個典型的Beema或Mullins芯片擁有四個Puma+ CPU核心,含有128個流處理單元的GCN架構(gòu)GPU核心,以及顯示模塊、PCI-E總線模塊、UVD影像模塊、DDR3L內(nèi)存控制器、北橋、2MB共享L2緩存、VCE視頻編碼模塊、FCH(Fusion controller hub)南橋功能模塊以及平臺安全處理器PSP模塊,這所有的模塊組合在一起組成了復(fù)雜的Beema或Mullins APU芯片。 測試表明AMD的Mullins APU在電子閱讀應(yīng)用下,功耗相對上一代產(chǎn)品有明顯降低,不過依舊趕不上ARM架構(gòu)的移動SOC。 從CPU架構(gòu)來說,Beema或Mullins所使用的Puma+架構(gòu)和之前的Jaguar是一樣的,它依舊是一個雙發(fā)射的亂序執(zhí)行架構(gòu),內(nèi)存位寬也維持為64bit。不過AMD宣稱Beema和Mullins受益于新工藝,在1.2V電壓下核心漏電比前代產(chǎn)品降低了19%,GPU部分的漏電電流量低了38%,這也是Beema和Mullins擁有更低的電壓和更高能耗比的主要原因。 不僅如此,AMD還調(diào)整了Beema和Mullins的內(nèi)存接口。這一代產(chǎn)品使用的是DDR3L這種低電壓的產(chǎn)品,而上一代產(chǎn)品則使用的是DDR3。相比DDR3L來說,DDR3由于要兼容各種類型不同的內(nèi)存模塊,因此設(shè)計(jì)更為復(fù)雜。AMD從移動SOC那里得到了設(shè)計(jì)靈感,使用了較為專用的DDR3L內(nèi)存界面,這樣的改進(jìn)使得運(yùn)行在低功耗狀態(tài)時(shí),內(nèi)存的功耗降低了500mW。不過,雖然目前的Beema APU已經(jīng)基本完成了SOC化,但是考慮到其定位并非手機(jī)這樣空間狹小的地方,因此AMD并沒有考慮將內(nèi)存芯片和APU芯片采用堆疊封裝以減少面積,依舊使用了傳統(tǒng)的分離式架構(gòu)。 從測試數(shù)據(jù)來看,在電子書閱讀、網(wǎng)頁瀏覽、高清播放以及MobileMark 2012的測試中,Beema都展示出了相對于Kabini更為出色的功耗表現(xiàn),平均降低了約20%。此外,從AMD歷年來的產(chǎn)品來看,2008年AMD推出的代號為“Tigris”的Turion處理器的待機(jī)功耗高達(dá)3.5W~4W,隨后代號為“Danube”的處理器將待機(jī)功耗降低到了3W左右。最近一次最顯著的變化是第一代代號為“Llano”的APU中,待機(jī)功耗大幅度降低到了2W左右,最新的代號為“Kaveri”的APU的待機(jī)功耗已經(jīng)來到了1.5W附近。在超低功耗處理器方面,第一代超低功耗處理器代號為“Brazos”的產(chǎn)品待機(jī)功耗甚至高達(dá)2W以上,而最新的Beema和Mullins待機(jī)功耗降低到了0.5W左右,著實(shí)令人驚訝。 為了達(dá)到這樣的成果,AMD使用大約30項(xiàng)技術(shù):包括各種功耗門控技術(shù)、各種頻率控制技術(shù)、電壓控制技術(shù)、顯示控制技術(shù)等,甚至一些接口諸如PCI-E、DisplayPort的接口功耗控制都被納入其中。AMD總結(jié)自己使用了四個方面的技術(shù),包括智能動態(tài)功耗管理、進(jìn)一步整合系統(tǒng)元器件、電路功耗優(yōu)化、生產(chǎn)工藝升級改進(jìn)。這四個方面的技術(shù)配合一些特色設(shè)計(jì)一起努力,最終實(shí)現(xiàn)了AMD目前在移動處理器上的低功耗表現(xiàn)。同時(shí)AMD還給出了有關(guān)電子書閱讀模式下的功耗情況,AMD新的Mullins APU在電子書閱讀狀態(tài)下相比上一代產(chǎn)品功耗降低了大約20%~25%,不過依舊無法和目前比較主流的ARM架構(gòu)移動SOC芯片相提并論。不過AMD目前也不打算染指安卓設(shè)備,這一點(diǎn)也是完全可以容忍的。 更高的頻率提升空間 一般來說,同時(shí)降低功耗并提升頻率是幾乎不能完成的事情。不過在Beema和Mullins上,AMD在降低了功耗的同時(shí)還提升了頻率。出現(xiàn)這樣的情況,主要原因是AMD使用了更為出色的頻率控制技術(shù),并且調(diào)整了溫度控制的闕值。首先請讓我們來看看表2的數(shù)據(jù),表中展示的是AMD新的Mullins對比上一代產(chǎn)品Temash在最高頻率和TDP功耗方面的對比情況??梢钥吹?,A10 Micro-6700T的TDP功耗為4.5W,最高頻率為2.2GHz;相對應(yīng)的上一代Temash架構(gòu)的A6-1450 TDP功耗為8W,最高頻率僅為1.4GHz。此外,其他兩款Mullins APU產(chǎn)品也分別提升了60%和40%的最高頻率。而在表3中,我們則對比了Beema與Kabini CPU核心的不同,其中除了E2-6110對比E2-3000這一組產(chǎn)品略有降低外,其余產(chǎn)品的CPU核心都獲得了明顯的頻率增加,并降低了TDP。 除了CPU部分的頻率可以提升外,Beema與Mullins的GPU部分頻率也獲得了明顯提升。如表4與表5所示。那么,AMD是怎么做到在生產(chǎn)工藝沒有革命性改變的時(shí)候,降低功耗并提高頻率的呢?原來AMD設(shè)計(jì)了一個名為STAPM的技術(shù),Skin Temperature Aware Power Management即表面溫度感應(yīng)功耗管理。簡單來說,這個技術(shù)的本質(zhì)實(shí)際上還是通過提高芯片允許溫度上限來實(shí)現(xiàn)更高的頻率―這和英特爾在Bay Trail上做的事情差不多。 同時(shí),平板電腦本身是擁有一定散熱能力的,為了衡量并更好地使用這個能力,AMD還設(shè)計(jì)了一個稱之為TSP功耗的值。這個值是通過在安裝了四核心Mullins APU的11.6英寸平板電腦上運(yùn)行3DMARK 06時(shí),設(shè)備表面溫度升高至用戶可以接受的極限狀態(tài)來確定的。對一個4.5W TDP的Mullins處理器來說,TSP瓦數(shù)為3.5W。換句話來說,TSP就是設(shè)備能夠容忍的熱量極限,在實(shí)際運(yùn)行中,雖然芯片在不停地散發(fā)熱量,但是設(shè)備擁有一定的熱存儲和熱遲滯的能力,使得即使芯片溫度達(dá)到比較高的程度,但設(shè)備依舊處于安全、舒適的溫度范圍內(nèi)。 而上一代AMD低功耗產(chǎn)品僅僅控制芯片溫度,只要芯片溫度超過60℃,那么立刻會進(jìn)入降頻狀態(tài),無論CPU還是GPU都是這樣。但是設(shè)備溫度的上升速度總是遠(yuǎn)遠(yuǎn)落后于芯片溫度,并且設(shè)備溫度的上升過程是緩慢的,甚至在芯片滿載狀態(tài)下數(shù)分鐘之內(nèi)都不會導(dǎo)致設(shè)備過熱。所以,AMD新的STAPM設(shè)計(jì)更為優(yōu)秀:只要設(shè)備的溫度控制在一定的范圍內(nèi)(用戶不會感覺到設(shè)備溫度太高),同時(shí)提高芯片溫度上限,那么芯片就可以更長時(shí)間運(yùn)行在更高的頻率上。 新的Beema和Mullins針對每一個設(shè)備增加了額外的溫度測試接口,專門用于測試設(shè)備表面溫度,只要這個溫度依舊安全,那么處理器就會穩(wěn)定運(yùn)行在高頻率上―當(dāng)然,AMD還設(shè)置了一個闕值,芯片溫度不能超過100℃。當(dāng)設(shè)備的外部溫度達(dá)到了設(shè)定上限或者芯片達(dá)到了100℃時(shí),處理器都會立刻降低頻率以保證安全。AMD宣稱這樣的設(shè)計(jì)不需要改變處理器本身結(jié)構(gòu),也不會帶來額外的負(fù)擔(dān)。據(jù)信AMD會聯(lián)合設(shè)備OEM廠商對每款不同的設(shè)備外部設(shè)置相應(yīng)的溫度探頭,以保證在長期運(yùn)行時(shí)設(shè)備的安全與穩(wěn)定性。 此外,AMD還特別說明了新的動態(tài)頻率調(diào)整是完全智能的,頻率調(diào)節(jié)會根據(jù)軟件的情況來進(jìn)行合理的加速。 AMD的STAPM技術(shù)很好地解決了產(chǎn)品的溫度和頻率控制問題 加入ARM安全模塊 AMD的加速技術(shù)會針對不同的應(yīng)用采用不同的方案,智能決定是否加速 AMD在產(chǎn)品中加入了ARM架構(gòu)的核心,作為專門的安全處理器,保障整個設(shè)備平臺的安全 早在2012年,AMD就宣布自己購買了ARM的相關(guān)授權(quán),準(zhǔn)備開發(fā)基于ARM的產(chǎn)品。當(dāng)時(shí)AMD宣稱和ARM合作會主要集中在AMD的Opteron處理器上,這類服務(wù)器處理器將使用ARM的Cortex-A5架構(gòu)用于執(zhí)行相關(guān)的安全操作。實(shí)際上AMD需要類似的硬件安全平臺才能更好地保持自己的競爭力,相比之下,英特爾有命名為TXT的安全模塊,并且沒有授權(quán)給AMD,所以AMD才開發(fā)出來了TrustZone。 事實(shí)上在上一代的產(chǎn)品中,AMD已經(jīng)為Kabini和Temash APU集成了Cortex-A5核心,不過當(dāng)時(shí)由于種種原因他們并沒有啟用。在全新的Beema和Mullins上,AMD終于啟用了安全模塊并命名為平臺安全處理器,也就是Platform Security Processor,簡稱為PSP。 AMD新加入的PSP模塊擁有單獨(dú)的處理器、ROM和SRAM,支持目前比較常見的諸如ECC、SHA、RSA、AES、Zlib、TRNG等多種加密算法,并且能夠直接訪問系統(tǒng)內(nèi)存,調(diào)用資源。這樣的設(shè)計(jì)使得AMD的新產(chǎn)品在運(yùn)行有關(guān)安全設(shè)置的應(yīng)用時(shí)顯得更為得心應(yīng)手。 能耗比提升極高 基于AMD Mullins的平板性能測試 那么新一代低功耗APU的性能到底如何呢?AMD率先為我們展示了他們采用Mullins APU的平板性能。AMD的這款參考平板尺寸為11.6英寸,顯示屏幕分辨率為1080p,安裝了Windows 8.1操作系統(tǒng),處理器型號為Mullins中的最高端產(chǎn)品A10 Micro-6700T。 首先讓我們來看看在JavaScript性能和網(wǎng)頁瀏覽的測試結(jié)果,在這些測試中,AMD的產(chǎn)品均獲得了領(lǐng)先,尤其是以較大幅度勝出了英特爾的Bay Trail和蘋果A7。而在CPU單線程性能測試中,AMD的Mullins比英特爾的Silvermont Atom Z3770快了大約35%,且能提供大約相當(dāng)于80%的AMD桌面APU A10-4600M的性能,這是非常令人驚訝的。和第一代APU Llano架構(gòu)的A8-3500M相比,Mullins則大約能達(dá)到其85%的性能。而在CINEBENCH R11.5 CPU多線程性能測試中,Mullins和英特爾的對比產(chǎn)品性能基本相當(dāng),甚至趕上了上代Kabini這樣TDP高達(dá)15W的產(chǎn)品,要知道這款A(yù)10 Micro-6700T的TDP功耗僅為4.5W。此外,相比AMD之前老架構(gòu)的E-350,性能翻了一番還多。 最后是GPU性能測試,測試軟件是3DMark,使用的場景是Fire Strike和Cloud Gate。在這項(xiàng)測試中,4.5W的Mullins依舊展示了和上一代15W級Kabini極為接近的性能。雖然沒有直接對比英特爾的產(chǎn)品,不過考慮到Kabini有大約比英特爾Bay Trail強(qiáng)50%到200%的圖形性能,Mullins應(yīng)該也有類似的表現(xiàn)。另外一點(diǎn)是目前的Trinity移動處理器,它的功耗相比Mullins高了大約10倍,不過性能領(lǐng)先幅度卻只有2倍多一點(diǎn),這展示了Mullins極為優(yōu)異的性能功耗比。 在JavaScript性能和網(wǎng)頁瀏覽測試中,AMD Mullins APU較競爭對手擁有明顯的優(yōu)勢 在CPU單線程性能測試中,Mullins APU已達(dá)到AMD桌面級處理器的80%,多線程性能則與英特爾同級產(chǎn)品基本相當(dāng) 4.5W的Mullins在GPU性能上已經(jīng)能夠同15W級別的Kabini匹敵,能耗比極高 實(shí)際功耗將成成功關(guān)鍵因素 AMD新的Beema和Mullins使得AMD在超低功耗平臺上終于擁有了一款優(yōu)異的產(chǎn)品。根據(jù)性能測試和AMD官方功耗數(shù)據(jù)來看,AMD提供了一款和去年15W TDP的產(chǎn)品性能相似,但是實(shí)際TDP功耗只有4.5W的高能耗比處理器,同時(shí)還保持了非常強(qiáng)大的圖形性能,這都給人留下了深刻的印象。 如果一切順利的話,AMD的新產(chǎn)品在市場上有可能會具備比較強(qiáng)大的競爭力。不過目前最大的問題在于,AMD還沒有公開Beema、Mullins與英特爾對應(yīng)的Bay Trail系列產(chǎn)品進(jìn)行功耗對比的實(shí)際測試,究竟Beema和Mullins的功耗表現(xiàn)到底如何,電池續(xù)航時(shí)間有多長,還需要更多的測試才能確定。AMD預(yù)計(jì)Beema和Mullins在接下來的一到兩個季度中,就會有實(shí)際產(chǎn)品上市了,其實(shí)目前聯(lián)想、三星等廠商已經(jīng)發(fā)布了基于AMD Beema和Mullins的產(chǎn)品。 另外,AMD是否有興趣在安卓平臺上開疆拓土呢?看起來Mullins非常適合高性能的安卓平板電腦,不過迄今為止AMD都只在Windows平臺上發(fā)力。根據(jù)目前的市場情況來看,AMD很有可能出現(xiàn)在安卓市場上。未來的一切,只有等待時(shí)間來告訴我們答案了。