AMD公布推土機(Bulldozer)山貓(Bobcat)新架構細節
美國加州帕洛阿爾托市舉行的第22屆Hot Chips高性能芯片大會上,AMD如約公布了“推土機”(Bulldozer)、“山貓”(Bobcat)兩款全新處理器架構的更多技術細節。AMD院士兼推土機總設計師Mike Butler、AMD院士兼山貓總設計師Brad Burgess均出席會議并分別發表了相關演講。
推土機架構主攻性能和擴展性,面向主流客戶端和服務器領域,山貓架構的重點則是靈活性、低功耗和小尺寸,將用于低功耗設備、小型設備、云客戶端。
推土機將采用新的模塊化設計,每個模塊擁有兩個四管線核心,彼此共享一個浮點調度器和兩個128位乘法累加單元(FMAC)。兩個核心都擁有自己的整數調度器、一級數據緩存,并預取、解碼單元和二級緩存。 新架構還將有全新的x86指令集支持,包括SSE4.1、SSE4.2、AVX、XOP。
推土機微架構示意圖
K10 Phenom II微架構示意圖
因為除了高性能計算領域之外浮點運算量并不多,這種浮點調度器共享設計能大大節省晶體管、核心面積、功耗,降低成本;兩個FMAC單元既可以被每個核心單獨使用,也可以合并組成一個256位FMAC單元,當然這需要程序代碼做相應改變。為了獲得最大程度的性能功耗比,推土機架構還會在共享、專用單元之間動態切換。
AMD宣稱,這種共享模塊化設計的多線程執行效率要大大優于同步多線程(SMT)和芯片多處理(CMP)。SMT最典型的實例就是Intel的超線程技術,它強制兩個線程進入一個核心,線程之間會爭奪資源,影響效率;CMP則是一個線程對應多個專用核心,浪費資源。
推土機的模塊可以通過HyperTransport高速點對點總線多個累加在一起,組成更多核心產品,比如代號英特拉格斯的Opteron 6200系列服務器處理器就有6-8個模塊、12-16個核心,代號巴倫西亞的Opteron 4200系列則有3-4個模塊、6-8個核心,它們會分別取代現有的8-12核心Opteron 6100系列、4-6核心的Opteron 4100系列,均采用GlobalFoundries 32nm SOI工藝制造。
AMD表示,模塊化設計能夠加速芯片開發、提高產品靈活性,同時對硬件、操作系統、應用軟件來說都是透明的。
此外推土機還是一個非常強調效能的架構,支持更先進的電源管理技術。因為浮點單元上的共享,每個模塊內第二個整數核心所需要的電路只占總核心面積的12%,從芯片級別上講這只會給整個內核增加5%的電路。更多的核心、更少的空間,這顯然有利于提高單位功耗、單位成本的性能。
簡單地說,推土機是AMD徹底重新設計的核心,將成為AMD下一代高性能處理器技術,用于客戶端和服務器領域,相比于Opteron 6100系列會增加33%的核心、大約50%的性能。