目錄
- 到底誰是第一款原生NVMe-oFSSD?
- 連線方案&效能測試
- 從2019年拖到現在:還能引領儲存系統潮流嗎?
- 乙太網SSD應用:不只是塊裝置?
在ODCC 2021開放資料中心峰會上,三星展出了Ethernet(乙太網)SSD,這可能是它的實物第一次公開亮相。
現場靜態展示的Demo,是把這個U。2尺寸的Samsung Ethernet SSD放在一臺有點老的Dell桌上型電腦裡。具體來說是插在一塊轉接卡上,在後部I/O擋片處提供乙太網介面。而這個轉接板插在傳統32位PCI白色插槽內,從下面主要是取電。
上面的照片,位於SFF-8639聯結器相反的另外一側,這裡可以看到三星乙太網SSD用於除錯的金手指。
到底誰是第一款原生NVMe-oF SSD?
三星宣稱自己是“世界第一個原生乙太網SSD”。乙太網鏈路是
雙埠25G
(向下相容10G),我理解這個速率比較匹配U。2雙埠PCIe 3。0(x2)NVMe SSD;如果想達到PCIe 4。0雙埠NVMe的效能,用將來的50GbE IP合適。
具體到協議,看起來基於
RDMA(RoCE v2、iWARP)和NVMe over TCP
三種傳輸層的NVMe-oF都支援。做為一個目標端塊裝置,支援超過500個主機連線數。
記得我在《
NVMe-oF三種協議(FC、RDMA、TCP)對比:成敗不只看效能
》中提到過Marvell轉接NVMe SSD到25Gb乙太網NVMe-oF的88SN2400晶片,如上圖,這個確實不是原生方案。但我又仔細翻了一下之前的新聞,Marvell/東芝在2019年前後還宣佈過另一款
單晶片NVMe-oF SSD控制器
,以及固態盤樣品。
如上圖,Marvell 88SS5000 NVMe-oF SSD控制器(也是雙埠25GbRoCE)和東芝對應的SSD。但這款產品後來好像沒什麼動靜,不知是技術原因,還是與公司變成Kioxia有關。關於東芝使用Marvell主控方面的合作,至少可以追溯到SAS SSD時代了。
以上資料截自Marvell® 88SS5000 NVMe-oF™ SSD Controller的Product Brief,首先可以看出這顆晶片裡有
4核Cortex-R5 ARM
,我想三星新發布的乙太網SSD計算能力可能要比這個高?
Marvell控制器支援64 Virtual Functions(我理解應該是NVMe的Namespace),總共132個佇列對,每個佇列深度應該是256 outstanding I/O。
下面我引用一下
《ODCC-2021-05008 Ethernet SSD 測試白皮書(英文版)
》裡面列出的三星詳細引數,供大家參考:
3。2。1。 NVMe 特性
⚫ Support NVMe v1。2
⚫ Support NVMe-oF v1。0
⚫ Support for up to
1024 NVMe queue pairs (QP)
⚫ Support for up to
128 namespaces per drive
⚫ Limited to 16 namespaces perdrive if reservations are managed by the Bridge
⚫ Up to 64 entry submission queue(SQ) depth
⚫ Up to 8K Work Queue Entries
⚫ Number of QP*SQ depth must beless than 8K
3。2。2。 RDMA 特性
⚫ iWARP,RoCE(v1, v2)in hardware
⚫ Support for up to 1024 iWARP orRoCE QPs
⚫ TCP Offload Engine in HW(iWARP)
3。2。3。 Ethernet 特性
⚫ Dual port 25GbE
⚫ Two ports at the same speed
⚫ Up to
8 MAC addresses
⚫ 4K VLAN addresses per port
⚫ Up to
1024 source IP addresses
of IPv4/IPv6
⚫ 8 destination IP addresses ofIPv4/IPv6
⚫ HW Link Aggregation
3。2。4。 網路服務
⚫ ICMP
⚫ ARP
⚫ SNTP
⚫ LLDP
3。2。5。 外圍
⚫ SPI Flash interface forfirmware
⚫ 3&4 byte addressing
⚫ 2 I2C/MDIO ports for managingEthernet link modules or connecting to BMC
⚫ 1 general purpose I2C port
⚫ 8 GPIO pins for configurabilityand feature set control
3。2。6。 企業級資料保護
⚫ All data paths have overlappingparity protection
⚫ All memories are ECC protected
⚫ All errors will be logged to aninternal log buffer
⚫ Internal log buffer isperiodically written to external Flash
⚫ An immediate write to flash isperformed in the event of a non-recoverable error
⚫ Dual images are stored inexternal flash
⚫ Images protected by CRC
連線方案&效能測試
ODCC大會上現場展示方案中,交換機是Broadcom的。乙太網訊號直接從SFF-8639/9639(U。3)聯結器上走,未來應該是配合EBOF的背板比較多。客戶端伺服器用誰家的倒是無所謂。
三星乙太網SSD的效能測試結果還不錯,128K順序讀寫都超過了2GB/s(應該是受限於25GbE),4K隨機讀IOPS 669K,隨機寫IOPS 139K。
從2019年拖到現在:還能引領儲存系統潮流嗎?
有圖有真相
有點戲劇性的是,其實三星早在
2019年的SNIA SDC印度會議
上就介紹過NVMe-oF Ethernet SSD,其中資料居然
和今天講的大多一致
。大家先跟著往下看,結尾處我會把2個文件都共享出來。
上圖中列出2種“當前的NVMe-oF JBOF方案”,我理解左邊類似於一個單控快閃記憶體陣列了(具體是否實現RAID功能不確定);而右邊基於SoC/
SmartNIC
相對簡潔的設計在今天被稱為
EBOF
,就像《
NVMe-oF E-JBOF設計解析:WD RapidFlex網絡卡 & OpenFlex Data24
》。
以NVMe SSD低於100µs的延時水平,NVMe-oF增加10µs比較合適,iSCSI的開銷太大。我發現當年三星還想著Z-NAND SSD over NVMe-oF,今天好像暫時沒提。
所謂的橋接NVMe-oF方案,這裡指用一顆SoC轉接(後面提到是FPGA),其實Marvell 88SN2400已經是ASIC了。當然還是原生NVMe-oF更簡單高效。
三星指出,與FPGA板轉接NVMe-oF相比,原生NVMe-oF可以降低20%延時,並且成本和功耗都較低。不過Ethernet SSD比普通NVMe盤貴多少,我還不清楚。
上圖有點像儲存系統後端的演進方向。傳統磁碟/快閃記憶體陣列多采用SAS後端,到NVMe SSD時代中高階產品開始支援PCIeSwitch和JBOF來擴充套件(比如Dell EMC PowerMax),未來EBOF也可能會更多出現在
軟體定義的分散式儲存系統
中。
比如現有的中高階快閃記憶體陣列,Scale-out擴充套件是以控制器對的形式。如果換成乙太網SSD,只要是交換機能連到的地方,
系統的擴充套件規模可以更大
。前端如果放控制器機頭,也可配置成一個更大的
Shared-Everything
。
OCP FX-16快閃記憶體擴充套件機箱
都是現成的,把PCIe Switch Board換掉,EBOF裡面除了ESSD,2個乙太網交換機模組,還有BMC管理就好了。
乙太網SSD應用:不只是塊裝置?
有朋友問乙太網SSD
是否提供SDK?
儘管三星這次在白皮書裡只寫了NVMe-oF介面,但似乎2年前提到的用法更多。SoC控制器上的Accelerator可以跑個性化屬性(也就是使用者的應用程式),具體場景包括
物件儲存、CDN、IoT
等。
如上圖(大資料:物件儲存),
Ceph的OSD
是不是能跑在Ethernet SSD上,大家還記得當前希捷搞過的KV-HDD硬碟嗎?
提到大資料和Key/Value儲存,在乙太網SSD上實現
壓縮
等有一定意義,這讓我想起《
NVMe計算型儲存:三星、WD和NGD的“SmartSSD”
》裡面加了顆FPGA的SSD。從成本和未來走量的角度,我還是相對看好乙太網SSD,只是不確定控制器晶片的算力如何。
在用於CDN的邊緣快取場景,
ESSD甚至可能替代Edge伺服器
。
又到了總結的時候。
NVMe-oF App SSD
這個名字還不錯吧?只是不知道從基礎的塊裝置(盤),發展到更多應用還需要多長時間。
另外,東芝(Kioxia)等還搞不搞了…
參考資料 (點下方連結)
提取碼:b5xo
注:
本文只代表作者個人觀點,與任何組織機構無關,如有錯誤和不足之處歡迎在留言中批評指正。如果您想在這個公眾號上分享自己的技術乾貨,也歡迎聯絡我:)
尊重知識,轉載時請保留全文。感謝您的閱讀和支援!