困難時期的投資—數據科學雲及團隊實驗室

隨著現時香港的經濟環境,2019年是滙智研究所非常困難的一年。不過,作為一家顧問公司,一向對員工及客戶維持長遠的承諾。因此,我們投資了一個相當可觀的數目以升級實驗設備,包括了顯示卡及用上SSD的全新伺服器。

數據科學雲(私有雲)

我們的數據科學專屬私有雲,基本上是參考了壹方案有限公司——私有雲方案。她們的雲端平台,絕對是一個好方案去應對各有雲端服務商,提供的大容量儲存、資料庫或大數據平台服務。如果閣下的工作量,內有大量的複雜計算或有50Tb的數據處理的話,用上7×24的雲端服務,必然是一個付出高昂收費的壞主意。

在得到壹方案有限公司的協助下,我們用上了技嘉的伺服器/工作站底板去建立自主構建的伺服器。我們私有雲的構架圖如下圖所示:

(註:我們的圖片只是展示了Hadoop的部份,這並不是一個完整的分析及機器學習系統設計。)

圖示 1: Open Stack架構圖 – 私有雲的其中一部份

建立數據科學私有雲,主要目的是為了擁有一個避免被供應商鎖定的環境,作為研究及培訓之用。這裡已經存有一些重要的開發項目,運行一些像物聯網及人工智能的工作。

置於高可用性及災難恢復方面,只是需要拷貝至另一個數據中心的同等設備上,以保持資料接近實時的同步。

在Open Stack雲端的管理上,我們使用chef及compass去維持私有雲的日常運作。簡而言之,這不單是相關於節省成本,但更為重要的是作為一家學習型公司必需保留自主性。

開發工作站

開發工作站方面,這是重要的把不同的工作類型分類的,比如預測分析及機器學習。

如果任何相關於人工智能/機器學習的,建議去安裝至少一張顯示卡。為了減輕成本,我們用了翻新的打機用個人電腦,配備了英特爾i7或Xeon處理器及不同顯示卡像Nvidia GTX 2070。

還有,應該好好地比對一下各式各樣顯示卡的效能;深度學習顯示卡指標分數: https://lambdalabs.com/blog/best-gpu-tensorflow-2080-ti-vs-v100-vs-titan-v-vs-1080-ti-benchmark/

顯示卡伺服器

科技界巨人—谷歌使用她們自家開發的硬件,去運行TensorFlow以執行人工智能及機器學習。不過,世界上只有華為,在市場上公開發售針對人工智能使用的專用硬體。為了可以利用一些四處可以找到的資源,我們會建議使用遊戲市場的NVIDIA 2080Ti或NVIDIA官方推介的Tesla / Titan系列去進行一些密集式的計算。

不幸地,我們的團隊因為資源所限,現時利用了一台有六片Nvidia GTX 1080Ti的以太幣棄置擴機。不過,我們有計劃去升級這一個群集,主要是記憶體及速度的考慮。我們建議一些大型及基於TensorFlow框架的機器學習/深度學習的模型,應該使用一些像Titan V100內有32GB記憶體的顯示卡。

圖示 2: 一台退役的6顯卡以太幣擴機

同時,我們也嘗試使用另一台退役擴機,內有6張AMD RX570顯卡的,查證一下它去進行機器學習時的效能是能達標。

投資方面,這絕對不是一個小數目,但主要也是對同事及客戶的長遠承諾,公司必然會長期持續發展團隊的技術水平。基本上,我們是非常自豪的表示,專業團隊是運用不斷進步的數據科學技能面對挑戰;而不是運用工具去抄襲他人應用以求過關的技工。