摘要:華為助力金融數智化走向“捷徑”。
隨著社會數字化能力的快速升級,金融行業正逐漸邁向數字化轉型的新時代。尤其是AI的爆發,數據智能技術正在徹底改變著這個行業的面貌,隨著越來越多的金融機構開始將人工智能、機器學習和大數據分析技術應用到其業務中,金融數據的價值正在得到充分的發掘。
毋庸置疑,在數字經濟時代,數據上升為新的關鍵生產要素和資產,逐漸超越土地、資本等傳統要素,成為社會經濟發展和企業創新更加重要的驅動力。
對于金融行業而言,本身就有大量的數據,每一家金融機構都希望成為一個數據驅動的企業,但目前企業仍面臨著數據持有成本高、數據孤島嚴重、數據治理難度大等挑戰,這也導致如何充分釋放數據價值成了當下的難題。
一方面,企業與組織逐漸擁有海量數據規模和豐富應用場景,最新數據顯示,國內股份制銀行每年的數據量增長在30%,這些海量多源異構數據的增長,對于企業的存儲與管理帶來極大挑戰 ;另一方面,數據價值釋放、使用也遇到現實困境,權威機構統計表明,當前全球僅僅只有2%的數據被真正分析過,而注入AI模型的數據連1%都達不到。且隨著數據越來越繁多,企業在彈性調度、實時調度數據上也將變得更加復雜。
如何破局?尤其是在AI爆發、大模型建設成為主流的大背景下,數字智能化轉型已經全面提速,對于企業而言,建設數據驅動型的現代化企業已是刻不容緩。為此,華為為金融業提供了答案:通過云-數-智-算全面融合架構,化繁為簡,助力金融人人用數,實現處處智能。
云數融合,數據挖掘的“金鏟子”
在數字化浪潮中,數據正在重塑企業的運營、管理、決策乃至創新,不過,企業當前在數據價值實現中面臨的挑戰空前巨大,尤其是企業數據產生的速度、規模和類型,遠超當前設備的處理和計算能力,數據價值挖掘效率低下成了一大難題。
事實上,一直以來金融業內對于數據處理都并非易事,就像鄂爾多斯盆地油氣田雖然資源豐富,但屬于典型的“三低”(低滲、低壓、低豐度)油氣藏,實現經濟有效開發屬于世界性難題。數據從產生到發揮要素價值的過程也同樣漫長,包括數據采集、數據存儲、數據處理加工、數據流通、數據分析、數據應用等,每一個過程都充滿大大小小的挑戰。
尤其是隨著多樣性計算的演進,數據庫必須支持多種算力。過去以CPU為中心的架構,現已發展到多樣性算力協同的對等計算架構,CPU、GPU、NPU甚至包括為特定場景開發的計算單元等都要形成協同關系,從而更好地去處理數據。
不僅如此,多模融合成為主流,多模數據需要協同處理以實現資源集約化管理。從過去主要處理的是結構化數據,到現在處理非結構化數據例如圖、時序、流、文檔等的數據類型,這對數據整合處理和整合分析提出了更高的要求。
早期企業數字化建設所依賴的基礎資源,多為以服務器硬件設備為中心,業務應用隨不同廠商設備、操作系統、虛擬化軟件的差異化進行定制設備的安裝、調試,應用的部署運維基本靠人力完成,自動化程度低,缺乏統一的設備和應用管理能力。雖然后期有虛擬化軟件的出現,資源的利用率和擴縮容的靈活性方面得到一定提升,但從未從根本上解決基礎設施與軟件割裂、運維復雜的問題。
如今華為推出的云原生全面融合架構,其中一點就是在傳統架構上進行了云數融合升級,將企業的關注點從以資源為中心轉移到以應用為中心,包括應用敏捷交付、快速、彈性、平滑遷移、無損容災,可以更好地幫助企業實踐應用的自動化應用。
舉個例子,假設某企業需要在一段時間內處理大量的數據,但是處理量難以預測,需要根據實際情況來進行資源調度。如果企業采用傳統的數據處理方法,需要購買足夠的硬件設備才能滿足一段時間內的處理需求,這會帶來很大的成本和資源浪費。而云數融合后,企業可以將數據存儲在云端,利用云原生技術架構實現彈性資源調度。當需要處理數據時,系統會自動分配足夠的資源來完成任務,處理完成后,系統會自動釋放這些資源,從而降低成本,提高效率。
另外,隨著數據更新速度加快,當下金融業很多業務對實時性的要求越來越高,而為了保障企業能夠將實時數據進行快速計算,華為也在計算層、存儲層、緩沖層做了三層池化,加速了云計算數據中心建設的效率,利用虛擬化技術,將資源分享給不同用戶,資源的放置、管理與分配策略對用戶透明。讓用戶能夠靈活使用、調配想要用到的數據中心資源,并且讓基礎架構的硬件設備盡可能發揮出最大利用率。
而擅長數據處理的企業,數據價值躍升也更為明顯。以營銷場景為例,傳統的用戶標簽可能只有幾十維,但在完全挖掘數據價值后,數據范圍更廣,結合外部數據和AI預測引入,可以做到幾千維,實現百倍的增長,這種情況下可以更好洞察理解客戶。
客觀來說,金融業的數據復雜且更新迅速,一些數據的價值很難落地,而華為云數融合的目的,就是希望將更多數據挖掘并且簡化處理步驟,讓所有的數據都可創造價值。當然,隨著智能大模型的爆發,數據與智能的融合在數智化架構中也變得極為重要。
數智融合,高效釋放數字價值
在金融行業早期數字化轉型的過程中,為解決某一業務問題,往往按照單一業務邏輯部署信息系統,另外由于政策、業務的不斷變化,金融機構不同業務系統建設存在時間差異,各不同業務條線往往根據自身需求獨立獲取數據、進行數據加工,再進行系統部署應用,最終形成一個個獨立的“煙囪式”數據架構,出現數據孤島、數據與AI架構不互通、業務流程難以穿透等各種問題。
一家銀行可能有幾百套信息和數據系統,各種架構、軟件標準五花八門,數據融通和業務流程困難極大。分散的數據源、海量的數據規模、異構的數據屬性都是金融機構數據治理的難題,也導致數據在處理后無法直接利用AI訓練。就像是即便擁有全世界最頂級的數據處理師,但無法給到他們數據進行處理,那么就顯得毫無價值。
傳統的做法是將處理好的數據搬遷到AI架構進行訓練,但一組數據是,普通銀行在做增量數據搬遷時,大概需要6-8個小時,而做全量數據遷移的時間,往往達到了4-7天,這就導致企業構建、保護和管理數據的過程復雜且耗時,并且需要大量開發和維護成本。
所以區別于這種被動局面,華為數智融合就是打通了數據治理生產線和AI開放生產線之間的互通,基于DataArts、lakeformation,把數倉、數據湖、AI數據的目錄、數據權限、事務一致性、多版本管理等能力都融合到一個中心點,構建了滿足各種引擎需求的數據湖統一元數據服務視圖,支持一份數據在數據湖、數據倉庫、AI、開源系統等多個引擎間自由共享,實現了引擎元數據互通,達到了數據與AI共存的效果。
但統一元數據本質是將數據與計算做了分離,這就導致數據庫、數據倉庫、數據湖、AI引擎不互通,大規模分布式集群節點與節點之間的數據交換時間間隔可能會變長,且需要滿足實時性要求,所以降低鏈路延時,提高計算效率尤為重要。而華為推出的分布式硬件設備擎天加速卡,能夠實現的就是使數據與數據之間直接交換,不需要再上升到交換機層面,將路徑大大縮短,使數據與集群之間的交換效率大大提升。
事實上,單看數據與計算分離這種架構是十分理想化的,但在實際運用過程中還是存在很多工程化問題需要解決,而華為要做的不僅是將理想架構落地,還會通過擎天加速卡、AI數據治理產線等ICT根技術來支持企業解決落地過程中的諸多問題。所以華為在做的其實就是化繁為簡,將復雜的事留給自己,為企業、客戶提供更簡單、實用的融合架構。
數算融合,軟硬協同更兼容
事實上,云數融合和數智融合本質上是基于軟件層面的優化,但數智化轉型是一個系統性工程,軟件和底層硬件的融合至關重要,這也是華為獨特的優勢。
比如當企業云數智融合達到了一定水準,很難在軟件層面實現突破時,還想要再進一步提升效率,那么在硬件上下功夫便是最優解。最常見的像銀行的日終跑批、數據分析、監管報送等這些針對數據展開的業務,對時效性均有較高要求。
正常情況下日終跑批是從晚上十點左右開始跑起,一些數據量大的銀行可能會跑到第二天早上9點或者10點左右,這就會造成前一天數據還未跑完,第二天的新數據便產生了,影響了正常工作。
還有業務員在做數據分析時,有些數據需要自己提取,但在使用自助分析工具時,會有一個響應時間,對于一些復雜的命令,運行起來可能需要30秒甚至更長時間,對整體效率可能會產生一定影響。
RWA場景、監管報送等復雜場景對數據計算的效率、算法有更高要求。例如銀行在做監管報送時,會同時開放給不同分支去批量處理、批量增倉改查,這種既要保證跑批又要平衡數據變動的復雜混合負載要求,顯然對后臺提出了極高要求。
所以在當前基礎上,如何進一步縮短數據處理時長是業內所需解決的問題。華為給出的方案是通過鯤鵬計算底座+RoCE無損網絡+數據湖倉之間的協同,并且通過資源池隔離、優化算法等方式去提升復雜場景下的性能。
另外,對于架構本身來說,雖然華為是做了開放處理,湖倉可以適配不同底座,底座也可適配不同廠商的湖倉,但基于華為自身的ICT能力,軟硬件的協同、融合也能夠達到一加一大于二的效果。
智算融合,大模型部署不費力
不能否認,大模型的爆發,將金融業帶入到了一個全新時代,但同時也給行業帶來了一些難題。尤其是大模型的部署,會有一系列復雜的工程化問題,比如數據采集、數據標注、數據清洗、模型的再訓練、推理等等,所以企業需要一個端到端的解決方案來實現高效落地。
而華為也是目前為數不多能夠實現全棧AI能力的企業,覆蓋昇騰芯片、算子CANN、算法框架MindSpore、盤古大模型、開發者平臺ModelArts等等,通過華為AI能力和上層應用生態,構筑全棧全場景的AI解決方案。
另外對于大模型來講,能夠看到一個非常顯著的區別,便是訓練的數據量劇增,例如ChatGPT3和3.5的訓練量都為百億,而GPT-4則達到了千億級別。數據級別從TB級到PB級甚至未來還有可能達到ZB級。而數據量的爆發也會在計算、存儲、通信三個層面產生新的問題。
首先計算層面,目前單卡算力能力5年僅能增加47倍,而算力需求5年增加了百萬倍,顯然單機已無法滿足日益增多的算力需求,業內較為統一的做法是將基礎設施分布式集群化。但集群化就會對散熱提出更高要求,傳統風力方式幾乎很難完成散熱重任,會導致出現不穩定,出現中斷情況,相較之下液冷散熱效率更高,正逐漸成為集群散熱必選。
當然,在保證穩定性的前提下,如何去提升超大集群算力利用效率以及大模型算法分布式開發效率,這就需要算力架構的優化和算法框架的優化。
存儲層面,因為訓練數據有一個巨量提升,如果還按照傳統的HDD存儲方式,那么其效率也會大大降低,全量數據載入可能會需要數天時間,所以全閃存等高性能存儲方式將是未來主流的解決方案。
通信層面,集群化下通信系統其實決定了其性能瓶頸,傳統100G的交換網絡在訓練時可能會有較高延時,所以就需要升級到200G或者400G的RoCE網絡,以幫助數據中心網絡實現大寬帶、低時延、高效率的訓練。
華為云數智算全面融合架構,解決的就是AI集群系統面臨的工程化難題,化繁為簡,為企業數智化架構升級提供了可以落地的優質的解決方案。
產業數字化浪潮的推進,必然為金融業帶來新的數智化挑戰,金融行業數字化轉型迫在眉睫。而將云、數、智、算進行有效融合的“數智融合”解決方案,是破題的關鍵,可讓AI和數據釋放更多價值。在這個過程中,華為也將持續賦能行業實現高效的數據挖掘、治理和運用,為更多企業進行數字化和智能化升級構筑起堅實的創新基石,推動金融數字化轉型邁向全新階段。