AI狂飆突進,存力需作先鋒
5月30日,在2023中關村論壇成果發(fā)布會上,《北京市加快建設具有全球影響力的人工智能創(chuàng)新策源地實施方案(2023-2025年)》正式發(fā)布?!秾嵤┓桨浮芬螅С謩?chuàng)新主體重點突破分布式高效深度學習框架、大模型新型基礎架構等技術,著力推動大模型相關技術創(chuàng)新。
(資料圖)
這被業(yè)界視為中國將強力推動大模型發(fā)展的又一力證。事實上,近期從中央各部委到地方省、市,對于發(fā)展AI技術,把握大模型機遇的政策傾斜度不斷上升,無論是政策出臺密度還是整體戰(zhàn)略高度,都達到了驚人的水平。
有理由相信,中國將實現一場以大模型為突破點的AI狂飆突進。自2017年開啟新一代人工智能發(fā)展戰(zhàn)略以來,中國將在目前機遇窗口中得到再發(fā)展,推動AI產業(yè)全面爆發(fā)。
我們都知道,抓住AI發(fā)展機遇,需要以技術突破與基礎設施建設為基礎,而提到AI產業(yè)的基礎設施,普遍會提到AI芯片、深度學習框架、預訓練大模型,卻經常會忽略另一個關鍵問題:大模型將帶來巨大的數據壓力,數據存儲也是AI發(fā)展進程中的支柱。
ChatGPT是這一輪AI爆發(fā)的引線,而接下來大模型規(guī)?;瘧脦淼臄祿y題,其實也早已寫在了ChatGPT當中。
面對這種即將到來的壓力,中國存力準備好了嗎?
從ChatGPT看AI崛起帶來的數據挑戰(zhàn)
從2018年谷歌發(fā)布BERT,業(yè)界開啟了預訓練大模型之路。大模型的特點是訓練數據規(guī)模與模型參數龐大,這將給存儲帶來嚴峻考驗,這一點在ChaGPT中也展現無疑。
預訓練大模型所謂的“大”,體現在模型的深度學習網絡層數多、鏈接多、參數復雜,以及訓練所用數據集種類更復雜,數據數量更豐富。在深度學習算法剛剛誕生時,主流模型只有幾百萬參數,而BERT發(fā)布時模型參數就已經過億,將深度學習推進到了大模型階段。到了ChatGPT這個階段,主流模型已經有幾千億參數,甚至業(yè)界已經開始規(guī)劃萬億模型。幾年時間里,AI模型的參數提升幾千倍,如此龐大的數據與模型都需要進行存儲,這就成了AI爆發(fā)給存儲的第一大考驗。
此外,大家目前會廣泛提到AI大模型采用了全新的模型結構,因此對非結構化數據會有更好的吸收效果與魯棒性,這對于AI最終效果非常重要,但也帶來一個衍生問題:我們需要妥善處理存儲和調用海量的非結構化數據。比如說,ChatGPT在升級后加入了識圖等多模態(tài)能力,因此其訓練數據也需要在文本基礎上加入大量圖片,再比如自動駕駛車輛,每天要將大量實地測試視頻存儲起來作為模型訓練依據。這些非結構化數據,帶來了AI相關數據的海量增長,也帶來了存儲和處理這些數據的難題。
據統(tǒng)計,當前全球新增數據有80%都是非結構化數據,年復合增長率達到38%,應對多元化的數據激增,已經成為大模型時代必須克服的困難。
還有一個問題,大模型往往需要頻繁讀取和調用數據。ChatGPT的數據訪問使用量達到單月17.6億次,平均響應速度在10秒以內,并且AI模型的工作流程包括采集、準備、訓練、推理四部分,每個階段需要讀寫不同類型的數據。因此,大模型對存儲性能也帶來了要求。
此外,圍繞ChatGPT展開的一系列數據主權、數據保護爭議,也提醒我們AI大模型帶來了數據安全方面新的風險。試想一下,如果不法分子攻擊數據庫,從而令大語言模型生成錯誤信息欺騙用戶,其危害結果既嚴重且隱蔽。
綜合來看,ChatGPT雖好,但其對數據存儲的規(guī)模、性能、安全等方面都提出了挑戰(zhàn)。當我們致力于發(fā)展大模型和類ChatGPT應用的時候,存儲這關不得不過。
中國存力,準備好了嗎?
最近幾年,我們都在說算力就是生產力。但有算就要有存,存力的極限,也決定了數字化生產力發(fā)展的上限。
那么,在接下來必然出現的中國大模型狂飆突進中,中國存力是否已經做好準備了呢?很遺憾,從幾個方面來看,今天中國存力的準備依舊不充分,需要進一步升級和發(fā)展。我們可以一同來關注一下中國存力存在的幾個問題,看看他們是否對應了大模型帶來的數據壓力。
1.存力規(guī)模不足,限制AI產業(yè)發(fā)展上限
大模型將帶來海量數據,那么第一要務就是將這些數據進行妥善存儲。但在目前階段,中國依舊有著存力不夠,大量數據甚至無法進入存儲階段的問題。從2022年數據來看,中國數據生產量已經達到了驚人的8.1ZB,位居全球第二。但中國存力規(guī)模只有1000EB左右,這意味著數據可存儲率僅為12%,絕大多數數據無法得到有效保存。當中國已經明確數據作為第五生產要素的地位,智能化發(fā)展需要依靠數據、充分利用數據,卻有海量數據難以完成保存,這之間的問題不可謂不嚴重。中國仍然需要保持高速、大規(guī)模的存力增長,才能把握大模型帶來的AI技術發(fā)展機遇。
2.海量數據沖擊下,管理效率和存取效率低
上文討論過,AI大模型帶來的主要數據挑戰(zhàn),是海量數據的管理效率和處理存取效率低。提升存取效率,要求數據以高效率、低能耗的方式完成存寫,但目前在中國仍然有75%的數據在使用機械硬盤。相對于閃存盤,機械硬盤容量密度低、數據讀取慢、能耗高、可靠性差,相對來說,全閃存具有高密度、低能耗、高性能、高可靠的一系列優(yōu)點,但中國全閃存替換依舊有較長的一段路要走。
3.多重數據隱憂,導致存儲安全形勢嚴峻
數據安全問題,已經成為AI公司乃至AI產業(yè)迫切關注的問題。在2020年美國的Clearview AI公司發(fā)生數據安全事故,造成2000多家客戶的30億條數據泄露。這個案例向我們展現了AI產業(yè)的數據安全形勢十分嚴峻,我們必須從數據存儲階段開始重視安全。尤其當AI大模型在國計民生中扮演的角色愈發(fā)重要,就更需要存儲提升安全能力,以應對各種可能存在的風險。
客觀來看,中國存力已經保持了較高的發(fā)展速度,但在整體規(guī)模、全閃存占比以及技術創(chuàng)新能力上,依舊具有一定程度的不足。一場面向產業(yè)智能化需求與AI大規(guī)模落地的存儲升級已經時不我待。
面向智能時代,存儲產業(yè)的機遇與方向
結合ChatGPT所代表的AI大模型帶給存儲的壓力,以及中國存力本身的發(fā)展現狀,我們可以很清晰得出一個結論:中國存儲必須支撐AI崛起,完成大規(guī)模的升級。
我們可以清晰看到存儲產業(yè)的發(fā)展方向,這些方向的急迫性與廣闊空間,構成了存儲產業(yè)的重大機遇。
首先,需要擴大存力規(guī)模,加速全閃存建設。
全閃存替換機械硬盤的“硅進磁退”,是存儲產業(yè)多年來的整體發(fā)展趨勢。面對AI崛起的產業(yè)機會,中國存儲產業(yè)需要加快全閃存替代的實施與落地,最大化發(fā)揮出全閃存高性能、高可靠等優(yōu)勢,以應對AI大模型帶來的數據存用需求。
此外,還必須注意的一點是全閃存化分布式存儲的機會正在加大。隨著AI大模型的崛起,非結構化數據的爆發(fā),數據重要性正在顯著提升,同時AI已經深入到大型政企的生產核心,更多企業(yè)用戶傾向進行本地化的AI訓練,并且采用基于文件協(xié)議的數據存儲,而不是數據放到公有云平臺,這就導致分布式存儲的需求得到提升和加強。
二者結合,持續(xù)快速推動存儲產業(yè)的全閃化落地,就成為了中國存儲產業(yè)發(fā)展的核心賽道。
其次,需要提升存儲技術創(chuàng)新,適配AI模型的發(fā)展需求。
上文提到,AI帶來的數據考驗不僅僅是數據規(guī)模大,更是數據復雜性與應用流程多樣性的挑戰(zhàn),因此存儲的先進性必須得到進一步提升。比如說,為了應對AI頻繁的數據訪問需求,存儲的讀寫帶寬和訪問效率都需要進行升級。為了配合AI大模型的數據需求,存儲產業(yè)需要進行全方位的技術升級。
在數據存儲格式方面,傳統(tǒng)的數據格式,比如“文件”“對象”,最初的設計意圖并不是匹配AI模型的訓練需求,并且非結構化數據的數據格式不統(tǒng)一,使得在AI模型調用數據的過程中,會產生大量對文件格式進行重新理解、對齊的工作,進而造成模型運行效率下降,訓練算力消耗增多。
為此,就需要在存儲側形成新的“數據范式(Data Paradigm)”。以自動駕駛訓練為例,不同類型的數據都參與到了數據訓練的進程當中,如果在存儲側采用了新的數據范式,就可以幫助各種數據統(tǒng)一起來,更好地適配到AI模型訓練當中,從而加速自動駕駛車輛的訓練工作。打個比方,如果把AI想象為一種新的動物,它需要吃一種新的飼料,如果把傳統(tǒng)格式的數據喂給它,就會產生消化不良的問題,而新數據范式,就是在存儲側構筑完全適合AI的數據,從而讓“喂養(yǎng)AI”的過程絲滑順暢。
在AI開發(fā)工作中,數據管理的工作量占比巨大,不同數據集之間還會存在數據孤島問題,而數據編織技術能夠效應對這些問題。通過數據編織,可以讓存儲內置數據分析能力,把物理邏輯上散布的數據整合起來,形成全局視圖化的數據調度和流動能力,從而有效管理AI帶來的海量數據,達成數據利用效率的提升。
這些存儲側的技術創(chuàng)新,可以讓數據存力與AI發(fā)展形成更加緊密的契合關系。
此外,需要將安全能力納入存儲本身,強化主動安全能力。
伴隨著AI發(fā)揮的價值越來越大,數據安全問題帶給企業(yè)用戶的損失也更多。因此,企業(yè)必須提升數據安全能力。其中最重要的一點是要提升數據韌性,讓存儲本身具有安全能力,從源頭上守護數據安全。接下來,更多數據韌性能力將被內嵌到數據存儲產品中,例如勒索檢測、數據加密、安全快照和AirGap隔離區(qū)恢復特征等。
值得注意的是,目前業(yè)界已經有了面向AI大模型崛起,進行存儲全面升級的探索與嘗試。華為存儲通過高質量的全閃存產品,融合先進的存儲技術、內嵌的安全能力,實現了存儲創(chuàng)新與AI發(fā)展的緊密契合,相向而行。
整體而言,存儲產業(yè)的發(fā)展與中國存力的進步,對于AI大模型的落地,乃至千行百業(yè)的智能化升級,都有著舉足輕重的意義。脫離了存儲的發(fā)展,AI帶來的數據洪潮將難以妥善化解,AI技術甚至可能由于缺乏數據支撐,變成無本之源,無根之木。
智能時代的機遇與責任,恰好同時擺在了存儲產業(yè)面前。在華為等優(yōu)秀品牌的存力探索下,中國存儲正迎來史無前例的機會,也在承擔時代給予的責任。
很多業(yè)界專家認為,大語言模型是AI歷史上的“iPhone時刻”,那么AI技術帶來的存力升級潮,或許也將成為中國存儲產業(yè)的里程碑時刻,成為一個黃金年代的序章。
-
1怎么打開電腦路由器設置?初次設置無線路由器方法是什么?
-
2路由器如何設置提升網速?學校寢室路由器無線怎么設置的?
-
3電腦沒連路由器卻能進入路由器界面?電腦無法進入路由器?
-
4把電腦變成無線路由器怎么弄?臺式電腦如何變成無線路由器?
-
5重新啟用U盤的技巧有什么?U盤提速的技巧有哪些?
-
6如何安全的使用U盤?U盤日常使用的技巧有哪些?
-
7曲面顯示器怎么選擇?曲面顯示器和平面顯示器的區(qū)別有什么?
-
8安卓設備型號和名稱可以改嗎?安卓手機如何修改手機IMEI串號?
-
9地址和域名是什么關系?互聯網域名是商標的一個組成部分對錯?
-
10Linux獲取文件名稱和文件路徑并寫入txt?linux下exports文件是什么?
-
MetaQuest3剛剛亮相蘋果無所顧忌_每日看點
-
2023年1-4月浙江家具行業(yè)產值下降16.3% 虧損企業(yè)519家-天天新要聞
-
Epic現在獎勵Fortnite創(chuàng)作者玩他們的體驗的時間 全球新消息
-
恒指大漲 澤連斯基強烈要求加入北約(行情)-更新中 焦點速遞
-
天天實時:line女團成員回歸_圭line成員
-
中獎名單 | 河南非遺美食打卡賽5月31日中獎名單公布,來看看有你嗎~_天天快消息
-
@河南娃娃 解家河南菜邀你六一來參賽,贏大獎! 全球快播報
-
烏飯麻糍
-
中獎名單 | 河南非遺美食打卡賽6月1日中獎名單公布,請注意查收你的非遺好禮 環(huán)球快播報
-
【天天聚看點】N觀——王子錕個展即將在榮寶齋當代藝術館舉辦
-
共度“六一”~清遠青年美術志愿者前往鄉(xiāng)村小學支教 全球觀速訊
-
【世界快播報】一臺到河南的收割機 被安徽村民熱情友好留下就地作業(yè)
-
中獎名單 | 河南非遺美食打卡賽5月30日中獎名單公布,快來領獎啦!_當前焦點
-
亞洲清算聯盟將推出新結算系統(tǒng)作為SWIFT替代方案_當前熱議
-
個人意外險有必要買嗎多少錢?從風險角度和未來發(fā)展上看
-
熱訊:【數博會客廳】深蘭科技創(chuàng)始人、董事長陳海波:發(fā)揮優(yōu)勢探索合作 為貴州高質量發(fā)展提供新動能
-
給臨時工人買意外保險怎么買?工地100元的意外保險賠付多少? 全球熱點評
-
全球觀速訊丨農村買的50元意外險怎樣賠償?最高賠多少錢?
-
全球快播:美臺簽署“21世紀貿易倡議”第一階段協(xié)議 外交部:已向美方提出嚴正交涉
-
受降雨影響西安這些地方發(fā)生塌方 道路臨時管制
-
河南的娃娃河南的菜丨這場美食+童謠的大聯歡,讓六一Hi出新高度!-環(huán)球快報
-
賞湖光山色品特色肉盤,黑森林蛋糕給夏天加點“料”
-
開收割機追著天氣跑的河南“麥客”:今年太難了_今日看點
-
全球今日訊!西安901路公交一小時等不到一輛 回應:駕駛員大量離職
-
《云賞敦煌》中文第十五集:才藝卓絕 藝爍古今|每日熱議
-
世界熱議:RCEP全面生效,商務部:帶來實實在在的紅利和實惠
-
步行+騎行者,北京城市慢行系統(tǒng)今年大提升!一圖讀懂|全球播資訊
-
甘肅華亭:中藥材產業(yè)的“鏈變”之路
-
瓜州:解鎖水清岸綠的“密碼”-環(huán)球報道
-
每年存5萬連續(xù)存3年的保險可靠嗎?保本保息嗎?_全球快播
-
天天微資訊!C919完成商飛 波音空客雙頭壟斷地位終結?波音CEO表態(tài)
-
南通開發(fā)區(qū)稅務:稅法潤童心 一起向未來
-
天天熱點!江蘇南通發(fā)生命案兩人遇害 居民稱死者是母子
-
【全球新視野】增額終身壽險產品對比,怎么挑選?看回本速度和收益!
-
今頭條!兒童節(jié)“遇上”環(huán)境日 南京啟動江心洲生態(tài)島試驗區(qū)創(chuàng)建
-
RCEP全面生效,商務部:帶來實實在在的紅利和實惠_獨家
-
焦點熱議:最強可刮飛汽車房屋,龍卷風哪些地區(qū)易出現?
-
瞰隴原|飛“閱”黃河安瀾
-
所得稅減免!洛陽這些群體可享優(yōu)惠
-
瞰隴原|“瞰”見金水湖_今日要聞
-
酷一點的說說文案_酷酷的說說
-
新股上市首日買入技巧_如何買入新股呢 世界速看
-
環(huán)球通訊!全面從嚴治黨 改善服務態(tài)度 轉變工作作風
-
世界視點!云和縣召開安全生產隱患大排查大整治工作推進會
-
貴州省通信管理局全面啟動2023“固源”專項行動-天天亮點
-
世界熱議:高考臨近 海淀城管加強考點周邊安全檢查
-
當前簡訊:縣自然資源局:“六堅持”打好“六仗”
-
注意!湖南今年高考將首次采用“雙安檢”模式 焦點簡訊
-
櫻桃正當紅,快來昌平櫻桃采摘園摘果子吧?。ǜ讲烧獔@信息)|焦點熱文
-
【世界新要聞】貴州貴定:芒種將至 機械插秧忙
-
每日觀點:2000 元安卓次旗艦性能榜,這兩款毫無疑問
-
重磅!今年湖南高考錄取四個變化
-
今年高考:乙類乙管,科學佩戴口罩
-
深入開展“三抓三促”行動 奮力開創(chuàng)縣域經濟高質量發(fā)展新局面——訪靜寧縣委書記何鵬峰
-
湖南2023高考大數據來了:實際參加高考人數47.77萬
-
重要提醒!高考考生不得將手機帶入考點
-
每日看點!全國首個“國際科技組織總部集聚區(qū)”落戶朝陽區(qū) 首批8家組織入駐
-
普法進校園
-
數字伊利又進階!全球乳業(yè)首個元宇宙數字孿生工廠上線 觀速訊
-
泰州海陵:打造全民閱讀陣地 豐盈群眾“文化糧倉”
-
全球焦點!打磨鄉(xiāng)情滿滿的文創(chuàng)品牌 鹽城草房子景區(qū)首部舞臺劇試演
-
蘭州市住宅價格環(huán)比微降
-
授牌“凈塑城市” 揚州全力構建“凈塑綜合示范區(qū)”-環(huán)球要聞
-
六五環(huán)境日|生態(tài)質量持續(xù)提升!生態(tài)質量一類縣域面積占全省國土面積超五成
-
加沙城遭遇沙塵暴
-
今日看點:5月中國物流業(yè)景氣指數為51.5% 居民消費物流回升
-
甘肅省發(fā)行新增專項債券416億元 有力支持662個項目建設
-
法國奶奶為何滿頭銀絲也優(yōu)雅得體:一少穿花、二穿裙少披絲巾 精彩看點
-
甘肅省2022年生態(tài)環(huán)境狀況公報出爐 環(huán)球熱門
-
焦點熱門:碳排放權質押融資:問題與建議
-
熱消息:南京海關招聘_南京海關待遇
-
世界速讀:要銷量不要利潤?笑看榮耀頂配旗艦的配置,感嘆品牌真瘋了
-
昂科芯片燒錄器更新支持Hynetek慧能泰半導體USB PD Source芯片_環(huán)球百事通
-
躉船是什么意思_躉船的拼音-世界視點
-
世聯賽兩連勝!中國女排3比0戰(zhàn)勝德國女排|世界短訊
-
貴州第十一批全國民族團結進步示范區(qū)示范單位推薦對象公示
-
當前信息:北京今天有廟會,十樣雜耍挺齊全!現場——
-
“網上辦”“掌上辦” 跨省異地就醫(yī)結算更便捷
-
中新防長會晤 李尚福談臺灣問題強調三個"決不"|快播報
-
再婚、祝壽等酒席一律禁辦?貴州晴隆回應:倡導非硬性 當前快看
-
今日關注:統(tǒng)籌推進全省數字基礎設施建設
-
6月起實施,從嚴懲處性侵害未成年人犯罪!
-
大興區(qū)西紅門:曬曬垃圾分類三周年宣傳周成績單
-
黔南州未成年人檢察工作新聞發(fā)布會在都勻召開_環(huán)球快資訊
-
超級瑪麗8號重疾險健康告知,逐一列明
-
教育部公布高考舉報電話
-
高考三天:湖南雨水頻繁 ,傘不離手 全球熱點評
-
西安市12部“三夏”小麥機收保障電話24小時開通 當前信息
-
西北大學這個研究團隊讓秦嶺金絲猴登上了Science封面
-
頭條焦點:旺季“預熱” 5月份北京租賃市場活躍度回升、節(jié)奏加快
-
環(huán)球速訊:歡樂六一 牽手“藍焰”丨兒童節(jié) 大龍消防伴你“童”行
-
龍卷風最強可刮飛汽車吹毀房屋!哪些地區(qū)容易出現?
-
世界頭條:教育部公布高考舉報電話
-
天天觀速訊丨我國哪些地區(qū)易出現龍卷風?什么季節(jié)多發(fā)?大數據揭秘
-
女生婚紗照被盜用反遭網暴?當事人及平臺回應
-
眉筆怎么用不容易掉色_眉筆怎么用-世界頭條
-
當前視訊!和風物語家具_和風物語id
-
關于國慶節(jié)的古詩-焦點熱文
-
被問到性生活,西蒙尼:每月少于4次就別在我的球隊踢球 頻率還行 新消息
-
北京考古多個“首次”!這里將通州建城史提前到2200年前 世界報資訊