數(shù)據(jù)流區(qū)別特征
與傳統(tǒng)的關(guān)系數(shù)據(jù)模式區(qū)別
b.babcock等[90]認(rèn)為數(shù)據(jù)流模式在以下幾個(gè)方面不同于傳統(tǒng)的關(guān)系數(shù)據(jù)模式:
1. 數(shù)據(jù)聯(lián)機(jī)到達(dá);
2. 處理系統(tǒng)無法控制所處理的數(shù)據(jù)的到達(dá)順序;
3. 數(shù)據(jù)可能是無限多的;
4. 由于數(shù)據(jù)量的龐大,數(shù)據(jù)流中的元素被處理后將被拋棄或存檔(archive)。以后再想獲取這些數(shù)據(jù)將會很困難,除非將數(shù)據(jù)存儲在內(nèi)存中,但由于內(nèi)存大小通常遠(yuǎn)遠(yuǎn)小于數(shù)據(jù)流數(shù)據(jù)的數(shù)量,因此實(shí)際上通常只能在數(shù)據(jù)**次到達(dá)時(shí)獲取數(shù)據(jù)。
三個(gè)特點(diǎn)
我們認(rèn)為,當(dāng)前所研究的數(shù)據(jù)流計(jì)算之所以不同于傳統(tǒng)的計(jì)算模式,關(guān)鍵在于這些數(shù)據(jù)流數(shù)據(jù)本身具有如下三個(gè)特點(diǎn):
數(shù)據(jù)的到達(dá)—快速
這意味著短時(shí)間內(nèi)可能會有大量的輸入數(shù)據(jù)需要處理。這對處理器和輸入輸出設(shè)備來說都是一個(gè)較大的負(fù)擔(dān),因此對數(shù)據(jù)流的處理應(yīng)盡可能簡單。
數(shù)據(jù)流
數(shù)據(jù)的范圍—廣域
這是指數(shù)據(jù)屬性(維)的取值范圍非常大,可能取的值非常多,如地域、手機(jī)號碼、人、網(wǎng)絡(luò)節(jié)點(diǎn)等。這才是導(dǎo)致數(shù)據(jù)流無法在內(nèi)存或硬盤中存儲的主要原因。如果維度小,即使到來的數(shù)據(jù)量很大,也可以在較小的存儲器中保存這些數(shù)據(jù)。例如,對于無線通信網(wǎng)來說,同樣的100萬條通話記錄,如果只有1000個(gè)用戶,那么使用1000個(gè)存儲單位就可以保存足夠多和足夠精確的數(shù)據(jù)來回答“某一用戶的累計(jì)通話時(shí)間有多長”的問題;而如果共有100000個(gè)用戶,要保存這些信息,就需要100000個(gè)存儲單位。數(shù)據(jù)流數(shù)據(jù)的屬性大多與地理信息、ip地址、手機(jī)號碼等有關(guān),而且往往與時(shí)間聯(lián)系在一起。這時(shí),數(shù)據(jù)的維度遠(yuǎn)遠(yuǎn)**過了內(nèi)存和硬盤容量,這意味著系統(tǒng)無法完整保存這些信息,通常只能在數(shù)據(jù)到達(dá)的時(shí)候存取數(shù)據(jù)一次。
數(shù)據(jù)到達(dá)的時(shí)間—持續(xù)
數(shù)據(jù)的持續(xù)到達(dá)意味著數(shù)據(jù)量可能是無限的。而且,對數(shù)據(jù)進(jìn)行處理的結(jié)果不會是較終的結(jié)果,因?yàn)閿?shù)據(jù)還會不斷地到達(dá)。因此,對數(shù)據(jù)流的查詢的結(jié)果往往不是一次性而是持續(xù)的,即隨著底層數(shù)據(jù)的到達(dá)而不斷返回較新的結(jié)果。
以上數(shù)據(jù)流的特點(diǎn)決定了數(shù)據(jù)流處理的特點(diǎn)一次存取,持續(xù)處理,有限存儲,近似結(jié)果,快速響應(yīng)。
近似結(jié)果是在**個(gè)條件限制下產(chǎn)生的必然結(jié)果。由于只能存取數(shù)據(jù)一次,而且只有相對較小的有限空間存儲數(shù)據(jù),因此產(chǎn)生精確的計(jì)算結(jié)果通常是不可能的。而將對結(jié)果的要求從過去的“精確”改為“近似”后,實(shí)現(xiàn)數(shù)據(jù)流查詢的快速響應(yīng)也就成為了可能。
湖北匯智橋數(shù)據(jù)信息服務(wù)有限公司專注于項(xiàng)目股權(quán)**報(bào)告,項(xiàng)目數(shù)據(jù)分析,股權(quán)投資**分析及風(fēng)險(xiǎn)評定報(bào)告等