免費小說網 > 腦回路清奇的主角們 > 第一百五十四章 幻大數據壓縮研究
  任何一個隨機大數據,都有兩種可能,一種是可以用極少數的算式就能得出,比如1024的1024次方;另一種是可以用極少數的算式就能近似得出,也就是用一個算式,能夠得出重合率達到百分之八十的數值,只需要一些不重合區域的表達式就可以還原。

  按照進制,分為十進制大數據,十六進制大數據,二進制大數據。

  數據的進制可以轉換,而當數據足夠大時,進制的轉換會導致運算資源占用,也就需要有對應的進制的數據壓縮方法。

  二進制無理數專用處理器:生成二進制的圓周率,生成二進制的黃金分割率,生成任意正整數的以自身為開方數的數值,階除——也就是1除以2除以3除以4除以5一直到特定中止位置的取小數部分。

  隨機重合排列關系專用處理器:在二進制中,隨機找出一個無理數(數據卡尺)和一個有理數數據(需要被轉化為最短表達式的原始數據)的數據重合部分,把這些重合表達為最短表達式,當然,一個原始數據不可能只采用一個數據卡尺。

  發展下去,大數據就需要有專用的數據卡尺服務器,也就是小的數據卡尺服務器,可以常備1000多個數據卡尺,而大的數據卡尺服務器,可以常備千萬億級別的數據卡尺。

  數據卡尺越多,越容易生成最短表達式。

  數據卡尺的用法:

  一元數據卡尺:把原始數據和數據卡尺進行比對,找出其中重合部分,把重合部分記錄為數據卡尺引用段落表達式。

  二元數據卡尺:把原始數據和兩個數據卡尺進行比對,找出其中重合部分,把重合部分記錄為數據卡尺引用段落表達式,當不重合出現時,就對數據卡尺進行偏移運算,準備從兩個數據卡尺的偏移不進位加法或不進位減法中生成能和原始數據重合的段落,從而只需要記錄偏移運算(兩個數據卡尺的偏移數據,開始引用段落起點和結束引用段落終點)和所采用的是不進位加法還是不進位減法。

  三元數據卡尺:把原始數據同長度等分為足夠短的有限位段落,從而讓重合率提高,可以把自身作為數據卡尺,也就是先生成1GB的還原數據,然后以這1GB的數據作為數據卡尺,以此類推。

  快速壓縮方式:常用于緊急數據轉移。

  把大數據同長度等分,然后求出其平均數,設立一個個的分組,比如第一個分組,小于4096而大于512的數,出現過多少次……,然后對一個個數據分組進行校驗碼記錄,這種方式優點是不需要動用數據卡尺,也就不需要連接數據卡尺服務器,保密性相對較好,本身可以采用單機方式運作,可用于極限情況下的數據轉移,缺點是后期還原難度相對引用數據卡尺要高,后期數據還原需要占用足夠多的窮舉運算資源。

  一般情況下,都是采用快速壓縮方式,作為備份的數據糾錯或數據驗算區域,作為一種保險方式,避免壓縮文件被部分篡改或傳輸錯誤導致的數據不可用。

網頁版章節內容慢,請下載好閱小說app閱讀最新內容

請退出轉碼頁面,請下載好閱小說app 閱讀最新章節。