Obsah

Jak se zachází s daty v rámci datových úložišť CESNET?

Práce s daty na úložišti vychází z principů klasického hierarchického přístupu. Uživatel přistupuje na nejvyšší vrstvu diskových polí, na nich používá standardní souborový systém POSIXového typu. Ten má připojen pomocí síťového disku (NFSv4, CIFS) nebo k němu přistupuje pomocí protokolů pro přenosy souborů, jako jsou scp, rsync, (s)ftp(s) či nástrojů jako Globus. Do této kategorie lze řadit i přístupy pomocí dCache (přestože ta je obvykle chápána jako speciální nástroj). Systém hierarchického úložiště data migruje mezi vrstvami úložiště, tj. mezi primárními diskovými poli, poli vypínatelných disků (MAID) a páskami. Detailní nastavení těchto procesů je pro uživatele obvykle skryté a málo zajímavé. Má však vliv na některé aspekty související s kvalitou uložení dat.

Migrační politiky

Nastavením migrační politiky je bezprostředně určena spolehlivost uložení dat ve smyslu odolnosti vůči selhání média nebo části systému pro ukládání dat (struktury souborového systému, databáze zálohovacího nástroje a podobně). Na úložištích byly definovány třídy služeb, které vždy splňují minimální podmínku na počet médií, která mohou selhat předtím, než by došlo ke ztrátě dat. Dokumentace je dostupná na webu Datových úložišť. Pro standardní data jsou použity dvě sady médií, pro data charakteru druhé zálohy jedna sada. Zvláště významná data lze chránit i vytvořením asynchronní repliky na jiné úložiště. Obecně platí, že data jsou uživateli iniciálně kopírována na disková pole chráněná alespoň RAID5. Do stavu předepsaného migrační politikou se data dostanou obvykle do 24 hodin od uploadu. Obecně nicméně neexistuje mechanismus, který by tuto dobu garantoval, závisí na míře provozu na úložišti. Stav migrací je průběžně monitorován, a pokud se cílového stavu nepodařilo dosáhnout, zasáhnou správci úložiště.

Vybavení dat

Pokud uživatel přistoupí k datům, která nebyla delší dobu používána a jejich datové bloky nejsou na primárních diskových polích, ale na páskách nebo polích MAID, systém je automaticky začne připravovat. Přestože typickým chováním systému je, že soubory velikosti desítek až stovek GB vystavuje nejvýše v řádu jednotek minut a obvykle spíše sekund, technicky nelze dát záruku na maximální dobu takové operace. V případě akutních požadavků je nicméně možno administrátorským zásahem příslušnou operaci prioritizovat a pak lze očekávat rychlost čtení dat 200 MB/s na každou použitou páskovou mechaniku. Požadavky na dobu vystavení archivních dat je vhodné vždy konzultovat se správci úložiště a zvolit vhodnou metodu organizace souborů, která minimalizuje rozprostření souvisejících souborů na řadu pásek.

Je třeba ale mít na mysli, že úložiště jsou koncipována jako archivní, jejich primárním účelem je uchování dat. Pro službu garantované doby do vystavení by bylo potřeba pořídit významné zdroje navíc (zejména páskové mechaniky). Vzhledem ke komplexnosti systémů úložišť a provázanosti jejich jednotlivých aspektů jsou uživatelé nabádáni k tomu, aby své požadavky se správci úložiště důkladně prodiskutovali. Informace o jejich konfiguraci jsou v takové diskusi uživatelům vždy plně dostupné, bylo by ale od správců úložiště nezodpovědné je redukovat do podoby obecného popisu a předstírat, že se lze obejít bez důkladné analýzy a pochopení potřeb uživatele.

Integrita dat

Jako je zcela běžné pro systémy ukládání dat, úložiště samotné neposkytuje detekční nástroje pro změnu bitstreamu dat (bit rot). Nedokáže tedy samo rozpoznat situaci, kdy se z úložiště získaný binární obraz souboru liší od toho, který byl původně uložen. Proto byly připraveny nástroje, které na uložených datech vypočítají hash MD5 a uloží jej v rozšířených metadatech souborů. To se stane obvykle do 24 hodin od uzavření souboru na úložišti. Uživatelé budou mít k dispozici nástroj, kterým tyto součty mohou ověřit a exportovat pro kontrolu dat vykopírovaných na jiné úložiště. Nástroj je pro uživatele k dispozici na úložištích v Jihlavě a Brně. Objemy dat, které úložišti protékají, a dostupný výpočetní výkon limitují použití bohatšího repertoáru kontrolních součtů, tato funkcionalita je ovšem považována za zásadní prostředek pro detekci bitových chyb. Protože takové incidenty jsou za normálních okolností velmi vzácné, pro vyřešení jejich výskytu je nezbytný zásah správce úložiště (např. pro obnovu dat z jiné kopie).

Likvidace dat

Data uživatelů, kteří neprodloužili členství ve virtuální organizaci, je správce úložiště oprávněn smazat. Minimální doba retence dat při neprodloužení členství je uvedena v pravidlech použití datových úložišť.