Genetinių duomenų saugojimas artinasi prie kritinio taško, auga sparčiau už Youtube

Komentarai Prisijungti

Viršuje:   Seniausi | Naujausi

Giedriax 2015-07-13 22:33
Vikipedija rašo, kad žmonių genomai skiriasi 0,1%. Įdomumo dėlei parašiau programą, kuri sukuria atsitiktinį 1MB dydžio failą ir daug jo "kopijų" (nuo originalo skyrėsi 0,1%). Bandžiau visus failus "suzipinti" bet vietos mažiau neužėmė, matyt zip algoritmas tam nepritaikytas. Reikia kad kas sukurtų genetinių duomenų suspaudimo algoritmą, nes kai 99,9% duomenų yra vienodi - atminties švaistymas duomenų nesuglaudinti
Creatium 2015-07-13 22:52
Įdomūs tai dalykai. Pavyzdžiui informacijos apdorojimas irgi yra didžiulė bėda. Jau dabar mokslininkai negeba apdoroti visos informacijos, kuri yra kiekvieną dieną 'sukuriama'. Toliau bus tik blogiau, bent kol vėl neprasidės kompiuterių spartos augimas (pvz. kol neatsiras kvantiniai kompiuteriai). Juk analizuojant įvairią informaciją galima atrasti nepaprastai įdomių dalykų. Daugelis pasaulio įmonių, miestų tik dabar atranda principą.
Salubri 2015-07-13 23:26
Noreciau hardo 40 eksabaitu
immortallt 2015-07-13 23:46
Įtariu, kad ne skaičiavimo apribojimai, bet metodų analizuoti trūkumas. O tam jau prireiks laiko. Galbūt kvantiniai kompiuteriai pasitarnaus, o gal nesenai aprašyta programa, kuri pati iškelia hipotezę ir ją patikrina iš jau sukauptų duomenų?
punktyras 2015-07-14 00:52
failiuką 9000 b, suzipinau, gavosi 3356 b
Giedriax 2015-07-14 01:35
nežinau kokia tu čia kalba programavai, bet kiek suprantu tavo programa generavo 4 raidžių kodą kurį pavyko labai gerai suspausti. Paaiškinsiu kokiu principu programą dariau aš (jei reikia galiu paviešinti savo kodą): mano silpna vieta biologija, bet kiek žinau T jungiasi su A, C jungiasi su G (tikslių A, C, T, G pavadinimų neatsimenu) Yra 4 galimybės kaip gali būti sudarytas vienas DNR fragmentas: AT, TA, CG ir GC, juos galima užkoduoti bitais 00,01,10,11. Viename baite (8 bitai) galima sutalpinti po 4 DNR fragmentus, taigi 1MB talpintų daugiau nei 4 milijonus bazinių porų (kiek tai genų - nežinau). Taigi visi baitai galima sakyti yra atsitiktiniai, nes aš padariau prielaidą kad AT, TA, CG, GC pasitaiko su vienoda tikimybe - deja nežinau kaip yra tikrovėje Kalbant apie genų informacijos išsaugojimą - mano mintis būtų paimti statistinio žmogaus DNR kodą, ir išsaugoti tą 0,1% nesutapimą su tuo dnr kodu, taip sutaupant daugybę laisvos atminties kompiuteriuose. P.s. netikiu kad apie mano išsakytą nuomonę iki šiol niekas iš mokslininkų nėra pagalvojęs, tiesiog nežinau to, bet manau kad yra kitokių priežasčių kodėl neįmanoma/nelengva lengvai išsaugoti genų informaciją kompiuteryje
punktyras 2015-07-14 09:09
Skirtumas, aišku, nedidelis. Tačiau svarbu ne (tik) dydis, o ir to skirtumo vieta. Nėra taip, kad yra didelis nekintantis genų balvonas su 0.1% skirtumo kepurėle. Mutacijos gali atsirasti bet kurioje DNR vietoje. Kol nėra išsiaiškinta, kur ir kokia mutacija gali ką nors pakeisti, o kur neturi absoliučiai jokios įtakos, geriau jau išsaugoti viską.