Visu Windows Problēmu Risināšana Un Citas Programmas

Pētnieki: Datubāzes joprojām pārspēj Google MapReduce

Pētnieku komanda otrdien publicēs darbu, kurā parādīts, ka paralēlas SQL datu bāzes darbojas līdz pat 6,5 reizes ātrāk nekā Google Inc. MapReduce datu saspiešanas tehnoloģija.

Google apeja paralēlas datu bāzes un izgudroja MapReduce kā veidu, kā indeksēt globālo tīmekli tās globālajā zemas klases datoru serveru tīklā. Kopš 2008. gada janvāra Google ir izmantojis MapReduce, lai apstrādātu 20 petabaitus datu dienā.



labākā laika uzskaites lietotne iphone

Pagājušā gada novembrī publicēto iekšējo testu rezultātos Google izmantoja MapReduce, kas darbojas 1000 serveros, lai sakārtotu 1 TB datu tikai 68 sekundēs.



Šādi rezultāti ir ieguvuši MapReduce un tās atvērtā pirmkoda Hadoop versiju daudziem faniem, kuri apgalvo, ka tehnoloģija jau ir pārāka par 40 gadus veco relāciju liela mēroga tīkliem, piemēram, mākoņdatošanas infrastruktūrai, un galu galā padarīs datu bāzes novecojis citiem uzdevumiem.

Microsoft tehniskais līdzstrādnieks Deivids Devits un Maikls Stounbrakers, datubāzu nozares leģenda un Vertica Systems Inc. galvenais tehnoloģiju speciālists, kurš līdzautors bija šim dokumentam, iepriekš apgalvoja, ka MapReduce trūkst daudzu galveno funkciju, kas jau ir standartizētas datu bāzēs, un tas parasti bija nozīmīgs solis atpakaļ. '



Darbs ar nosaukumu 'Plaša mēroga datu analīzes pieeju salīdzinājums' apskatāms šeit . Tas noteikti izraisīs karstas diskusijas starp datu junkiem par katras pieejas tehniskajām priekšrocībām. To publicēs IT biedrība, kuras biedri ir 92 000 biedru, Computing Machinery Association (ACM), tā 29. jūnija-2. jūlija numurā. SIGMOD ieraksts datu pārvaldības žurnāls.

Papildus DeWittam un Stonebraker ziņojumam līdzautori bija pieci pētnieki no Brauna universitātes, Jēlas universitātes, MIT un Viskonsinas universitātes.

kā drukāt uz mac

Dokumentā DeWitt un Stonebraker izvirzīja gaļu, pārbaudot divas 100 mezglu paralēlas datu kopas, kurās nav kopīgas informācijas, vienā darbojas kolonnu Vertica, bet otrā-rindu datu bāze no galvenā relāciju pārdevēja, 'pret līdzīgi konfigurētu MapReduce vienu tāda paša izmēra. Serveriem bija 2,4 GHz Intel Core 2 Duo procesori, kuros darbojās 64 bitu Red Hat Enterprise Linux ar 4 GB RAM un divi 250 GB SATA-I cietie diski, kas visi bija savienoti ar Gigabit Ethernet portiem.



Viņu secinājums? Datubāzes 'bija ievērojami ātrākas, un katra uzdevuma īstenošanai bija nepieciešams mazāk koda, taču datu noregulēšana un ielāde prasīja ilgāku laiku,' raksta pētnieki. Datu bāzu kopas, veicot “dažādus analītiskus uzdevumus”, bija no 3,1 līdz 6,5 reizes ātrāk.

kā darbojas tālummaiņas sapulces

MapReduce arī pieprasa izstrādātājiem rakstīt funkcijas vai veikt uzdevumus manuāli, ko lielākajā daļā SQL datu bāzu var veikt automātiski.

Viņi teica, ka MapReduce var būt “labi piemērots izstrādes videi ar nelielu programmētāju skaitu un ierobežotu lietojumprogrammu domēnu”. 'Tomēr šis ierobežojumu trūkums var nebūt piemērots ilgtermiņa un lielāka izmēra projektiem.'

Datu bāzes nozares analītiķis Kērts Monašs piekrita rezultātiem. 'Rezultāti ir diezgan skaidri par labu datu bāzēm,' sacīja Monašs. 'Datu bāzes ir nobriedušāki produkti.'

Pētnieki atzīmē apmēram duci paralēlu datu bāzes pārdevēju, tostarp Teradata, Aster Data, Netezza, DATAllegro (tagad Microsoft), Dataupia, Vertica, ParAccel, Hewlett-Packard, Greenplum, IBM un Oracle.

Rezultāti pastiprināja Monaša pārliecību, ka MapReduce bija labāks tikai dažu veidu uzdevumiem, piemēram, teksta indeksēšanai un Google meklēšanai, vai datu ieguvei.

Pretējā gadījumā 'MapReduce lietošana lielākajai daļai organizāciju ir jēga tikai tad, ja citādi būtu neērti izmantot SQL datu bāzi,' viņš teica.

Pētnieki pieļāva, ka paralēlas datu bāzes, kuras var izveidot liela mēroga tīklos, kas saspiež simtiem terabaitu vai pat petabaitu datu, bija 'daudz grūtāk' nekā Hadoop pareizi instalēt un konfigurēt. Datu ielāde MapReduce vai Hadoop bija arī trīs reizes ātrāka nekā Vertica un 20 reizes ātrāka par nenosaukto datu bāzi, viņi rakstīja.

kā aizsargāties pret ddos ​​uzbrukumu

Pētnieki aizstāv savu testu balstīšanu uz 100 serveru klasteriem, nevis uz 1000 serveru kopām, ko izmanto Google. 'Mūsdienu [datubāzu] augstākā efektivitāte atvieglo nepieciešamību izmantot tik milzīgu aparatūru datu kopās 1-2 PB robežās,' viņi rakstīja. 'Tā kā dažas datu kopas pasaulē pat sasniedz petabaitu lielumu, vispār nav skaidrs, cik MapReduce lietotājiem patiešām ir nepieciešami 1000 mezgli.'