Semalt ger testresultaten för webbskrapningsverktyg

Varje användare står inför två alternativ när de vill använda webbskrapverktyg. De använder antingen en webbskrapa utanför hyllan eller en anpassad skrapa. Medan en anpassad skrapa är ett bättre alternativ, är många människor borta från det på grund av dess höga kostnader. Verktyget måste utvecklas för att passa ditt företag och dina preferenser, så det kräver mycket arbete.

Å andra sidan är skrapor utanför hyllan för generiska eftersom de är utformade för allmänna webbskrapningsuppgifter. De är vanligtvis bättre på vissa webbskrapningsprojekt och gör smaka jobb på andra. För att hjälpa dig att göra rätt val, utsattes vissa webbskrapare för grundliga tester för webbskrotning och resultaten har visats nedan.

Testkriterier

Webskraporna testades på följande vanliga uppgifter för utvinning av data. De testades på deras förmåga att skrapa tabellrapporter, textlistor och inloggningsformulär. Dessutom testades webbskraparna på deras förmåga att extrahera data från dynamiska webbsidor byggda på AJAX. Detta är vanligtvis en av de svåraste uppgifterna för många webbskrapare. Deras förmåga att hantera Captcha testades också. Slutligen testades de på deras förmåga att hantera blocklayout.

Testresultat

Webbskrapningsverktygen som testades är Content Grabber, Visual Web Ripper, Helium Scraper, Screen Scraper, OutWit Hub, Mozenda, WebSundew Extractor, Web Content Extractor och Easy Web Extractor.

Resultaten visade att Content Grabber är det bästa eftersom det presterade utmärkt i alla testade områden. Därför fick den högsta genomsnittliga betyg. Det observerades också att alla webbskrapverktyg kunde skrapa inloggningsformulär och även skrapa data från webbsidor byggda med AJAX. Så om det här är de två skälen till att du behöver en webbskrapa kan du välja vilken som helst av dem. De gjorde alla mycket bra på båda områdena.

Nästa prestanda för Content Grabber är Visual Web Ripper. Det fungerade bra i alla områden men inte så bra som Content Grabber, så det fick ett genomsnittligt betyg på 4,5. Nästa webbverktyg är Helium Scraper. Prestandan är nästan lika bra som Visual Web Ripper. Det enda problemet med Helium Scraper är dess dåliga prestanda vid hantering av blocklayout.

Enligt testresultaten utförs webbskrapningsverktygen i denna ordning: Content Grabber, Visual Web Ripper, Helium Scraper, Screen Scraper, OutWit Hub, Mozenda, WebSundew Extractor, Web Content Extractor och Easy Web Extractor som ger den sämsta prestanda .

Slutsats

Med tanke på testresultaten som analyserats ovan fick Content Grabber ett betyg på 5 i alla testkategorier. Så det är uppenbarligen bäst. Du kanske måste testa det också. Tyvärr drog två skrapor ut ur testet av olika skäl. Utvecklarna av Web Data Extractor och WebHarvy drog sina produkter ur testet.

Trots att de inte deltog i testet lärde sig några saker om dem båda. WebHarvy är utformad för att skrapa data från välformaterade paginerade listor medan Web Data Extractor enbart är för att samla in e-postmeddelanden, webbadresser etc.