Semalt uddyber på URLitor - Meget cool webskrapning og dataekstraktionsværktøj

URLitor er et nyt, men effektivt værktøj til skrotning og dataekstraktion. For at bruge URLitor skal du bare tilføje en liste over alle de URL'er, det indhold, du vil skrabe online i, den medfølgende skabelon. Derefter skal du specificere det HTML-element, du vil udtrække fra websiderne, og klikke på knappen Send. Det er så let som det. Med dette værktøj behøver du ikke at lave en kopi eller indsætte fra browseren længere.

xPath er et sprog, der bruges til at søge efter oplysninger i XML-filer. Det bruger visse udtryk til at vælge nodesæt eller noder i XML-filer. De udtryk, som XPath forstår, ligner meget dem, der bruges med normale computerfiler eller dokumenter.

Selvom XPath bruges til flere programmeringssprog, er dette værktøj bygget til brugere, der ikke har nogen programmeringsviden. Så du behøver ikke at være programmerer for at gøre brug af det. Med dette værktøj kan du udtrække data fra flere HTML- og XML-sider.

For at gøre det lettere at bruge, er flere ofte anvendte XPath-udtryk forhåndsdefineret til en rullemenu, så brugerne kun har brug for at vælge en af dem afhængigt af deres mål. Meget erfarne brugere af XPath har imidlertid friheden til at bruge deres brugerdefinerede udtryk, når de måtte ønske det.

Værktøjet er designet med en kapacitet på 100 URL'er i en enkelt skrabsession, og det tager maksimalt 10 udtryk på én gang. Med andre ord kan det skrabe data fra højst 100 URL'er ad gangen.

Nogle vigtige tilpassede XPath-udtryk, der kan ændres eller tilføjes, er skitseret lige nedenfor:

1. // div [2] - Dette udtryk vælger den anden div hierarkisk;

2. // link [@ rel = 'kanonisk'] / @ href - Dette udtryk vælger placeringen (ref) for det tag, der bruges til at indstille rel-attributten lig med kanonisk;

3. / html / head / meta [@ name = 'beskrivelse'] / @ indhold - Dette udtryk bruges til valg af indhold;

4. // * [@ class = 'class-name'] - Du kan bruge dette udtryk til at vælge alle elementer med 'class-name' som CSS-klasse;

5. // h2 | // title - Dette udtryk kan bruges til at vælge både den første H2 og sidetitlen;

6. // * [name () = 'h1' eller name () = 'title'] - Dette udtryk fungerer nøjagtigt som det ovenfor. Imidlertid er udtrykket præsenteret bedre, da det er kortere;

7. // * [indeholder (@klasse, 'tommelfinger')] - Dette udtryk vælger hvert element, der har CSS-klasse og indeholder også 'tommelfinger' til ekstraktion;

8. // parent :: * [text () = 'Velkommen'] - Dette udtryk vælger overordnet for ethvert element, der har teksten 'Welcome';

Dette værktøj er en Beta-version og kan stadig arbejde med nogle fejl. Det er dog stadig et godt værktøj for brugere med ringe eller ingen programmeringskendskab, da alle de ofte anvendte udtryk er foruddefineret til en menu som nævnt tidligere.

send email