Semaltguide om skrapextensjon for Chrome

For at enhver bedrift skal overleve og til slutt vokse, er det nødvendig å ligge foran sine konkurrenter og ulike risikoer. Å ta beslutninger basert på analytiske data er en sikker måte å glemme disse problemene. Slike data kan skaffes gjennom dataskraping. Det er der enkel skrapeutvidelse for Chrome kommer inn: det vil ikke bare gjøre det lettere med datahøsting, men også gjøre det mulig å skrape på farten uten kompliserte oppsett.

Hvordan bruke Skraper

    1. Det første du trenger å gjøre er å installere utvidelsen, så gå over til Chrome-butikken, søk etter "skraper" og klikk på legg til Chrome.

    2. Naviger til nettstedet du har tenkt å skrape data fra, merk oppføringen du er interessert i ved å merke den. Høyreklikk på den og velg "skrap lignende" på menyen som dukker opp.

    3. Hvis du gjør det, vil du starte et eget vindu med skrapekonsoll. Her vil du se en liste over skrapede data .

    4. For å lagre innholdet, klikk på "lagre i Google-dokumenter". Dette vil automatisk eksportere dataene til et Google-regneark.

Utvidet skraping

I tilfelle du planlegger å skrape mer data, kan du bruke den avanserte tilnærmingen. Merk at det vil være mye lettere å jobbe med verktøyet hvis du har litt kunnskap om HTML. Anta at du ønsket å skrape data fra en kilde som har et arkiv basert på tidsseriedata. I slike tilfeller, hvis du prøver metoden beskrevet over, vil du få de ødelagte dataene.

For å løse dette problemet kan du bruke et HTML- og XML-spørringsspråk kjent som XPath. Hva gjør den? XPath gjenkjenner data angående de forskjellige elementene som finnes i hvert valg. Følgende er en guide for hvordan du kan gjøre det:

1. Gå til Skrape-konsollen, øverst til venstre bør du legge merke til en "XPath" -knapp, klikk på den og fortsett å sette sammen den første tabellen.

2. Du må skrive XPath for riktig element. Den nåværende XPath som inkluderer hele informasjonen vil vises i et format som dette "// div [3] / div [3] / div [2] / div". Elementene <div> blir gjenkjent i HTML-dokumentet av datamaskinen.

3. For å skille gjenkjente data, må du bruke skraperkolonnene. For å gjøre det, må du se etter de forskjellige typene informasjon du har tilgjengelig. Avhengig av dataene du skrap, kan det hende du har titler. Disse titlene er til stede ved siden av hvert sett med data. De er ledsaget av en tag, i dette tilfellet en <b> tag.

4. Bruk og inspiser elementet for å finne og legg <b> -koden til XPath. Nå kan du merke denne første kolonnen som "tittelkolonne", da den vil liste opp titlene. Fortsett med å lage forskjellige XPaths for hver kolonne du trenger.

5. Klikk på skrapingen, og utvidelsen vil automatisk høste dataene og organisere dem i de forskjellige kolonnene du har angitt.