Scraping Camel

Ako pomáha Scraping Camel

Aplikácia Scraping Camel prechádza HTML stránky webu. Získava z nich informácie. Tieto informácie uloží a vygeneruje z nich jeden výstupný CSV súbor.

Schéma fungovania aplikácie

Ako funguje Scraping Camel

  1. Užívateľ definuje doménu, ktorú má Camel prechádzať. Napr. "https://www.mergado.sk/`.
  2. Užívateľ vykoná overenie domény – podobne ako u Google. Má na výber vloženie META značky do stránok, súboru na web či DNS záznamu. Cieľom je dokázať, že nejde o cudzí web. Scrapovať cudzie weby teraz nie je cieľom aplikácie.
  3. Užívateľ nastaví aké elementy chce z cieľových HTML stránok získavať. Predvolené sú title, meta description a podobne. Ponuka je stručná, pretože používateľ si môže nadefinovať vlastné elementy. To nastaví tak, že buď uvedie HTML kód pred a po danej informácii alebo použije regulárny výraz. Je to veľmi praktické a umožní to získať z HTML stránky takmer akúkoľvek informáciu.
  4. Užívateľ nastaví, ako sa majú vymenovať elementy so získanými informáciami vo výstupnom CSV.
  5. Scraping Camel prejde stránky cieľovej domény. K tomu je potrebné sitemap.xml. Camel berie informácie o stránkach priamo z nej – bez sitemap.xml ho nemožno použiť. Následne vygeneruje výstupný CSV súbor.
  6. Scraping Camel sám automaticky postupne prechádza dlhodobo cieľový web. Ak sa objaví nová stránka, nájde ju a spracuje. Ak sa informácie na existujúcej stránke zmenia, po spracovaní premietne Camel zmeny do výstupného CSV.

K čomu se hodí výstupné CSV

  • SEO analýzy, dátové analýzy produktov, kategórií a podobne. Veľmi široké využitie.
  • Dokáže spracovávať aj weby, ktoré nie sú e-shopom! Ich dáta vie spracovať v Mergade pre PPC DSA Google Ads či inak spracovať obvyklé postupy pro e-shopy.
  • Ak shopsystém užívateľa negeneruje XML (či iné) feedy, môže získať informácie takto a ďalej ich spracovať v Mergade pre reklamné systémy.

Pre koho je Scraping Camel určený

  • Pre marketingových špecialistov z agentúr
  • Pre pracovníkov e-shopov
  • Pre SEO špecialistov, odborníkov na PPC...

Prečo využiť Scraping Camel

  • Umožní vám aplikovať pracovné postupy feed marketingu, ktoré poznáte z e-shopov s XML feedmi, na weby bez košíka.
  • Získate informácie, ktoré sú na webe, ale nie sú v dátovom XML feede.
  • Na rozdiel od desktopových SEO softvérov sú dáta automatizované priebežne a dátové výstupy on-line dostupné pre ďalšie aplikácie či dátové napojenia.
  • Výstupný CSV možno spracovať v Mergade alebo inou aplikáciou.
  • Veľký prínos získaných dát.

Ako vyzerá Scraping Camel

Správa

Pre aktiváciu tejto aplikácie je nutné sa najskôr prihlásiť .

Tipy pre prácu s aplikáciou Scraping Camel.

Overenie domény

Je to podobné ako napr. u Google. Na výber máte z týchto možností overenia:

  • Vložiť súbor do koreňového adresára webu
  • Vložiť META značku do stránok
  • DNS záznam

Sitemap.xml

Scrapovanie webu prebieha tak, že Camel sťahuje sitemap.xml. Z neho získa informácie o stránkach a tie potom navštevuje. Camel získava URL stránok webu iba zo sitemap.xml. Ak stránka v sitemap nie je, nenájde ju.

Regulárne výrazy

Podporované sú štandardné regulárne výrazy. Otestovať výraz si môžete napr. na stránke https://regex101.com/.

Oproti Mergadu je riešená inak práca so skupinami znakov. Skupiny sú označené zátvorkami. V Mergade môžete zapísať viac zátvoriek a v grafickom nástroji vybrať obsah skupiny, ktorú chcete do premennej uložiť. Scraping Camel toto nepodporuje. Vždy uloží prvú skupinu, ktorú v regulárnom výraze nájde. Podobného účinku môžete dosiahnuť nasledujúcim zápisom.

Povedzme, že by užívateľ chcel jedným regulárnym výrazom získať z HTML kódov

<h1 class="page-header"><a id="content-scroll"></a>ABC</h1> <h1>ABC</h1>

získať hodnotu h1 v znení "ABC". Užívateľ má na webe rôzne typy HTML stránok a hlavný nadpis h1 je raz uvedený pozri prvý riadok, druhýkrát pozri druhý riadok. Užívateľ by mohol parsovať h1 do dvoch elementov. To ale nechce. Chce dáta získať jedným regulárnym výrazom a zapísať do jedného elementu. Môže použiť tento zápis:

<h1(?: class="page-header"><a id="content-scroll"></a)?>(.*)</h1>

Všimnite si, že prvá skupina v zátvorkách je označená otáznikmi tak, že sa chápe ako dobrovoľná a nie je chápaná ako premenná k vyparsovaniu.

Hodnotenie

07/12/2023

Užívateľ nezadal text hodnotenia

28/05/2023

Užívateľ nezadal text hodnotenia

15/03/2021

Užívateľ nezadal text hodnotenia