Ako pomáha Scraping Camel
Aplikácia Scraping Camel prechádza HTML stránky webu. Získava z nich informácie. Tieto informácie uloží a vygeneruje z nich jeden výstupný CSV súbor.
Ako funguje Scraping Camel
- Užívateľ definuje doménu, ktorú má Camel prechádzať. Napr. "https://www.mergado.sk/`.
- Užívateľ vykoná overenie domény – podobne ako u Google. Má na výber vloženie META značky do stránok, súboru na web či DNS záznamu. Cieľom je dokázať, že nejde o cudzí web. Scrapovať cudzie weby teraz nie je cieľom aplikácie.
- Užívateľ nastaví aké elementy chce z cieľových HTML stránok získavať. Predvolené sú title, meta description a podobne. Ponuka je stručná, pretože používateľ si môže nadefinovať vlastné elementy. To nastaví tak, že buď uvedie HTML kód pred a po danej informácii alebo použije regulárny výraz. Je to veľmi praktické a umožní to získať z HTML stránky takmer akúkoľvek informáciu.
- Užívateľ nastaví, ako sa majú vymenovať elementy so získanými informáciami vo výstupnom CSV.
- Scraping Camel prejde stránky cieľovej domény. K tomu je potrebné sitemap.xml. Camel berie informácie o stránkach priamo z nej – bez sitemap.xml ho nemožno použiť. Následne vygeneruje výstupný CSV súbor.
- Scraping Camel sám automaticky postupne prechádza dlhodobo cieľový web. Ak sa objaví nová stránka, nájde ju a spracuje. Ak sa informácie na existujúcej stránke zmenia, po spracovaní premietne Camel zmeny do výstupného CSV.
K čomu se hodí výstupné CSV
- SEO analýzy, dátové analýzy produktov, kategórií a podobne. Veľmi široké využitie.
- Dokáže spracovávať aj weby, ktoré nie sú e-shopom! Ich dáta vie spracovať v Mergade pre PPC DSA Google Ads či inak spracovať obvyklé postupy pro e-shopy.
- Ak shopsystém užívateľa negeneruje XML (či iné) feedy, môže získať informácie takto a ďalej ich spracovať v Mergade pre reklamné systémy.
Pre koho je Scraping Camel určený
- Pre marketingových špecialistov z agentúr
- Pre pracovníkov e-shopov
- Pre SEO špecialistov, odborníkov na PPC...
Prečo využiť Scraping Camel
- Umožní vám aplikovať pracovné postupy feed marketingu, ktoré poznáte z e-shopov s XML feedmi, na weby bez košíka.
- Získate informácie, ktoré sú na webe, ale nie sú v dátovom XML feede.
- Na rozdiel od desktopových SEO softvérov sú dáta automatizované priebežne a dátové výstupy on-line dostupné pre ďalšie aplikácie či dátové napojenia.
- Výstupný CSV možno spracovať v Mergade alebo inou aplikáciou.
- Veľký prínos získaných dát.
Ako vyzerá Scraping Camel
Správa
Pre aktiváciu tejto aplikácie je nutné sa najskôr prihlásiť .
Tipy pre prácu s aplikáciou Scraping Camel.
Overenie domény
Je to podobné ako napr. u Google. Na výber máte z týchto možností overenia:
- Vložiť súbor do koreňového adresára webu
- Vložiť META značku do stránok
- DNS záznam
Sitemap.xml
Scrapovanie webu prebieha tak, že Camel sťahuje sitemap.xml. Z neho získa informácie o stránkach a tie potom navštevuje. Camel získava URL stránok webu iba zo sitemap.xml. Ak stránka v sitemap nie je, nenájde ju.
Regulárne výrazy
Podporované sú štandardné regulárne výrazy. Otestovať výraz si môžete napr. na stránke https://regex101.com/.
Oproti Mergadu je riešená inak práca so skupinami znakov. Skupiny sú označené zátvorkami. V Mergade môžete zapísať viac zátvoriek a v grafickom nástroji vybrať obsah skupiny, ktorú chcete do premennej uložiť. Scraping Camel toto nepodporuje. Vždy uloží prvú skupinu, ktorú v regulárnom výraze nájde. Podobného účinku môžete dosiahnuť nasledujúcim zápisom.
Povedzme, že by užívateľ chcel jedným regulárnym výrazom získať z HTML kódov
<h1 class="page-header"><a id="content-scroll"></a>ABC</h1>
<h1>ABC</h1>
získať hodnotu h1 v znení "ABC". Užívateľ má na webe rôzne typy HTML stránok a hlavný nadpis h1 je raz uvedený pozri prvý riadok, druhýkrát pozri druhý riadok. Užívateľ by mohol parsovať h1 do dvoch elementov. To ale nechce. Chce dáta získať jedným regulárnym výrazom a zapísať do jedného elementu. Môže použiť tento zápis:
<h1(?: class="page-header"><a id="content-scroll"></a)?>(.*)</h1>
Všimnite si, že prvá skupina v zátvorkách je označená otáznikmi tak, že sa chápe ako dobrovoľná a nie je chápaná ako premenná k vyparsovaniu.