Jdi na navigaci předmětu

09 - Scrapování

Program

  • Dotazy k předchozím tématům
  • Teorie
    • CSS Selektory
    • Symfony BrowserKit
  • Úlohy

Teorie

Odkazy

Praktická část za bod ze cvičení

  • vyberte si nějaký váš oblíbený zpravodajský web
  • vytvořte jednoduchý skript, který vygeneruje HTML soubor obsahující nadpisy a texty všech článků na vámi vybraném webu
  • abyste neutavili cílový server, na který se dotazujete, omezte rozumně počet požadavků (např. 1 požadavek za sekundu, funkce sleep …​)
  • struktura výstupního soubotu může být podobná té následující:
<html>
  <body>
    <h1>Nadpis 1. článku článku</h1>
    <p>Text 1. článku.</p>
    <hr/>
    <h1>Nadpis 2. článku článku</h1>
    <p>Text 2. článku.</p>
    <hr/>
    ...
  </body>
</html>

Domácí úkol