09 - Scrapování
Program
- Dotazy k předchozím tématům
- Teorie
- CSS Selektory
- Symfony BrowserKit
- Úlohy
Teorie
Odkazy
Praktická část za bod ze cvičení
- vyberte si nějaký váš oblíbený zpravodajský web
- vytvořte jednoduchý skript, který vygeneruje HTML soubor obsahující nadpisy a texty všech článků na vámi vybraném webu
- abyste neutavili cílový server, na který se dotazujete, omezte rozumně počet požadavků (např. 1 požadavek za sekundu, funkce sleep …)
- struktura výstupního soubotu může být podobná té následující:
<html> <body> <h1>Nadpis 1. článku článku</h1> <p>Text 1. článku.</p> <hr/> <h1>Nadpis 2. článku článku</h1> <p>Text 2. článku.</p> <hr/> ... </body> </html>