Repozytorium web_scraping_repo zawiera zestaw skryptów, których celem jest automatyczne pobieranie danych ze stron internetowych - blogów, serwisów i portali literackich (lub związanych z literaturą) - oraz przetwarzanie ich do formy tabelarycznej.
Każdy wiersz wynikowej tabeli odpowiada jednemu rekordowi bibliograficznemu.
Skrypty powstają w ramach projektu: „Bibliografia polskiej internetowej kultury cyfrowej wraz z katalogiem źródeł i archiwum. Uzupełnienie »Polskiej Bibliografii Literackiej«” (NPRH/DN/SP/495736/2021/10), realizowanego w latach 2023–2026. Wynikiem projektu będzie kolekcja iPBL, która zostanie udostępniona na stronach Polskiej Bibliografii Literackiej oraz Europejskiej Bibliografii Literackiej.
scripts/– skrypty do web scrapingu i przetwarzania danych (nazwy plików odpowiadają nazwom scrapowanych stron),data/– pliki wynikowe w formatach.json,.xlsx(udostępniane tylko wewnętrznie)functions/– funkcje pomocnicze używane przez skrypty,
requests– pobieranie stron WWWselenium– automatyzacja przeglądarki i obsługa dynamicznych stron
beautifulsoup4(bs4) – parsowanie HTML i ekstrakcja danychlxml– parser HTML/XMLregex– zaawansowane dopasowywanie wzorców w tekstach
pandas– tworzenie tabel, czyszczenie i sortowanie danych
tqdm– wyświetlanie paska postępu przetwarzaniadatetime– obsługa dat i czasów (standardowa biblioteka)json– odczyt i zapis danych w formacie JSON (standardowa biblioteka)concurrent.futures– równoległe przetwarzanie wątków (ThreadPoolExecutor, standardowa biblioteka)
xlsxwriterlubopenpyxl– eksport do Excela (.xlsx)