📚 Skrypty do ekstrakcji i przetwarzania danych bibliograficznych

Repozytorium web_scraping_repo zawiera zestaw skryptów, których celem jest automatyczne pobieranie danych ze stron internetowych - blogów, serwisów i portali literackich (lub związanych z literaturą) - oraz przetwarzanie ich do formy tabelarycznej.
Każdy wiersz wynikowej tabeli odpowiada jednemu rekordowi bibliograficznemu.

Skrypty powstają w ramach projektu: „Bibliografia polskiej internetowej kultury cyfrowej wraz z katalogiem źródeł i archiwum. Uzupełnienie »Polskiej Bibliografii Literackiej«” (NPRH/DN/SP/495736/2021/10), realizowanego w latach 2023–2026. Wynikiem projektu będzie kolekcja iPBL, która zostanie udostępniona na stronach Polskiej Bibliografii Literackiej oraz Europejskiej Bibliografii Literackiej.

📂 Struktura repozytorium

scripts/ – skrypty do web scrapingu i przetwarzania danych (nazwy plików odpowiadają nazwom scrapowanych stron),
data/ – pliki wynikowe w formatach .json, .xlsx (udostępniane tylko wewnętrznie)
functions/ – funkcje pomocnicze używane przez skrypty,

🔹 Główne biblioteki Python używane w skryptach

Do pobierania danych z internetu

requests – pobieranie stron WWW
selenium – automatyzacja przeglądarki i obsługa dynamicznych stron

Do parsowania i analizy HTML

beautifulsoup4 (bs4) – parsowanie HTML i ekstrakcja danych
lxml – parser HTML/XML
regex – zaawansowane dopasowywanie wzorców w tekstach

Do przetwarzania danych

pandas – tworzenie tabel, czyszczenie i sortowanie danych

Biblioteki pomocnicze

tqdm – wyświetlanie paska postępu przetwarzania
datetime – obsługa dat i czasów (standardowa biblioteka)
json – odczyt i zapis danych w formacie JSON (standardowa biblioteka)
concurrent.futures – równoległe przetwarzanie wątków (ThreadPoolExecutor, standardowa biblioteka)

Do zapisu wyników

xlsxwriter lub openpyxl – eksport do Excela (.xlsx)

Name		Name	Last commit message	Last commit date
Latest commit History 347 Commits
.gitignore		.gitignore
Bernadetta_Darska_blog.py		Bernadetta_Darska_blog.py
afisz_teatralny.py		afisz_teatralny.py
afront.py		afront.py
aict.py		aict.py
alicja_rubczak.py		alicja_rubczak.py
artpapier.py		artpapier.py
audycjekulturalne.py		audycjekulturalne.py
bartlebydeangola.py		bartlebydeangola.py
bezprzeginania.py		bezprzeginania.py
bialafabryka.py		bialafabryka.py
biblioteczkaapteczka.py		biblioteczkaapteczka.py
biedrzycki.ipynb		biedrzycki.ipynb
bienczycka.py		bienczycka.py
biuletyn.py		biuletyn.py
biuletynpolonistyczny.py		biuletynpolonistyczny.py
biuroliterackie.py		biuroliterackie.py
blogbup.py		blogbup.py
booklips.py		booklips.py
bookowscy.py		bookowscy.py
bryll.py		bryll.py
bukbuk.ipynb		bukbuk.ipynb
bylamwidzialam.py		bylamwidzialam.py
chalwazwyciezonym.py		chalwazwyciezonym.py
chochlikkulturalny.py		chochlikkulturalny.py
coczytamkonstantemu.py		coczytamkonstantemu.py
contekstualni.ipynb		contekstualni.ipynb
cudanakiju.ipynb		cudanakiju.ipynb
culture_pl.py		culture_pl.py
cultureave.py		cultureave.py
czas_kultury.py		czas_kultury.py
czynna.py		czynna.py
czytam_centralnie.py		czytam_centralnie.py
czytamaja.py		czytamaja.py
czytanieisluchanie.py		czytanieisluchanie.py
czytelniaweb.py		czytelniaweb.py
dakowicz.py		dakowicz.py
dekadaliteracka.py		dekadaliteracka.py
didaskalia.ipynb		didaskalia.ipynb
dom-echa.py		dom-echa.py
dom_literatury.py		dom_literatury.py
domagala.py		domagala.py
drewniakteatr.py		drewniakteatr.py
dwutygodnik.py		dwutygodnik.py
dyskretny_urok_drobiazgow.py		dyskretny_urok_drobiazgow.py
dziadzkielczowa.py		dziadzkielczowa.py
dziennikliteracki.py		dziennikliteracki.py
eelewator.py		eelewator.py
ekopoetyka.py		ekopoetyka.py
eradar.py		eradar.py
esensja.py		esensja.py
eteatr.py		eteatr.py
fahrenheit.py		fahrenheit.py
film_dziennik_pl.py		film_dziennik_pl.py
film_org_pl.py		film_org_pl.py
fragile.py		fragile.py
functions.py		functions.py
gazetakulturalnazelow.py		gazetakulturalnazelow.py
gdybymbylaktorem.py		gdybymbylaktorem.py
godsavethebook.py		godsavethebook.py
goethe.py		goethe.py
grzegorzgiedrys_blogspot.py		grzegorzgiedrys_blogspot.py
hannadikta.py		hannadikta.py
helikopter.py		helikopter.py
hiperrealizm.py		hiperrealizm.py
impresjee.py		impresjee.py
instytutksiazki.py		instytutksiazki.py
intimathule.py		intimathule.py
jacekbochenski.py		jacekbochenski.py
jacekglomb.ipynb		jacekglomb.ipynb
jacekwakar.ipynb		jacekwakar.ipynb
jacpo.py		jacpo.py
jakobe.py		jakobe.py
jaroslawpluciennik.ipynb		jaroslawpluciennik.ipynb
jaroslawpluciennik.py		jaroslawpluciennik.py
jerzy_sosnowski.py		jerzy_sosnowski.py
joannaroszak.py		joannaroszak.py
kempinsky.py		kempinsky.py
kochampolskiekino.py		kochampolskiekino.py
komnen_kastamonu.py		komnen_kastamonu.py
kontent.py		kontent.py
krystynajanda.py		krystynajanda.py
krytycznym_okiem.py		krytycznym_okiem.py
krytykat.ipynb		krytykat.ipynb
krzysztof_jaworski.py		krzysztof_jaworski.py
krzysztof_jaworski_dataclass.py		krzysztof_jaworski_dataclass.py
ksiazkinaostro.py		ksiazkinaostro.py
kultura_gazetapl.py		kultura_gazetapl.py
kultura_trojmiasto.py		kultura_trojmiasto.py
kulturaenter.py		kulturaenter.py
kulturaliberalna.py		kulturaliberalna.py
kulturaupodstaw.py		kulturaupodstaw.py
lapsusofil.py		lapsusofil.py
latarnia_morska.py		latarnia_morska.py
lenarcinski.py		lenarcinski.py
literackakavka.py		literackakavka.py
literackie-skarby.py		literackie-skarby.py
literaturasautee.py		literaturasautee.py
magazyn_suburbia.py		magazyn_suburbia.py
magazynwizje.py		magazynwizje.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

📚 Skrypty do ekstrakcji i przetwarzania danych bibliograficznych

📂 Struktura repozytorium

🔹 Główne biblioteki Python używane w skryptach

Do pobierania danych z internetu

Do parsowania i analizy HTML

Do przetwarzania danych

Biblioteki pomocnicze

Do zapisu wyników

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

📚 Skrypty do ekstrakcji i przetwarzania danych bibliograficznych

📂 Struktura repozytorium

🔹 Główne biblioteki Python używane w skryptach

Do pobierania danych z internetu

Do parsowania i analizy HTML

Do przetwarzania danych

Biblioteki pomocnicze

Do zapisu wyników

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages