Scrapy парсер официальной документации Python. Поддерживает следующие режимы:
- Получение информации о всех доступных версиях Python и их статусах.
- Сбор статистики количества по статусам всех PEP-документов.
Python 3.9+
Scrapy
lxml
pytest
flake8
- Клонируйте репозиторий и перейдите в директорию проекта:
git clone [email protected]:abramov-v/scrapy_parser_pep.git
cd scrapy_parser_pep
- Создайте и активируйте виртуальное окружение:
python -m venv venv
source venv/bin/activate
- Установите зависимости:
pip install -r requirements.txt
- Запустите парсер:
scrapy crawl pep
После обработки документации, парсер сохранит два .csv файлы в папку results
по маске pep_ДатаВремя.csv
и status_summary_ДатаВремя.csv
Пример документа status_summary_ДатаВремя.csv
Статус | Количество |
---|---|
Active | 35 |
Draft | 39 |
Accepted | 21 |
Final | 338 |
Provisional | 1 |
Superseded | 25 |
Rejected | 126 |
Withdrawn | 68 |
Deferred | 38 |
April Fool! | 1 |
Total | 692 |
Валерий Абрамов
- GitHub: @abramov-v