fix: respect user configuration for work with status codes #812

Mantisus · 2024-12-13T03:55:19Z

Description

Fixes HTTP status code configuration behavior:

additional_http_error_status_codes: Properly triggers errors and retries when specified status codes are encountered
ignore_http_error_status_codes: Correctly treats specified error status codes as successful responses

Issues

Mantisus · 2024-12-13T04:23:18Z

I have already discussed this with @janbuchar. This PR should not introduce any breaking changes. If additional_http_error_status_codes and ignore_http_error_status_codes are not specified, the previous behavior is preserved.

Status codes were previously discussed in PR: #498

However, we have differences with the JS version of crawlee:

Python:

400-499 codes cause errors without retries

JS:

400-499 codes are treated as successful
Exceptions:
- 401, 403, 429 - cause errors with retries
- 406 - causes error without retries and ignores ignoreHttpErrorStatusCodes parameter

janbuchar

Two questions, otherwise LGTM... much better!

src/crawlee/sessions/_session.py

src/crawlee/abstract_http_crawler/_abstract_http_crawler.py

vdusek

Just one last naming thing, otherwise LGTM.

src/crawlee/http_clients/_base.py

vdusek · 2024-12-16T17:10:51Z

However, we have differences with the JS version of crawlee:

Python:

400-499 codes cause errors without retries
JS:

400-499 codes are treated as successful
Exceptions:
401, 403, 429 - cause errors with retries
406 - causes error without retries and ignores ignoreHttpErrorStatusCodes parameter

Any ideas how we want to align it? I believe we do not have issue for that, correct? cc @janbuchar

src/crawlee/sessions/_session.py

janbuchar · 2024-12-17T09:36:24Z

However, we have differences with the JS version of crawlee:
Python:
400-499 codes cause errors without retries
JS:
400-499 codes are treated as successful
Exceptions:
401, 403, 429 - cause errors with retries
406 - causes error without retries and ignores ignoreHttpErrorStatusCodes parameter

Any ideas how we want to align it? I believe we do not have issue for that, correct? cc @janbuchar

I believe apify/crawlee#812 tracks this. I also think that what we do in this PR is the correct way to handle things. The "success on 4xx" in JS is a crutch that prevented retries on such errors, and we can do that more cleanly now (in both implementations).

How does the Python version handle 406 again? Can it be ignored via ignoreHttpErrorStatusCodes?

janbuchar

One more thing - it looks like there are no tests for this behavior - could you add some? test_http_crawler would be an appropriate place I guess.

src/crawlee/basic_crawler/_basic_crawler.py

tests/unit/http_crawler/test_http_crawler.py

fix work with status codes

2fedd74

Mantisus self-assigned this Dec 13, 2024

Mantisus marked this pull request as ready for review December 13, 2024 12:43

Mantisus requested review from janbuchar, vdusek and Pijukatel and removed request for vdusek December 13, 2024 13:21

janbuchar reviewed Dec 13, 2024

View reviewed changes

src/crawlee/sessions/_session.py Show resolved Hide resolved

src/crawlee/abstract_http_crawler/_abstract_http_crawler.py Outdated Show resolved Hide resolved

janbuchar mentioned this pull request Dec 13, 2024

Improve HTTP status code handling apify/crawlee#812

Open

Mantisus mentioned this pull request Dec 13, 2024

Unable to configure retry behavior for status codes 400-499 #756

Closed

vdusek approved these changes Dec 16, 2024

View reviewed changes

src/crawlee/http_clients/_base.py Outdated Show resolved Hide resolved

deduplication code

cc66524

Mantisus requested a review from janbuchar December 17, 2024 02:15

janbuchar reviewed Dec 17, 2024

View reviewed changes

src/crawlee/sessions/_session.py Outdated Show resolved Hide resolved

consistent status check

cc18355

Mantisus requested a review from janbuchar December 17, 2024 13:47

janbuchar reviewed Dec 17, 2024

View reviewed changes

src/crawlee/basic_crawler/_basic_crawler.py Outdated Show resolved Hide resolved

update test for clients errors

3312f99

janbuchar reviewed Dec 18, 2024

View reviewed changes

tests/unit/http_crawler/test_http_crawler.py Show resolved Hide resolved

janbuchar self-requested a review December 18, 2024 16:41

janbuchar approved these changes Dec 18, 2024

View reviewed changes

Mantisus mentioned this pull request Dec 18, 2024

Implementing correct handling of 403 and the other codes that should trigger a SessionError #830

Open

janbuchar merged commit 8daf4bd into apify:master Dec 18, 2024
24 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix: respect user configuration for work with status codes #812

fix: respect user configuration for work with status codes #812

Mantisus commented Dec 13, 2024 •

edited by janbuchar

Loading

Mantisus commented Dec 13, 2024 •

edited

Loading

janbuchar left a comment

vdusek left a comment

vdusek commented Dec 16, 2024

janbuchar commented Dec 17, 2024 •

edited

Loading

janbuchar left a comment

fix: respect user configuration for work with status codes #812

fix: respect user configuration for work with status codes #812

Conversation

Mantisus commented Dec 13, 2024 • edited by janbuchar Loading

Description

Issues

Mantisus commented Dec 13, 2024 • edited Loading

janbuchar left a comment

Choose a reason for hiding this comment

vdusek left a comment

Choose a reason for hiding this comment

vdusek commented Dec 16, 2024

janbuchar commented Dec 17, 2024 • edited Loading

janbuchar left a comment

Choose a reason for hiding this comment

Mantisus commented Dec 13, 2024 •

edited by janbuchar

Loading

Mantisus commented Dec 13, 2024 •

edited

Loading

janbuchar commented Dec 17, 2024 •

edited

Loading