Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Датасет (под)доменов opendata.by #30

Open
abitrolly opened this issue Nov 8, 2019 · 6 comments
Open

Датасет (под)доменов opendata.by #30

abitrolly opened this issue Nov 8, 2019 · 6 comments

Comments

@abitrolly
Copy link
Member

В разделе проекты сайта есть куча проектов, у каждого из которых сайт типа http://elmachina.opendata.by/ но не все сайты живы. Было бы неплохо датасет по всем доменам вести. Какие из них живы, какие нет.

Для начал пройтись регекспом [.\w]*opendata.by по всем страницам сайта, отсортировать и закоммитить. Можно скрипт сделать, который ещё и статус будет проверять периодически.

@abitrolly
Copy link
Member Author

Ну и если есть домены, которые не opendata.by то их тоже надо куда-то в скрипт запихать.

@ushchent
Copy link

Только просьба не ддосить проекты скриптами. Список уже есть на GH https://github.com/opendataby/metadata.

@abitrolly
Copy link
Member Author

@ushchent так они и так лежат - http://elmachina.opendata.by/ - так что просьба не по адресу. Давай лучше посмотрим, как сделать так, чтобы не лежали.

@abitrolly
Copy link
Member Author

В табличку нужна инфа статический сайт или нет, и если не статический, то что используется - язык программирования и БД если есть, очереди. Всё, что может жрать ресурсы.

@ushchent
Copy link

Давай лучше посмотрим, как сделать так, чтобы не лежали.

Чтобы проект работал и развивался, на него должен быть спрос. И наоборот, если спроса нет, то проект развивается только в исключительных случаях. Решить проблему спроса скриптами, на мой взгляд, не получится. Но буду рад ошибиться.

@abitrolly
Copy link
Member Author

Спрос формируется тем, что люди шарят ссылки, поисковые движки их индексируют, и со временем (может лет 10) люди привыкают, что какие-то сайты есть. Но если сайт лежит, то ему ничего не поможет. Аптайм - важный показатель, но способность выживать ссылку на реддите - почти критический.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants