Леонид З.
310 сообщений
#4 года назад
Вопрос такого плана.
По роду деятельности возникает потребность иметь какой-то информатор, назовем его "бот", который будет сообщать, выбранным мною способом о появлении нужной инфы на сайте/сайтах.
Поскольку потребность смазанная, несрочная, не спешу выставлять такую заявку в работу, а просто хочу порассуждать/потрепаться ни о чем конкретном.

Собственно вопрос, сколько может стоить бот, который
- ищет инфу на сайтах (по списку, наверное, который редактируется), по ключевым словам, например "тендер на поставку" или "бесплатная стажировка";
- надо ли разделять сайты по их типу - ведь у форумов и у соцсетей асболютно разные движки;
- как-то хранит полученную инфу, чтобы отличать ее от новинок и не присылать одно и то же;
- мониторит сайты-доноры с заданной периодичностью (час, 3 часа, день), чтобы сайт-донор не занес бота в "нежелательные гости" и не забанил;
- сообщает о новых поступления выбранным способом (телеграм, смска, емейл) и хранит в каком-то файле.
Артем Л.
11416 сообщений
#4 года назад
Стоить может сколько угодно, тут думаю разброс цен будет огромный.
Для начала нужно составить более точное ТЗ о том, что как и откуда должен делать бот и подробно описать алгоритмы его работы.
Движки сайтов тут роли мне кажется не играют, под каждый сайт нужно будет писать отдельный парсер, может получится сделать какой-то уникальный для всех сайтов, если речь о поиске по ключевым словам.
Данные храниться будут скорее всего в вашей базе данных.
Владислав Е.
2868 сообщений
#4 года назад
По сути это парсер. 
Цена от 100 евро за самый простой + стоимость прокси, без них вряд ли получится.
Учитывая, что у вас много сайтов заявлено, то на скромную оплату рассчитывать не приходится, будет явно дорого. Предполагаю от 500 евриков.

P.S. хотел в свое время для сео такой скрипт сделать, чтобы автоматом искал мне площадки (чуть посложнее вашего, но похожий).
В итоге оказалось слишком дорого и нерентабельно, пришлось отказаться от идеи.
Николай С.
323 сообщения
#4 года назад
В чем проблема использовать готовое решение?
Леонид З.
310 сообщений
#4 года назад
А какое?
Георгий А.
513 сообщений
#4 года назад
52buldog52, шикари.до
Николай С.
323 сообщения
#4 года назад
52buldog52, a-parser, datacol и т.д.
Дмитрий Ш.
35 сообщений
#4 года назад
6nickes9, проблема наверняка в том, что задача не такая простая как первично описана заказчиком.

52buldog52, вы пишите о разработке парсера или поискового алгоритма.
Поисковые алгоритмы идут от 1 000 000 рос.рублей.
Парсеры (под серьёзные задачи) от 30 000 рос.рублей за парсер ОДНОГО сайта.
Чтобы узнать точную стоимость, потратьте время, максимально подробно опишите в текстовом документе то как должен работать ваш будущий скрипт. Что именно и где именно он собирает, как он формирует результаты сбора и так далее. Если ленитесь это сделать сами -купите услугу по написанию технического задания (от 100$). После чего, документ с перечнем требований к будущему сайту прикрепляйте в новом тендере с пометкой на оценку и ждите откликов фрилансеров, а так выбирайте того, кто понравится.
Александр Ф.
3318 сообщений
#4 года назад
Тут многое зависит действительно от задачи. Мне один человек написал парсер, я оплатил сотку долларов. Потом вышло так, что доработки привели ещё к сотне долларов. А потом парсер заблокировали - он не мог считать данные и исполнитель предложил ещё за 200 переписать его. На что был негодующий ответ нет. Ведь можно было заплатить для разового скачивания каких то 70 баксов сервису под интересовавший меня ресурс...
Андрей М.
295 сообщений
#4 года назад
На парсеры есть спрос но и предложение такое что цены уходят в ноль и заказчки ведут себя отвратно..

что касается сложного бота по нескольким сайтам. Тут нужно понимать что парсинг каждого из сайтов будет актуален лишь какое то время и его придется время от времени фиксить или переделывать . Поэтому я бы не поленился и сделал очень избыточный комментарий кода.. и сделал расширенный лог всего. Чтобы можно было быстро въехать и увидеть почему перестало работать.
Сидоров В.
918 сообщений
#4 года назад
Так разовое скачивание за 70 баксов это через неделю сделают и без сервисов или парсеров, прямо руками.
Каникулы начнутся только.
Александр Ф.
3318 сообщений
#4 года назад
inter-job, вряд ли, вручную такое количество многомиллионных строк не осилить.
Дмитрий Ч.
2787 сообщений
#4 года назад
+ за датакол.

Самописный парсер на кучу сайтов будет стоит в разы дороже, чем даже если Вы не станете настраивать датакол сами а закажете датаколовским разрабам настройку парсеров и создание нужных плагинов.
Как выше писали - не забывайте, что парсер любой площадки - это временное решение (уже через неделю вас могут забанить, на источнике может смениться верстка и тд...).

На датаколе эти парсеры можно создавать в пару кликов (если они у вас, действительно, простые и простые площадки носители инфы). Так и менять их, исправлять, можно в пару кликов, если что слетело.

С информатором чуть сложнее, но тоже реализуемо на датаколе. У их есть уже готовые плагины смс-информирования. Можно напилить также для телеграм-информирования или емейл-информирования. Такие плагины можете поручить создать как разрабам датакола, так и фриленсерам здесь - возможность создания плагинов очень простая, пшутся они на c# (плагины можно вешать на кучу стадий обработки и сохранения инфы).

п.с. я просто много чего использовал. И датаколом был доволен больше всего. У меня десятки парсеров постоянно активных и многие из них работали на датаколе с кучей плагинов для обработки инфы. В итоге все же и их пришлось переписать на свои парсеры, но только по тому что сильно усложнилась обработка первичных данных парсинга - все нужно было проганять, сверять через кучу таблиц в БД и делать это чз плагины стало не очень удобно. Уходить с решений на датаколе было жалко, т.к. любые правки непосредственно парсеров на нем вносятся безумно просто - самопис, конечно, править дольше )...
Дмитрий Ч.
2787 сообщений
#4 года назад
П.п.с выше писали про прокси.
Прокси не нужны, если не нужно собирать данные ежеминутно с одной площадки. Когда есть возможность парсить одну площадку в течении дня или в течении нескольких дней, прокси, как правило, не нужны. Нужны только аккуратные тайминги между обращениями к источнику.
В ином случае, да, прокси - это отдельная статья расходов с ежемесячным бюджетом. Если нужно лопатить много инфы на источнике (с частыми повторами, проверками...), то выйти может от 100 баксов в месяц на прокси.
Алексей Д.
2 сообщения
#4 года назад
Ну раз ТС хочет потрепаться, то я тоже внесу свои 6.5 копеек.
По теме:
- на каждый сайт надо писать отдельный шаблон для парсинга, а то и вручную выдёргивать данные(если сайт на SPA-технологии например), а иногда просто один запрос послать, если владельцы сайта сделали API к нему. Поэтому цена под каждый будет своя.
- хранят информацию в БД, как обычно. Так же и проверяют совпадение со старыми записями - через БД. Но можно и без неё. В таком случае все данные будут только в чате самого бота. В принципе, если работы с архивами не предусматривается, то и не зачем хранить эти данные.
- запросы раз в час\3 час\день обычно не банятся никем т.к. не создают большую нагрузку на трафик.
- с сообщениями есть нюансы: в РФ с телеграммом могут быть проблемы и возможно придётся прокси покупать\сервер арендовать(но тут от ТЗ зависит); для смс надо подключать смс-шлюз какого-нибудь оператора, что тоже доп. расходы.
А вот данные в файлах хранить не надо - для этого базы данных придумали. Из файлов эти данные потом доставать, фильтровать, проверять и т.д. - одна большая проблема. Особенно если их много накопилось.

По цене тут ничего конкретного не скажешь - слишком много нюансов может быть.