Заказываем граббер
3563 сообщения
#14 лет назад
Я сейчас пишу статью о том как правильно заказать/принять заказ на разработку граббера.Вот краткий список вопросов на которые должен ответить заказчик до начала работ:
1. Кого грабим? (ссылка на ресурс)
2. Что грабим?
a. Ссылки на типовые страницы откуда берется информация
b. Описание того что именно собираем
c. Примерный объем/количество страниц
d. Если данные доступны после авторизации – логин-пароль от акаунта
3. Что отдаем?
a. Описание того куда и(или) в каком формате отдаются результаты грабинга
4. Как грабим?
a. Разово или постоянно?
b. На какую глубину? (и как туда "заходим"
c. С какой скоростью? (как быстро должны пробежать всего донора)
d. Следим ли за обновленими, если да то как?
i. Есть ли на доноре список «последнее добавленное»?
ii. Смотрим ли мы обновления уже полученных элементов?
5. Как управляем?
a. Нужна ли админка? Если да – что в ней есть.
b. Как запускается скрипт (вручную/по расписанию)?
c. Как останавливается скрипт?
6. "Откуда" грабим?
a. На каком сервере/хостинге будет запускаться скрипт/программа?
b. Это должна быть программа или скрипт?
буду рад получить отклик (замечания/исправления/дополнения)
11416 сообщений
#14 лет назад
Вопросы хорошие, в самую точку... Было бы интересно почитать статью 205 сообщений
#14 лет назад
Цитата ("SmartDesign"):Вот краткий список вопросов на которые должен ответить заказчик до начала работ:
имхо первый вопрос должен быть: "имеете ли вы право грабить данный контент", после этого вопроса 99% проектов можно отсекать, тк происходит нарушение авторских прав
3563 сообщения
#14 лет назад
Цитата ("e1it3"):Цитата ("SmartDesign"):Популярное заблуждение, сбор инфомрации из открытых источников ничем не наказуем (если ничего не нужно взламывать - источник открытый).Вот краткий список вопросов на которые должен ответить заказчик до начала работ:
имхо первый вопрос должен быть: "имеете ли вы право грабить данный контент", после этого вопроса 99% проектов можно отсекать, тк происходит нарушение авторских прав
Вопросы легальности могут возникать при использовании собранной информации - этот вопрос уже к разработчику не относится.
3563 сообщения
#14 лет назад
Программа/скрипт которая собирает информацию с одного илинескольких "доноров".
3748 сообщений
#14 лет назад
Цитата ("SmartDesign"):Программа/скрипт которая собирает информацию с одного илинескольких "доноров".
а можно как для блондинок?
3563 сообщения
#14 лет назад
Можно, например есть компания которая продает компьютерные комплектующие.Она хочет быть вкурсе цен конкурентов (понятно зачем).
Она приходит на сайт (или сразу ко мне ;-)) и говорит, хочу собирать цены конкурентов из ЯндексМаркета раз в день.
Это можно делать руками (если перечень товаров не большой) или написать специальный скрипт, который будет делать это "автоматом".
11416 сообщений
#14 лет назад
А еще можно собирать все тексты с сайтов, синонимизирорвать их, и размещать у себя на сателлитах, и все это нажатием одной волшебной кнопочки "Бабло" 450 сообщений
#14 лет назад
Цитата ("Hungry_Hunter"):А еще можно собирать все тексты с сайтов, синонимизирорвать их, и размещать у себя на сателлитах, и все это нажатием одной волшебной кнопочки "Бабло"
Так вот откуда вы для своих сатов контент берёте
182 сообщения
#14 лет назад
Цитата ("e1it3"):имхо первый вопрос должен быть: "имеете ли вы право грабить данный контент"
Кто такие вопросы задает, тот без работы будет
171 сообщение
#14 лет назад
Если мне сразу вывалят такой список - чево хатят, а чево нет я ево дольше изучать и понимать будувполне достаточно ссылки на донор, исходники и база получателя.
3563 сообщения
#14 лет назад
Цитата ("mulbergerio"):Если мне сразу вывалят такой список - чево хатят, а чево нет я ево дольше изучать и понимать будуЧто-то я не вполне понял это предложение.
вполне достаточно ссылки на донор, исходники и база получателя.
Ссылки на Яндекс-Маркет, и базы шоп-скрипта явно недостаточно что бы определить сколько будет стоить работа (даже приблизительно).
49 сообщений
#14 лет назад
Цитата:Если мне сразу вывалят такой список - чево хатят, а чево нет я ево дольше изучать и понимать буду
В конечном итоге вам с исполнителем все равно придется "заполнить" этот список по ходу обсуждения. Иначе получится "пойду туда, не знаю куда, принеси то, не знаю что"
PS: писал как то граббер, задание к которому было выслано в довольно похожем на вышеперечисленный список виде, работать было легко и приятно, и лишних вопросов меньше возникало
626 сообщений
#14 лет назад
Цитата ("SmartDesign"):Ссылки на Яндекс-Маркет, и базы шоп-скрипта явно недостаточно что бы определить сколько будет стоить работа (даже приблизительно)
Почему?
3563 сообщения
#14 лет назад
Цитата ("Demiurh"):Цитата (SmartDesign):
Ссылки на Яндекс-Маркет, и базы шоп-скрипта явно недостаточно что бы определить сколько будет стоить работа (даже приблизительно)
Почему?
Хотя бы потому что не ясны требования к объему (весь ли маркет нужно собрать) и к скорости работы (как быстро нужно собрать заданный объем), отсюда не ясно нужно ли делать многопоточный граббер, поддержку прокси и т.д.
13 сообщений
#14 лет назад
Объем сайта (количество страниц) почти никак не влияет на стоимость разработки парсера.программе "по барабану" 1000 страниц грабить или 10000 страниц
от этого увеличивается только время парсинга, а не его стоимость или сложность в разработке.
=====================
Парсер должен иметь свою БД куда и складывается результат. т.е. вопрос "Разово или постоянно?" так же исключаем
за ненужностью... сколько заказчику нужно столько раз он и запустит парсер, а уже сама программа должна
опредлить какие страницы обновились, а какие нет. И в меню парсера должно быть два пункта "Экспорт" (ВСЕГО или ТОЛЬКО НОВЫХ)
=====================
"С какой скоростью? (как быстро должны пробежать всего донора)"
этот вопрос так же можно снять.
парсер должен позволять настраивать количество потоков парсинга и должен уметь загружать
канал подключения к интеренту на 100%
т.е. выкачивать данные настолько быстро насколько это возможно
(исключения только сайты которые банят, в этом случае нужен параметр "пауза"
=====================
>>Как останавливается скрипт?
то же странный вопрос...как закончили парсинг так он самостоятельно и остановится должен
если серверный скрипт, то он должен запускаться на 5-10 минут и останавливаться, т.е.
1. запустился.
2. Если есть что парсить/обновлять, то работать
3. Выполнил текущий "кусок" работы - сохрани результат и остановись
(одновременно можно поставить автозапуск несколько копий)
=====================
а вообще у заказчика достаточно спросить
1. Адрес сайта донора
2. Какая у целевого сайта CMS
3. Что именно парсить? и нужна ли дополнительная обработка (ну там цены поменять или водяные знаки поставить)
4. Какой парсер ему нужен? (десктопный или серверный)
ну и все.... остальное должен решить сам программист...
=====================
я написал более 40 парсеров, чтобы не быть голословным
вот пример одного из моего парсера
архив: dump.ru/file/3752457
пароль к архиву: 1234
и могу сказать что цена в первую очередь зависит от сложности сайта
(от его внутренней структуры и наличия FLASH и AJAX вставок)
и впоследнюю очередь от объема старниц.
3563 сообщения
#14 лет назад
Цитата ("PVA"):я написал более 40 парсеровНе будем меряться, к теме это не относится.
Цитата ("PVA"):
Объем сайта (количество страниц) почти никак не влияет на стоимость разработки парсера.1000 страници и 100 тысяч скорее всего грабятся по-разному.Цитата ("PVA"):
программе "по барабану" 1000 страниц грабить или 10000 страниц
от этого увеличивается только время парсинга, а не его стоимость или сложность в разработке.
Парсер должен иметь свою БД куда и складывается результат. т.е. вопрос "Разово или постоянно?" так же исключаем1. кто сказал что у граббера обязательно должна быть БД?
за ненужностью... сколько заказчику нужно столько раз он и запустит парсер, а уже сама программа должна
опредлить какие страницы обновились, а какие нет. И в меню парсера должно быть два пункта "Экспорт" (ВСЕГО или ТОЛЬКО НОВЫХ)
2. грабить заново каждый раз весь сайт = "разово", постоянно = искать обновления/добавления - эта задача редко решается влоб, если только донор не очень маленький.Цитата ("PVA"):
"С какой скоростью? (как быстро должны пробежать всего донора)"1. грабер не всегда должен быть многопоточным.
этот вопрос так же можно снять.
парсер должен позволять настраивать количество потоков парсинга и должен уметь загружать
канал подключения к интеренту на 100%
т.е. выкачивать данные настолько быстро насколько это возможно
(исключения только сайты которые банят, в этом случае нужен параметр "пауза"
2. иногда (если например грабится что-то что доступно только авторизированным пользователям) при большом объеме и высоким требованиям к скорости - нужно будет не просто делать многопоточность, но еще и работать с разными "пользователями" - это существенно добавляет работы.Цитата ("PVA"):
>>Как останавливается скрипт?Запуск/стоп вручную вы не рассматриваете?
то же странный вопрос...как закончили парсинг так он самостоятельно и остановится должен
если серверный скрипт, то он должен запускаться на 5-10 минут и останавливаться, т.е.
1. запустился.
2. Если есть что парсить/обновлять, то работать
3. Выполнил текущий "кусок" работы - сохрани результат и остановись
(одновременно можно поставить автозапуск несколько копий)
Цитата ("PVA"):
1. Адрес сайта донора2-ой вопрос бесполезен, заказчик редко знает какая CMS у донора, да и информация мало что даст, модули могут изменить ее до не узнаваемости.
2. Какая у целевого сайта CMS
3. Что именно парсить? и нужна ли дополнительная обработка (ну там цены поменять или водяные знаки поставить)
4. Какой парсер ему нужен? (десктопный или серверный)
По остальным я уже отметил, эта инфомрация все равно понадобится, вопрос как вы ее получите, сразу или потом.
Спасибо за отзыв, буду рад конструктивной дискуссии.
1013 сообщений
#14 лет назад
Сам этим не занимаюсь, но вопросы полезные. Сразу все уточняют что надо.