Андрей Халецкий
3563 сообщения
#14 лет назад
Я сейчас пишу статью о том как правильно заказать/принять заказ на разработку граббера.

Вот краткий список вопросов на которые должен ответить заказчик до начала работ:

1. Кого грабим? (ссылка на ресурс)
2. Что грабим?

a. Ссылки на типовые страницы откуда берется информация
b. Описание того что именно собираем
c. Примерный объем/количество страниц
d. Если данные доступны после авторизации – логин-пароль от акаунта
3. Что отдаем?
a. Описание того куда и(или) в каком формате отдаются результаты грабинга
4. Как грабим?
a. Разово или постоянно?
b. На какую глубину? (и как туда "заходим"
c. С какой скоростью? (как быстро должны пробежать всего донора)
d. Следим ли за обновленими, если да то как?
i. Есть ли на доноре список «последнее добавленное»?
ii. Смотрим ли мы обновления уже полученных элементов?

5. Как управляем?
a. Нужна ли админка? Если да – что в ней есть.
b. Как запускается скрипт (вручную/по расписанию)?
c. Как останавливается скрипт?
6. "Откуда" грабим?
a. На каком сервере/хостинге будет запускаться скрипт/программа?
b. Это должна быть программа или скрипт?

буду рад получить отклик (замечания/исправления/дополнения)
Артем Л.
11416 сообщений
#14 лет назад
Вопросы хорошие, в самую точку... Было бы интересно почитать статью
Николай Т.
205 сообщений
#14 лет назад
Цитата ("SmartDesign"):
Вот краткий список вопросов на которые должен ответить заказчик до начала работ:

имхо первый вопрос должен быть: "имеете ли вы право грабить данный контент", после этого вопроса 99% проектов можно отсекать, тк происходит нарушение авторских прав
Андрей Халецкий
3563 сообщения
#14 лет назад
Цитата ("e1it3"):
Цитата ("SmartDesign"):
Вот краткий список вопросов на которые должен ответить заказчик до начала работ:

имхо первый вопрос должен быть: "имеете ли вы право грабить данный контент", после этого вопроса 99% проектов можно отсекать, тк происходит нарушение авторских прав
Популярное заблуждение, сбор инфомрации из открытых источников ничем не наказуем (если ничего не нужно взламывать - источник открытый).
Вопросы легальности могут возникать при использовании собранной информации - этот вопрос уже к разработчику не относится.
Павел Лебедев
3748 сообщений
#14 лет назад


А че это вобще такое?
Андрей Халецкий
3563 сообщения
#14 лет назад
Программа/скрипт которая собирает информацию с одного илинескольких "доноров".
Павел Лебедев
3748 сообщений
#14 лет назад
Цитата ("SmartDesign"):
Программа/скрипт которая собирает информацию с одного илинескольких "доноров".

а можно как для блондинок?
Андрей Халецкий
3563 сообщения
#14 лет назад
Можно, например есть компания которая продает компьютерные комплектующие.
Она хочет быть вкурсе цен конкурентов (понятно зачем).

Она приходит на сайт (или сразу ко мне ;-)) и говорит, хочу собирать цены конкурентов из ЯндексМаркета раз в день.

Это можно делать руками (если перечень товаров не большой) или написать специальный скрипт, который будет делать это "автоматом".
Павел Лебедев
3748 сообщений
#14 лет назад
SmartDesign, круто))
спс
Артем Л.
11416 сообщений
#14 лет назад
А еще можно собирать все тексты с сайтов, синонимизирорвать их, и размещать у себя на сателлитах, и все это нажатием одной волшебной кнопочки "Бабло"
Евгений Кашкаров
450 сообщений
#14 лет назад
Цитата ("Hungry_Hunter"):
А еще можно собирать все тексты с сайтов, синонимизирорвать их, и размещать у себя на сателлитах, и все это нажатием одной волшебной кнопочки "Бабло"

Так вот откуда вы для своих сатов контент берёте
Алексей М.
182 сообщения
#14 лет назад
Цитата ("e1it3"):
имхо первый вопрос должен быть: "имеете ли вы право грабить данный контент"

Кто такие вопросы задает, тот без работы будет
Роман Ч.
171 сообщение
#14 лет назад
Если мне сразу вывалят такой список - чево хатят, а чево нет я ево дольше изучать и понимать буду
вполне достаточно ссылки на донор, исходники и база получателя.
Андрей Халецкий
3563 сообщения
#14 лет назад
Цитата ("mulbergerio"):
Если мне сразу вывалят такой список - чево хатят, а чево нет я ево дольше изучать и понимать буду
вполне достаточно ссылки на донор, исходники и база получателя.
Что-то я не вполне понял это предложение.

Ссылки на Яндекс-Маркет, и базы шоп-скрипта явно недостаточно что бы определить сколько будет стоить работа (даже приблизительно).
Владимир Ш.
49 сообщений
#14 лет назад
Цитата:
Если мне сразу вывалят такой список - чево хатят, а чево нет я ево дольше изучать и понимать буду

В конечном итоге вам с исполнителем все равно придется "заполнить" этот список по ходу обсуждения. Иначе получится "пойду туда, не знаю куда, принеси то, не знаю что"

PS: писал как то граббер, задание к которому было выслано в довольно похожем на вышеперечисленный список виде, работать было легко и приятно, и лишних вопросов меньше возникало
Тут М.
626 сообщений
#14 лет назад
Цитата ("SmartDesign"):
Ссылки на Яндекс-Маркет, и базы шоп-скрипта явно недостаточно что бы определить сколько будет стоить работа (даже приблизительно)

Почему?
Андрей Халецкий
3563 сообщения
#14 лет назад
Цитата ("Demiurh"):
Цитата (SmartDesign):
Ссылки на Яндекс-Маркет, и базы шоп-скрипта явно недостаточно что бы определить сколько будет стоить работа (даже приблизительно)
Почему?

Хотя бы потому что не ясны требования к объему (весь ли маркет нужно собрать) и к скорости работы (как быстро нужно собрать заданный объем), отсюда не ясно нужно ли делать многопоточный граббер, поддержку прокси и т.д.
Владимир Б.
13 сообщений
#14 лет назад
Объем сайта (количество страниц) почти никак не влияет на стоимость разработки парсера.
программе "по барабану" 1000 страниц грабить или 10000 страниц
от этого увеличивается только время парсинга, а не его стоимость или сложность в разработке.

=====================

Парсер должен иметь свою БД куда и складывается результат. т.е. вопрос "Разово или постоянно?" так же исключаем
за ненужностью... сколько заказчику нужно столько раз он и запустит парсер, а уже сама программа должна
опредлить какие страницы обновились, а какие нет. И в меню парсера должно быть два пункта "Экспорт" (ВСЕГО или ТОЛЬКО НОВЫХ)

=====================

"С какой скоростью? (как быстро должны пробежать всего донора)"

этот вопрос так же можно снять.
парсер должен позволять настраивать количество потоков парсинга и должен уметь загружать
канал подключения к интеренту на 100%
т.е. выкачивать данные настолько быстро насколько это возможно
(исключения только сайты которые банят, в этом случае нужен параметр "пауза"

=====================

>>Как останавливается скрипт?

то же странный вопрос...как закончили парсинг так он самостоятельно и остановится должен
если серверный скрипт, то он должен запускаться на 5-10 минут и останавливаться, т.е.
1. запустился.
2. Если есть что парсить/обновлять, то работать
3. Выполнил текущий "кусок" работы - сохрани результат и остановись
(одновременно можно поставить автозапуск несколько копий)

=====================
а вообще у заказчика достаточно спросить
1. Адрес сайта донора
2. Какая у целевого сайта CMS
3. Что именно парсить? и нужна ли дополнительная обработка (ну там цены поменять или водяные знаки поставить)
4. Какой парсер ему нужен? (десктопный или серверный)
ну и все.... остальное должен решить сам программист...

=====================
я написал более 40 парсеров, чтобы не быть голословным
вот пример одного из моего парсера

архив: dump.ru/file/3752457
пароль к архиву: 1234

и могу сказать что цена в первую очередь зависит от сложности сайта
(от его внутренней структуры и наличия FLASH и AJAX вставок)
и впоследнюю очередь от объема старниц.
Андрей Халецкий
3563 сообщения
#14 лет назад
Цитата ("PVA"):
я написал более 40 парсеров
Не будем меряться, к теме это не относится.

Цитата ("PVA"):
Объем сайта (количество страниц) почти никак не влияет на стоимость разработки парсера.
программе "по барабану" 1000 страниц грабить или 10000 страниц
от этого увеличивается только время парсинга, а не его стоимость или сложность в разработке.
1000 страници и 100 тысяч скорее всего грабятся по-разному.Цитата ("PVA"):
Парсер должен иметь свою БД куда и складывается результат. т.е. вопрос "Разово или постоянно?" так же исключаем
за ненужностью... сколько заказчику нужно столько раз он и запустит парсер, а уже сама программа должна
опредлить какие страницы обновились, а какие нет. И в меню парсера должно быть два пункта "Экспорт" (ВСЕГО или ТОЛЬКО НОВЫХ)
1. кто сказал что у граббера обязательно должна быть БД?
2. грабить заново каждый раз весь сайт = "разово", постоянно = искать обновления/добавления - эта задача редко решается влоб, если только донор не очень маленький.Цитата ("PVA"):
"С какой скоростью? (как быстро должны пробежать всего донора)"

этот вопрос так же можно снять.
парсер должен позволять настраивать количество потоков парсинга и должен уметь загружать
канал подключения к интеренту на 100%
т.е. выкачивать данные настолько быстро насколько это возможно
(исключения только сайты которые банят, в этом случае нужен параметр "пауза"
1. грабер не всегда должен быть многопоточным.
2. иногда (если например грабится что-то что доступно только авторизированным пользователям) при большом объеме и высоким требованиям к скорости - нужно будет не просто делать многопоточность, но еще и работать с разными "пользователями" - это существенно добавляет работы.Цитата ("PVA"):
>>Как останавливается скрипт?

то же странный вопрос...как закончили парсинг так он самостоятельно и остановится должен
если серверный скрипт, то он должен запускаться на 5-10 минут и останавливаться, т.е.
1. запустился.
2. Если есть что парсить/обновлять, то работать
3. Выполнил текущий "кусок" работы - сохрани результат и остановись
(одновременно можно поставить автозапуск несколько копий)
Запуск/стоп вручную вы не рассматриваете?


Цитата ("PVA"):
1. Адрес сайта донора
2. Какая у целевого сайта CMS
3. Что именно парсить? и нужна ли дополнительная обработка (ну там цены поменять или водяные знаки поставить)
4. Какой парсер ему нужен? (десктопный или серверный)
2-ой вопрос бесполезен, заказчик редко знает какая CMS у донора, да и информация мало что даст, модули могут изменить ее до не узнаваемости.
По остальным я уже отметил, эта инфомрация все равно понадобится, вопрос как вы ее получите, сразу или потом.

Спасибо за отзыв, буду рад конструктивной дискуссии.
Юрий В.
1013 сообщений
#14 лет назад
Сам этим не занимаюсь, но вопросы полезные. Сразу все уточняют что надо.