Нужен хитрый парсер
7 сообщений
#13 лет назад
Который вытягивает с сайтов туроператоров информацию о стоимости туров на определенные, заданые пользователем даты.подскажите, с чего начать, как сформулировать задачу для программиста и дайте хотя бы оценку по затратам.
16382 сообщения
#13 лет назад
miishl, так и напишите. Нужен парсер, чтобы брал информацию вот отседова и отведова. И складывал вот сюда вот.
7 сообщений
#13 лет назад
Необходимо написать парсер туров от ведущих туроператоров (около 25)пример, откуда тянуть:
ссылка
Нужно чтобы клиент мог на сайте:
Выбрать город вылета, нужную страну, дату вылета, тип питания, количество звезд и отель.
В результате мы получаем предложения от всех операторов в табличке (не указывая туроператора) , после сортируем их по цене и публикуем на сайте. Клиент должен иметь возможность заказать тур через сайт.
так будет нормально?
16382 сообщения
#13 лет назад
miishl, учитывайте, что под каждый сайт фактически надо свой парсер. При таком количестве они во многом будут пересекаться эти парсеры, но реально с вас будут просить за каждый сайт чуть ли не отдельно. Ну или платформа + за каждый сайт. Порядок будет 20-50$ за сайт, на мой взгляд. Это парсинг. Возможность заказать тур через сайт еще + к цене. Ну и я так понимаю, что сам раздел в котором это будет выводиться тоже надо будет разрабатывать.
Цитата ("miishl"):
так будет нормально?
Текст нормальный. Единственное что - стоит уточнить, если вы имеете ввиду парсинг не в промежуточную базу, а непосредственно при поиске.
7 сообщений
#13 лет назад
Мне написали:Цитата:
Какие вопросы нужо выяснить до начала работы
1. Кого грабим? (ссылка на ресурс)
2. Что грабим?
a. Ссылки на типовые страницы откуда берется информация и пути как мы туда попадаем
b. Описание того что именно собираем
c. Примерный объем/количество страниц
d. Если данные доступны после авторизации – логин-пароль от акаунта
3. Что отдаем?
a. Описание того куда и(или) в каком формате отдаются результаты грабинга
4. Как грабим?
a. Разово или постоянно?
b. На какую глубину? (и как туда «заходим»)
c. С какой скоростью? (как быстро должны пробежать всего донора)
d. Следим ли за обновленими, если да то как?
i. Есть ли на доноре список «последнее добавленное»?
ii. Смотрим ли мы обновления уже полученных элементов? Как долго?
5. Как управляем?
a. Нужна ли админка? Если да – что в ней есть.
b. Как запускается скрипт (вручную/по расписанию/постоянно работает)?
c. Как останавливается скрипт?
6. «Откуда» грабим?
a. На каком сервере/хостинге будет запускаться скрипт/программа?
b. Это должна быть десктопная программа или скрипт/веб-приложение?
Вот теперь пытаюсь понять, как это все описать.
Многое пока не понятно...
Единственное, что я точно знаю - это конечный результат. Он должен быть приблизительно таким: ссылка
Данные взяты на примере тайланда. Понимаю, что это самый крупный поисковик и работает он со всеми туроператорами, однако наша компания работает только с 25 из них, тем самым охватывая весь шарик.
16382 сообщения
#13 лет назад
miishl, из вашего описания все понятно. И кого грабить и как грабить - ждите конкретных вопросов от исполнителя.
3562 сообщения
#13 лет назад
Цитата ("frig"):miishl, из вашего описания все понятно. И кого грабить и как грабить - ждите конкретных вопросов от исполнителя.Шутить изволите?
Цитата:
Необходимо написать парсер туров от ведущих туроператоров (около 25)
пример, откуда тянуть:
]http://www.transaerotour.com/mw.phtml
Как минимум нужно указать по каким параметрам возможен поиск, дать полный список из всех 25 операторов (поверьте, там будет много интересного), и обозначить рамки по требуемой производительности (сколько запросов в минуту-секунду). Без этого оценить такой проект нельзя.
16382 сообщения
#13 лет назад
Цитата ("SmartDesign"):Шутить изволите?
Нет. Чтобы получить от заказчика информацию, ИМХО, мало выдать ему вот тот вот список вопросов. Надо самому их ему задать.
3562 сообщения
#13 лет назад
ИМХО, если проект с неясными перспективами - то лучше не тратить на него много времени, а если заказчик немного напряжется - то сможет получить от потенциальных исполнителей куда более точные оценки.Поверьте, этот проект может стоить далеко за 1000 $, и я не вполне уверен что за него готовы заплатить, поэтому просто в режиме помощи заказчику дал список вопросов которые ему могут помочь.
Кстати, по этой же причине хорошо указывать ориентировочную цену на проект. Так больше шансов получить именно тот уровень на который рассчитываете.
16382 сообщения
#13 лет назад
Цитата ("SmartDesign"):Поверьте, этот проект может стоить далеко за 1000 $
Это я в курсе

Цитата ("SmartDesign"):
и я не вполне уверен что за него готовы заплатить
Именно поэтому хорошо бы сразу называть цену +- километр и если эта цена не испугает заказчика - тогда уже обсуждать.
Цитата ("SmartDesign"):
Так больше шансов получить именно тот уровень на который рассчитываете.
Или не получить ничего, если уровень занижен.
7 сообщений
#13 лет назад
Не на все вопросы я могу дать ответы. в силу технической неподкованности
3562 сообщения
#13 лет назад
Цитата ("miishl"):Не на все вопросы я могу дать ответы. в силу технической неподкованностиНа все и не нужно, хотя бы на те что можете.
Самый главный в вашем случае - по каким параметрам и в каких объемах (на какую глубину и с какой частотой) нужно осуществлять поиск.
7 сообщений
#13 лет назад
Цитата ("SmartDesign"):Самый главный в вашем случае - по каким параметрам
1. город вылета
2. страна или курорт
3. даты вылета
4. количество ночей от х до у
5. звездность отеля
6. тип питания
7/ количество взрослых
8. количество дете
9. возраст детей
Цитата ("SmartDesign"):
и в каких объемах (на какую глубину и с какой частотой) нужно осуществлять поиск.
этот вопрос мне не совсем понятен. можно более подробно разъяснить?
3562 сообщения
#13 лет назад
Цитата ("miishl"):Цитата (SmartDesign):Возможны несколько вариантов решений
и в каких объемах (на какую глубину и с какой частотой) нужно осуществлять поиск.
этот вопрос мне не совсем понятен. можно более подробно разъяснить?
1. реал-тайм поиск без кеширования. Пользователь вводит запрос и скрипт побежал опрашивать все 25 форм, получил от всех результаты - собрал вместе - вывел нам. Если приходит такой же запрос через 10 минут - все повторяется.
2. реал-тайм поиск с кешированием. Пользователь вводит запрос и скрипт побежал опрашивать все 25 форм, получил от всех результаты - собрал вместе - вывел нам - сохранил себе. Если приходит такой же запрос через 10 минут (интервал нужно оговаривать) - результат мгновенно достается из базы, если позже (по истечении времени кеширования) то как будто поиск новый.
3. предварительный поиск (парсинг). Перебираются все предложения по заданным параметрам с заданной периодичностью, результаты поиска выводяться из сохраненных вариантов.
1-ый вариант - точен, но очень медленный (пока всех опросиш)
3-тиый вариант - не очень точен (данные меняются), но очень быстр.
В любом случае советую определиться с бюджетом который вы готовы на это потратить, и исходя из этого выбирать решение. Реал-тайм пасринг с кешированием мне кажется лучшим решением, но по совместительству оно самое дорогое (как часто бывает).
16382 сообщения
#13 лет назад
Реал тайм если параллельными запросами делать - будет не слишком медленно. С кэшированием конечно полегче, но я сомневаюсь, что будут частые попадания в кэш в пределах разумного времени его жизни. В общем либо данные будут устаревать либо кэш просто не будет облегчать поиск.
3562 сообщения
#13 лет назад
При шастании по страницам - будет очень полезно =)Бюджет ок - укажите в проекте будет больше предложений. Завтра смогу обсудить проект по возвращении в офис.
205 сообщений
#13 лет назад
Не проще ли взять франшизу у крупной турфирмы? 

3562 сообщения
#13 лет назад
Цитата ("e1it3"):Не проще ли взять франшизу у крупной турфирмы?Насколько мне известно, нет одной компании, у которой есть все предложения.а заодно и доступ к панели бронирования и прочие блага