Сколько стоит такой скрипт?

6970 сообщений

#14 лет назад

Вот и я создаю идиотскую тему.

Есть список слов. Каждое слово нужно искать на сайтах двух газет расширенным поиском с указанием периода и кое-каких параметров.
Для каждого из слов создаётся отдельный вордовский файл (можно и текстовый, сконвертить сам смогу). В файле сначала идут примеры вхождений слова на одном сайте, затем - на другом. Перед каждым примером указывается номер и дату издания газеты (её выдаёт поиск, она же является ссылкой на саму статью). Затем идут все абзацы, в которых встречается это слово.

Плюс. Если слово встречается в заголовке, то желательно скопировать заголовок и подзаголовок.
Плюс. Если слово встречается в прямой речи, то желательно выписать имя, фамилию и должность того, кто это говорил (оно может находиться где попало, в том числе и не рядом с вхождением).

Сколько примерно будет стоить такой скрипт - база и доплата за плюсы?

Если информации недостаточно - спрашивайте, постараюсь объяснить.

16382 сообщения

#14 лет назад

Задача по парсингу или граббингу. Надо разбирать результаты поиска по сайту. В зависимости от сложности источника обычно берут от 20$. Заголовок не проблема, а вот как выбирать прямую речь и особенно имя и фамилия того кто говорил - вопрос.

2989 сообщений

#14 лет назад

Неплохо бы пациента взглянуть. Что, собственно, представляет из себя результат запроса.
А выделение абзацев, имен, фамилий, должностей, прямой речи напрямую зависит от вида результата. Будет ли там за что зацепиться, чтобы найти эти элементы.

6970 сообщений

#14 лет назад

frig, elosoft,
Результаты поиска выглядат вот так:

ссылка (страница с результатами по ссылке не открывается, введите любое слово на пробу)

ссылка

16382 сообщения

#14 лет назад

Источники не сложные, 20-40$ за источник. Как договоришься с исполнителем.

3240 сообщений

#14 лет назад

Цитата ("voron_76"):

Плюс. Если слово встречается в прямой речи, то желательно выписать имя, фамилию и должность того, кто это говорил (оно может находиться где попало, в том числе и не рядом с вхождением).

А возможно ли как-то формализовать это? То есть сформулировать правила нахождения имени, фамилии и должности?
Иначе, если ФИО и должность автора может находиться действительно где попало в тексте случайным образом, то данная задача не решаема в автоматическом режиме (современными технологиями).

Если же это требование не учитывать, то да, тогда задача вырождается в простейший парсер (у большинства программеров-фрилансеров полно готовых аналогичных наработок), трудозатраты где-то до двух человеко-часов на источник.

2989 сообщений

#14 лет назад

frig +1
Кроме прямой речи. ИМХО вряд ли там возможно получить однозначный результат.

16382 сообщения

#14 лет назад

Цитата ("tvv"):

трудозатраты где-то до двух человеко-часов на источник.

tvv, я думаю что там даже меньше. Если никаких проблем с грабом не будет (вроде блокировок), то там два часа на все много

6970 сообщений

#14 лет назад

Цитата ("tvv"):

Цитата ("voron_76"):
Плюс. Если слово встречается в прямой речи, то желательно выписать имя, фамилию и должность того, кто это говорил (оно может находиться где попало, в том числе и не рядом с вхождением).

А возможно ли как-то формализовать это? То есть сформулировать правила нахождения имени, фамилии и должности?

Я тоже не вижу способа это формализовать - поэтому и вынес в плюс (впрочем, указание имени, опциональное требование).

Конкретный вопрос: взялся ли бы кто-нибудь из вас за такую работу? И за сколько?

3240 сообщений

#14 лет назад

Цитата ("voron_76"):

Конкретный вопрос: взялся ли бы кто-нибудь из вас за такую работу? И за сколько?

Я не помогу, так как не берусь за задачи, которые мне не интересны с технической точки зрения.
И не хотел бы заниматься грабберами/парсерами вообще, так как давно для себя принял решение не парсить ресурсы без разрешения владельцев этих ресурсов.

А вот за задачу нахождения фамилии и должности автора цитаты мог бы взяться, и потратить на нее несколько дней (бесплатно, так как без гарантии результата, но для некторого N% цитат найти автора, думаю, получится).

16382 сообщения

#14 лет назад

voron_76, я бы мог это сделать, но не хочется с тебя брать деньги. И работать бесплатно тоже не хочется

. Заведи проект - обязательно откликнется миллион пишущих парсеры. Если никого не найдешь - обсудим.

tvv, а топик заведете с пояснениями как и что делаете? Это всегда так интересно!

3240 сообщений

#14 лет назад

Цитата ("frig"):

tvv, а топик заведете с пояснениями как и что делаете? Это всегда так интересно!

Если получится решить задачу, могу даже статью написать, и на хабре запостить )

16382 сообщения

#14 лет назад

tvv, ну это если получится. А если не получится, то все равно будет результат. Мне больше не решение интересно, а сам процесс.

6970 сообщений

#14 лет назад

Цитата ("frig"):

voron_76, я бы мог это сделать, но не хочется с тебя брать деньги. И работать бесплатно тоже не хочется .

А это не мне надо. :P

Цитата:

Заведи проект - обязательно откликнется миллион пишущих парсеры. Если никого не найдешь - обсудим.

Ага, а мне в этом миллионе разбираться - кто справится, а кто схалтурит.

16382 сообщения

#14 лет назад

ссылка вот этот точно сделает, но дороже.
ссылка вот этот сделает не точно, но дешевле

Парсер по сути примитивная штуковина. Или работает или нет. Да, есть некоторая стойкость к изменениям источника, но она только некоторая и проверить это можно только после изменения источника

3240 сообщений

#14 лет назад

voron_76, если нужно, могу поучаствовать, по поводу цитат и авторов.
Если хотите меня подключить, мне потребуется как можно больше текстов с цитатами, в удобном виде, например один текст в отдельном файле.
Желательно, несколько десятков тысяч таких текстов.
Начать могу и с меньшим количеством, но чем больше будет текстов, тем качественнее будет результат.
Я тогда подумаю, что можно с этим сделать, или смогу найти закономерности, или попробую использовать нейронную сеть.

3562 сообщения

#14 лет назад

Десятки долларов на парсеры (которые будут дергать контент) - тут все просто.
Админка для всего этого добра десятки-сотни долларов в зависимости от степени навороченности.
Определение авторства цитат - задача нетривиальная, нужно пробовать: временные затраты/стоимость - не ясны (если Вадим берется это делать на таких условиях - немедленно соглашайтесь).