Роман К.
6970 сообщений
#14 лет назад
Вот и я создаю идиотскую тему.

Есть список слов. Каждое слово нужно искать на сайтах двух газет расширенным поиском с указанием периода и кое-каких параметров.
Для каждого из слов создаётся отдельный вордовский файл (можно и текстовый, сконвертить сам смогу). В файле сначала идут примеры вхождений слова на одном сайте, затем - на другом. Перед каждым примером указывается номер и дату издания газеты (её выдаёт поиск, она же является ссылкой на саму статью). Затем идут все абзацы, в которых встречается это слово.

Плюс. Если слово встречается в заголовке, то желательно скопировать заголовок и подзаголовок.
Плюс. Если слово встречается в прямой речи, то желательно выписать имя, фамилию и должность того, кто это говорил (оно может находиться где попало, в том числе и не рядом с вхождением).

Сколько примерно будет стоить такой скрипт - база и доплата за плюсы?

Если информации недостаточно - спрашивайте, постараюсь объяснить.
Роман Беляев
16382 сообщения
#14 лет назад
Задача по парсингу или граббингу. Надо разбирать результаты поиска по сайту. В зависимости от сложности источника обычно берут от 20$. Заголовок не проблема, а вот как выбирать прямую речь и особенно имя и фамилия того кто говорил - вопрос.
Евгений О.
2989 сообщений
#14 лет назад
Неплохо бы пациента взглянуть. Что, собственно, представляет из себя результат запроса.
А выделение абзацев, имен, фамилий, должностей, прямой речи напрямую зависит от вида результата. Будет ли там за что зацепиться, чтобы найти эти элементы.
Роман К.
6970 сообщений
#14 лет назад
frig, elosoft,
Результаты поиска выглядат вот так:

(страница с результатами по ссылке не открывается, введите любое слово на пробу)

Роман Беляев
16382 сообщения
#14 лет назад
Источники не сложные, 20-40$ за источник. Как договоришься с исполнителем.
Вадим Т.
3240 сообщений
#14 лет назад
Цитата ("voron_76"):
Плюс. Если слово встречается в прямой речи, то желательно выписать имя, фамилию и должность того, кто это говорил (оно может находиться где попало, в том числе и не рядом с вхождением).

А возможно ли как-то формализовать это? То есть сформулировать правила нахождения имени, фамилии и должности?
Иначе, если ФИО и должность автора может находиться действительно где попало в тексте случайным образом, то данная задача не решаема в автоматическом режиме (современными технологиями).

Если же это требование не учитывать, то да, тогда задача вырождается в простейший парсер (у большинства программеров-фрилансеров полно готовых аналогичных наработок), трудозатраты где-то до двух человеко-часов на источник.
Евгений О.
2989 сообщений
#14 лет назад
frig +1
Кроме прямой речи. ИМХО вряд ли там возможно получить однозначный результат.
Роман Беляев
16382 сообщения
#14 лет назад
Оффтопик
Цитата ("tvv"):
трудозатраты где-то до двух человеко-часов на источник.


tvv, я думаю что там даже меньше. Если никаких проблем с грабом не будет (вроде блокировок), то там два часа на все много
Роман К.
6970 сообщений
#14 лет назад
Цитата ("tvv"):
Цитата ("voron_76"):
Плюс. Если слово встречается в прямой речи, то желательно выписать имя, фамилию и должность того, кто это говорил (оно может находиться где попало, в том числе и не рядом с вхождением).

А возможно ли как-то формализовать это? То есть сформулировать правила нахождения имени, фамилии и должности?

Я тоже не вижу способа это формализовать - поэтому и вынес в плюс (впрочем, указание имени, опциональное требование).

Конкретный вопрос: взялся ли бы кто-нибудь из вас за такую работу? И за сколько?
Вадим Т.
3240 сообщений
#14 лет назад
Цитата ("voron_76"):
Конкретный вопрос: взялся ли бы кто-нибудь из вас за такую работу? И за сколько?

Я не помогу, так как не берусь за задачи, которые мне не интересны с технической точки зрения.
И не хотел бы заниматься грабберами/парсерами вообще, так как давно для себя принял решение не парсить ресурсы без разрешения владельцев этих ресурсов.

А вот за задачу нахождения фамилии и должности автора цитаты мог бы взяться, и потратить на нее несколько дней (бесплатно, так как без гарантии результата, но для некторого N% цитат найти автора, думаю, получится).
Роман Беляев
16382 сообщения
#14 лет назад
voron_76, я бы мог это сделать, но не хочется с тебя брать деньги. И работать бесплатно тоже не хочется . Заведи проект - обязательно откликнется миллион пишущих парсеры. Если никого не найдешь - обсудим.

tvv, а топик заведете с пояснениями как и что делаете? Это всегда так интересно!
Вадим Т.
3240 сообщений
#14 лет назад
Цитата ("frig"):
tvv, а топик заведете с пояснениями как и что делаете? Это всегда так интересно!

Если получится решить задачу, могу даже статью написать, и на хабре запостить )
Роман Беляев
16382 сообщения
#14 лет назад
tvv, ну это если получится. А если не получится, то все равно будет результат. Мне больше не решение интересно, а сам процесс.
Роман К.
6970 сообщений
#14 лет назад
Цитата ("frig"):
voron_76, я бы мог это сделать, но не хочется с тебя брать деньги. И работать бесплатно тоже не хочется .

А это не мне надо. :P

Цитата:
Заведи проект - обязательно откликнется миллион пишущих парсеры. Если никого не найдешь - обсудим.

Ага, а мне в этом миллионе разбираться - кто справится, а кто схалтурит.
Роман Беляев
16382 сообщения
#14 лет назад
вот этот точно сделает, но дороже.
вот этот сделает не точно, но дешевле

Парсер по сути примитивная штуковина. Или работает или нет. Да, есть некоторая стойкость к изменениям источника, но она только некоторая и проверить это можно только после изменения источника
Вадим Т.
3240 сообщений
#14 лет назад
voron_76, если нужно, могу поучаствовать, по поводу цитат и авторов.
Если хотите меня подключить, мне потребуется как можно больше текстов с цитатами, в удобном виде, например один текст в отдельном файле.
Желательно, несколько десятков тысяч таких текстов.
Начать могу и с меньшим количеством, но чем больше будет текстов, тем качественнее будет результат.
Я тогда подумаю, что можно с этим сделать, или смогу найти закономерности, или попробую использовать нейронную сеть.
Андрей Халецкий
3562 сообщения
#14 лет назад
Десятки долларов на парсеры (которые будут дергать контент) - тут все просто.
Админка для всего этого добра десятки-сотни долларов в зависимости от степени навороченности.
Определение авторства цитат - задача нетривиальная, нужно пробовать: временные затраты/стоимость - не ясны (если Вадим берется это делать на таких условиях - немедленно соглашайтесь).