Евгений З.
73 сообщения
#14 лет назад
Представьте, вы первыми получаете все новости мира. За час, через вас проходит более 100000 сообщений из 200 тематических групп (политика, экономика, шоу бизнес, биржевые новости и т.д.). Поделим 100000 сообщений на 200 тематических групп и получим 500 сообщений в каждой группе (очень грубо и идеально). Ваша задача из 500 сообщений выделить 5 и преподнести их общественности в качестве новостей в конкретной группе.

Какие методы ранжирования сообщений, внутри тематической группы, вы будете использовать? Может ли, задача быть решена математическими методами, результаты вычислений которых, будут коррелировать с результатами опроса общественного мнения, о важности сообщения внутри тематической группы?
Кирилл Е.
2817 сообщений
#14 лет назад
Не вижу трудности применить анализ сообщений и результаты опроса общественности - какие сообщения 5 из 500 набирают больший вес - такие и выводим.. скорее всего по ключевых словах нужно смотреть.

А лучше всего - заставить общественность самостоятельно определять самую сенсационную новость, дать возможность голосовать .. при очень большой аудитории - это самый оптимальный вариант, кроме того бесплатный .

Алгоритм может отобрать и определить 5 самых лучших из 500 по неким критериям, но не факт что половина новостей будет абсурдной, как это часто бывает.
Вадим Т.
3240 сообщений
#14 лет назад
Цитата ("ezdorov"):
Какие методы ранжирования сообщений, внутри тематической группы, вы будете использовать? Может ли, задача быть решена математическими методами, результаты вычислений которых, будут коррелировать с результатами опроса общественного мнения, о важности сообщения внутри тематической группы?

Да, задача может быть решена математическими, программными и/или другими методами. Но самому с нуля это сделать очень сложно. Вот что можно делать относительно небольшими усилиями:

1. Очень вероятно, что из разных источников могут приходить новости об одних и тех же событиях. Можно предположить, что это важные события... Например, если вдруг в мире что-то серьезное произойдет, сразу практически все новостные источники об этом напишут. Это можно детектить автоматом, и выводить такие новости в первую очередь. Для этого все входящие новости нужно обрабатывать, выделять ключевые слова (например удаляя малоинформативные слова по словарю, сортируя остальные слова по частоте, и т.д.), и, если по каким-то ключевым словам какие-то новости резко выходят в топ, то выводить именно их.

2. Возможно, получится паразитировать на поисковиках, доверяя их алгоритмам и математическим методам. Например, самый простейший способ — можно брать новости, забивать их заголовки в поисковики (выставив режим «за 24 часа»), и посмотреть количество результатов выдачи. Более сложный, но и более верный способ — парсить новости, удалять все малоинформативные слова (см. выше), выделя тем самым ключевые слова, результат опять-таки забивать в поисковики.

3. Также имеет смысл ранжировать источники новостей. Наверняка же они не равнозначны, и наверняка некоторые источники уже отранжировали новости (возможно, вручную). Таким новостям имеет смысл давать более высокий приоритет.
Николай М.
1895 сообщений
#14 лет назад
1. рандом еще никто не отменял
2. выводить ТОП-5 самых читаемых новостей (по скачиванию, по всяким там плючикам напр. и т.д.)

чтото более вразумительное врятли удастся подогнать математически
Владимир М.
327 сообщений
#14 лет назад
Цитата ("ezdorov"):
Ваша задача из 500 сообщений выделить 5 и преподнести их общественности в качестве новостей в конкретной группе.

Какие методы ранжирования сообщений, внутри тематической группы, вы будете использовать?
При отсутствии критериев выбора - первые 5 в списке.

Цитата:
Может ли, задача быть решена математическими методами, результаты вычислений которых, будут коррелировать с результатами опроса общественного мнения, о важности сообщения внутри тематической группы?
"Популярность у публики" и "важность" — разные критерии.
Евгений Б.
5330 сообщений
#14 лет назад
Словарную базу создать, делать фильтры по словам, фразам, словосочетаниям.
в одной нашей системке сделано еще чуть лучше:
1. составляется "слепок" текста - процент вхождения в него неких слов и словосочетаний, соотношение процентов между собой, наличие группы слов или наоборот - отсутствие нужных слов.
2. Редакторы первое время смотрят новости и выбирают от 1 до 10 "качество текста".
3. система запоминает для параметров из п.1 значения п.2.
4. система отбирает тексты с "запасом", редакторы подтверждают уже не по 1 тыс статей в сутки, а 30-50...
5. спустя 2 года работы редактор на утверждение получает только 5-6-10 статей в сутки в "пограничными" условиями. Всего система обрабатывает более 50 тыс новостей в сутки.
6. ...
7. Profit!!!
Виктория К.
3522 сообщения
#14 лет назад
Нанять фрилансеров- новостников
Евгений Б.
5330 сообщений
#14 лет назад
Цитата ("kravtsovaV"):
Нанять фрилансеров- новостников

они мрут от такой работы, проверено.
больше 2-х недель не протянуть , или при снижении нагрузки вся система не выгодна для заказчика
Евгений З.
73 сообщения
#14 лет назад
Ранжировать источники сообщений – это значит решать задачу через задачу. В результате, нужно ответить на вопрос, по какому алгоритму присваивать ранг источнику сообщения. Не решение. Обучающаяся нейросеть, да это вариант. ArtPro – ваш софт существует или вы рассуждаете о возможности реализации?

Источник сообщений – коммерческие организации. Существует Общероссийский Классификатор Видов Экономической Деятельности – ОКВЭД. В нем экономическую жизнь общества разбили на отрасли, отрасли поделили на сектора, сектора на группы. Представляю идеальную картину. Любой субъект экономических отношений имеет пресс-службу и интернет сайт. Пресс-служба, публикует сообщения на своем интернет сайте. К интернет сайту привязана RSS лента. Любой желающий может мгновенно получить сообщение, миную, официальны СМИ и коммуникационные агентства.

Пресс-служба каждой организации считает свои сообщения самими важными, но являются ли эти сообщения, объективно важными для группы, сектора, отрасли и экономики в целом? По какому принципу ранжировать сообщения? Вопрос остаеться открытым…
Евгений Б.
5330 сообщений
#14 лет назад
Цитата ("ezdorov"):
ArtPro – ваш софт существует или вы рассуждаете о возможности реализации?

он существует. отслеживает во всем инете упоминание нужной инфы, лиц, объектов, фирм. так же идет поиск и выдача тематическими каналами информации по заданным темам.

Цитата ("ezdorov"):
Пресс-служба каждой организации считает свои сообщения самими важными, но являются ли эти сообщения, объективно важными для группы, сектора, отрасли и экономики в целом? По какому принципу ранжировать сообщения? Вопрос остаеться открытым…

главный вопрос: что Вы вкладываете в важность?
наверняка это ряд факторов и показателей. допустим наличие цифр в тексте в количестве более X% - это повод для складывания в данных в раздел "статистика и цифры" ну и т.п. факторы используются для ранжирования данных.
т.е. логика приложения простая, сложнее настроить систему и создать набор из сотен тыс коэффициентов. это делается в течении достаточно длительного срока и коррекции вносятся постоянно. фактически будет тот же матрикснет яндекса
Евгений З.
73 сообщения
#14 лет назад
Цитата ("ArtPro"):
он существует. отслеживает во всем инете упоминание нужной инфы, лиц, объектов, фирм. так же идет поиск и выдача тематическими каналами информации по заданным темам.


Дайте ссылку.
Евгений Б.
5330 сообщений
#14 лет назад
Сами поняли что спросили, для чего и кого сделана такая система и есть ли она в паблике?
только пол года назад я из под NDA не этому проекту вышел.

есть пара западных контор подобного уровня и там тоже никаких паблик частей нет.
что бы пользоваться такими услугами - надо иметь кучу денег. настолько кучу, что такие люди не будут регистрироваться с каких либо системах или вообще сами ползать в инете.
есть специальные агентства, есть полит технологи, есть центры общественного мнения - они клиенты подобных систем. со стороны никто не лезет.
Евгений З.
73 сообщения
#14 лет назад
Нужны группы экспертов на каждую отрасль, сектор, группу. Выдавая экспертам дайджест, с заголовками в виде ссылок на веб странице, можно по числу кликов ранжировать и транслировать общественности.

Цитата ("ArtPro"):
есть специальные агентства, есть полит технологи, есть центры общественного мнения - они клиенты подобных систем. со стороны никто не лезет.


Да ладно вам. Гугол, ищет по ключевым словам и выдает в RSS, рассылку. Этот сервис у них называется - уведомления. Я, получаю уведомления через 30 минут после публикации сообщения в любом месте сети.
Николай М.
1895 сообщений
#14 лет назад
Анализ ранжировки через гугл и пр. средства чревати тем что вы совсем не учитываете СЕО, накрутки и т.д., совершенно нет гарантии что контент, который в топе гугла напр. на самом деле так уже и хорош.
Евгений Б.
5330 сообщений
#14 лет назад
Цитата ("ezdorov"):
Да ладно вам. Гугол, ищет по ключевым словам и выдает в RSS, рассылку. Этот сервис у них называется - уведомления. Я, получаю уведомления через 30 минут после публикации сообщения в любом месте сети.

отследите 12 млн упоминаний, коэффициенты "инфошума"?
поиск по ключевым словам - это прошлый век. он нужен только тем, кому заняться нечем. важнее анализировать тексты по смыслу и качеству. по ключевому слову "путин" Вы получите 128972348624 тыс текстов в сутки. 99.9999% из них будут не умнее "путин-краб" или "путин есть детей".

Цитата ("ezdorov"):
можно по числу кликов ранжировать и транслировать общественности.

число кликов кто Вам сообщать будет?
Евгений З.
73 сообщения
#14 лет назад
Цитата ("ArtPro"):
важнее анализировать тексты по смыслу и качеству. по ключевому слову "путин" Вы получите 128972348624 тыс текстов в сутки. 99.9999% из них будут не умнее "путин-краб" или "путин есть детей".


Вы правы. Есть технологии способные анализировать тексты по смыслу и качеству, находить новые сообщения с минимальной задержкой после публикации?

Цитата ("ArtPro"):
число кликов кто Вам сообщать будет?


Группа экспертов в каждой отрасли, секторе, группе.
Антон С.
1316 сообщений
#14 лет назад
ArtPro, у меня к вам вопрос. Если у вас такой уровень, почему вы говорите про алгоритмы?
Если уже анализировать с "кучей денег", то надо ИИ использовать.
Это по сути задача по созданию мини Эшелона. Но ведь Эшелон на логическом языке писали. (вроде какая-то модификация Пролога).
Евгений З.
73 сообщения
#14 лет назад
Цитата ("Enkvist"):
Это по сути задача по созданию мини Эшелона. Но ведь Эшелон на логическом языке писали. (вроде какая-то модификация Пролога).


Есть ссылка на Эшелон, Пролог?
Антон С.
1316 сообщений
#14 лет назад
ezdorov,
ссылка на дитя Эшелона - (а вообще другой ссылки нет, так как это проект АНБ, который очень долгое время всю Европу имел по полной. такие вещи в интернете не светятся. ).
Общие представления можно получить полазив по сайту Европарламента и почитав их разборки. (2001 год).
Пролог, это язык программирования. Тут скорее нужно найти тех, кто на нем что-то сделает ))
Евгений З.
73 сообщения
#14 лет назад
Цитата ("ArtPro"):
есть пара западных контор подобного уровня и там тоже никаких паблик частей нет.
что бы пользоваться такими услугами - надо иметь кучу денег. настолько кучу, что такие люди не будут регистрироваться с каких либо системах или вообще сами ползать в инете.
есть специальные агентства, есть полит технологи, есть центры общественного мнения - они клиенты подобных систем. со стороны никто не лезет.


Цитата ("Enkvist"):
АНБ


Тема затронула государственные службы безопасности. Почему?