Вопрос к социологам, математикам, программистам
73 повідомлення
#14 років тому
Представьте, вы первыми получаете все новости мира. За час, через вас проходит более 100000 сообщений из 200 тематических групп (политика, экономика, шоу бизнес, биржевые новости и т.д.). Поделим 100000 сообщений на 200 тематических групп и получим 500 сообщений в каждой группе (очень грубо и идеально). Ваша задача из 500 сообщений выделить 5 и преподнести их общественности в качестве новостей в конкретной группе. Какие методы ранжирования сообщений, внутри тематической группы, вы будете использовать? Может ли, задача быть решена математическими методами, результаты вычислений которых, будут коррелировать с результатами опроса общественного мнения, о важности сообщения внутри тематической группы?
2817 повідомлень
#14 років тому
Не вижу трудности применить анализ сообщений и результаты опроса общественности - какие сообщения 5 из 500 набирают больший вес - такие и выводим.. скорее всего по ключевых словах нужно смотреть.А лучше всего - заставить общественность самостоятельно определять самую сенсационную новость, дать возможность голосовать


Алгоритм может отобрать и определить 5 самых лучших из 500 по неким критериям, но не факт что половина новостей будет абсурдной, как это часто бывает.
3240 повідомлень
#14 років тому
Цитата ("ezdorov"):Какие методы ранжирования сообщений, внутри тематической группы, вы будете использовать? Может ли, задача быть решена математическими методами, результаты вычислений которых, будут коррелировать с результатами опроса общественного мнения, о важности сообщения внутри тематической группы?
Да, задача может быть решена математическими, программными и/или другими методами. Но самому с нуля это сделать очень сложно. Вот что можно делать относительно небольшими усилиями:
1. Очень вероятно, что из разных источников могут приходить новости об одних и тех же событиях. Можно предположить, что это важные события... Например, если вдруг в мире что-то серьезное произойдет, сразу практически все новостные источники об этом напишут. Это можно детектить автоматом, и выводить такие новости в первую очередь. Для этого все входящие новости нужно обрабатывать, выделять ключевые слова (например удаляя малоинформативные слова по словарю, сортируя остальные слова по частоте, и т.д.), и, если по каким-то ключевым словам какие-то новости резко выходят в топ, то выводить именно их.
2. Возможно, получится паразитировать на поисковиках, доверяя их алгоритмам и математическим методам. Например, самый простейший способ — можно брать новости, забивать их заголовки в поисковики (выставив режим «за 24 часа»), и посмотреть количество результатов выдачи. Более сложный, но и более верный способ — парсить новости, удалять все малоинформативные слова (см. выше), выделя тем самым ключевые слова, результат опять-таки забивать в поисковики.
3. Также имеет смысл ранжировать источники новостей. Наверняка же они не равнозначны, и наверняка некоторые источники уже отранжировали новости (возможно, вручную). Таким новостям имеет смысл давать более высокий приоритет.
1895 повідомлень
#14 років тому
1. рандом еще никто не отменял2. выводить ТОП-5 самых читаемых новостей (по скачиванию, по всяким там плючикам напр. и т.д.)
чтото более вразумительное врятли удастся подогнать математически
327 повідомлень
#14 років тому
Цитата ("ezdorov"):Ваша задача из 500 сообщений выделить 5 и преподнести их общественности в качестве новостей в конкретной группе.При отсутствии критериев выбора - первые 5 в списке.
Какие методы ранжирования сообщений, внутри тематической группы, вы будете использовать?
Цитата:
Может ли, задача быть решена математическими методами, результаты вычислений которых, будут коррелировать с результатами опроса общественного мнения, о важности сообщения внутри тематической группы?"Популярность у публики" и "важность" — разные критерии.
5330 повідомлень
#14 років тому
Словарную базу создать, делать фильтры по словам, фразам, словосочетаниям.в одной нашей системке сделано еще чуть лучше:
1. составляется "слепок" текста - процент вхождения в него неких слов и словосочетаний, соотношение процентов между собой, наличие группы слов или наоборот - отсутствие нужных слов.
2. Редакторы первое время смотрят новости и выбирают от 1 до 10 "качество текста".
3. система запоминает для параметров из п.1 значения п.2.
4. система отбирает тексты с "запасом", редакторы подтверждают уже не по 1 тыс статей в сутки, а 30-50...
5. спустя 2 года работы редактор на утверждение получает только 5-6-10 статей в сутки в "пограничными" условиями. Всего система обрабатывает более 50 тыс новостей в сутки.
6. ...
7. Profit!!!
3522 повідомлення
#14 років тому
Нанять фрилансеров- новостников 
5330 повідомлень
#14 років тому
Цитата ("kravtsovaV"):Нанять фрилансеров- новостников
они мрут от такой работы, проверено.
больше 2-х недель не протянуть , или при снижении нагрузки вся система не выгодна для заказчика
73 повідомлення
#14 років тому
Ранжировать источники сообщений – это значит решать задачу через задачу. В результате, нужно ответить на вопрос, по какому алгоритму присваивать ранг источнику сообщения. Не решение. Обучающаяся нейросеть, да это вариант. ArtPro – ваш софт существует или вы рассуждаете о возможности реализации?Источник сообщений – коммерческие организации. Существует Общероссийский Классификатор Видов Экономической Деятельности – ОКВЭД. В нем экономическую жизнь общества разбили на отрасли, отрасли поделили на сектора, сектора на группы. Представляю идеальную картину. Любой субъект экономических отношений имеет пресс-службу и интернет сайт. Пресс-служба, публикует сообщения на своем интернет сайте. К интернет сайту привязана RSS лента. Любой желающий может мгновенно получить сообщение, миную, официальны СМИ и коммуникационные агентства.
Пресс-служба каждой организации считает свои сообщения самими важными, но являются ли эти сообщения, объективно важными для группы, сектора, отрасли и экономики в целом? По какому принципу ранжировать сообщения? Вопрос остаеться открытым…
5330 повідомлень
#14 років тому
Цитата ("ezdorov"):ArtPro – ваш софт существует или вы рассуждаете о возможности реализации?
он существует. отслеживает во всем инете упоминание нужной инфы, лиц, объектов, фирм. так же идет поиск и выдача тематическими каналами информации по заданным темам.
Цитата ("ezdorov"):
Пресс-служба каждой организации считает свои сообщения самими важными, но являются ли эти сообщения, объективно важными для группы, сектора, отрасли и экономики в целом? По какому принципу ранжировать сообщения? Вопрос остаеться открытым…
главный вопрос: что Вы вкладываете в важность?
наверняка это ряд факторов и показателей. допустим наличие цифр в тексте в количестве более X% - это повод для складывания в данных в раздел "статистика и цифры" ну и т.п. факторы используются для ранжирования данных.
т.е. логика приложения простая, сложнее настроить систему и создать набор из сотен тыс коэффициентов. это делается в течении достаточно длительного срока и коррекции вносятся постоянно. фактически будет тот же матрикснет яндекса

73 повідомлення
#14 років тому
Цитата ("ArtPro"):он существует. отслеживает во всем инете упоминание нужной инфы, лиц, объектов, фирм. так же идет поиск и выдача тематическими каналами информации по заданным темам.
Дайте ссылку.
5330 повідомлень
#14 років тому
Сами поняли что спросили, для чего и кого сделана такая система и есть ли она в паблике? 
только пол года назад я из под NDA не этому проекту вышел.
есть пара западных контор подобного уровня и там тоже никаких паблик частей нет.
что бы пользоваться такими услугами - надо иметь кучу денег. настолько кучу, что такие люди не будут регистрироваться с каких либо системах или вообще сами ползать в инете.
есть специальные агентства, есть полит технологи, есть центры общественного мнения - они клиенты подобных систем. со стороны никто не лезет.
73 повідомлення
#14 років тому
Нужны группы экспертов на каждую отрасль, сектор, группу. Выдавая экспертам дайджест, с заголовками в виде ссылок на веб странице, можно по числу кликов ранжировать и транслировать общественности.Цитата ("ArtPro"):
есть специальные агентства, есть полит технологи, есть центры общественного мнения - они клиенты подобных систем. со стороны никто не лезет.
Да ладно вам. Гугол, ищет по ключевым словам и выдает в RSS, рассылку. Этот сервис у них называется - уведомления. Я, получаю уведомления через 30 минут после публикации сообщения в любом месте сети.
1895 повідомлень
#14 років тому
Анализ ранжировки через гугл и пр. средства чревати тем что вы совсем не учитываете СЕО, накрутки и т.д., совершенно нет гарантии что контент, который в топе гугла напр. на самом деле так уже и хорош.
5330 повідомлень
#14 років тому
Цитата ("ezdorov"):Да ладно вам. Гугол, ищет по ключевым словам и выдает в RSS, рассылку. Этот сервис у них называется - уведомления. Я, получаю уведомления через 30 минут после публикации сообщения в любом месте сети.
отследите 12 млн упоминаний, коэффициенты "инфошума"?
поиск по ключевым словам - это прошлый век. он нужен только тем, кому заняться нечем. важнее анализировать тексты по смыслу и качеству. по ключевому слову "путин" Вы получите 128972348624 тыс текстов в сутки. 99.9999% из них будут не умнее "путин-краб" или "путин есть детей".
Цитата ("ezdorov"):
можно по числу кликов ранжировать и транслировать общественности.
число кликов кто Вам сообщать будет?
73 повідомлення
#14 років тому
Цитата ("ArtPro"):важнее анализировать тексты по смыслу и качеству. по ключевому слову "путин" Вы получите 128972348624 тыс текстов в сутки. 99.9999% из них будут не умнее "путин-краб" или "путин есть детей".
Вы правы. Есть технологии способные анализировать тексты по смыслу и качеству, находить новые сообщения с минимальной задержкой после публикации?
Цитата ("ArtPro"):
число кликов кто Вам сообщать будет?
Группа экспертов в каждой отрасли, секторе, группе.
1316 повідомлень
#14 років тому
ArtPro, у меня к вам вопрос. Если у вас такой уровень, почему вы говорите про алгоритмы? Если уже анализировать с "кучей денег", то надо ИИ использовать.
Это по сути задача по созданию мини Эшелона. Но ведь Эшелон на логическом языке писали. (вроде какая-то модификация Пролога).
73 повідомлення
#14 років тому
Цитата ("Enkvist"):Это по сути задача по созданию мини Эшелона. Но ведь Эшелон на логическом языке писали. (вроде какая-то модификация Пролога).
Есть ссылка на Эшелон, Пролог?
1316 повідомлень
#14 років тому
ezdorov, ссылка на дитя Эшелона - посилання (а вообще другой ссылки нет, так как это проект АНБ, который очень долгое время всю Европу имел по полной. такие вещи в интернете не светятся. ).
Общие представления можно получить полазив по сайту Европарламента и почитав их разборки. (2001 год).
Пролог, это язык программирования. Тут скорее нужно найти тех, кто на нем что-то сделает ))
73 повідомлення
#14 років тому
Цитата ("ArtPro"):есть пара западных контор подобного уровня и там тоже никаких паблик частей нет.
что бы пользоваться такими услугами - надо иметь кучу денег. настолько кучу, что такие люди не будут регистрироваться с каких либо системах или вообще сами ползать в инете.
есть специальные агентства, есть полит технологи, есть центры общественного мнения - они клиенты подобных систем. со стороны никто не лезет.
Цитата ("Enkvist"):
АНБ
Тема затронула государственные службы безопасности. Почему?