Антон С.
1316 сообщений
#14 лет назад
ezdorov, все просто. У америкосов есть Эшелон. Через него проходят огромные потоки информации. Он их успешно анализирует. А потом выдает аналитику, которая используется для ведения бизнеса. Это миллиарды долларов.
Потом они на основе Эшелона (после скандала) сделали Гугл. Гугл тоже стал давать безумное количество денег.
Теперь они делают систему, которая сама программы пишет, как я слышал, успешно... Это снова куча денег.

P.S. Кто владеет информацией и знает, как ею воспользоватся - тот еще много чем владеет.
Евгений З.
73 сообщения
#14 лет назад
Цитата ("Enkvist"):
Теперь они делают систему, которая сама программы пишет, как я слышал, успешно... Это снова куча денег.


Программно-аппаратный комплекс пишет программы без участия людей?
Антон С.
1316 сообщений
#14 лет назад
ezdorov, с участием. система только кодирует. (раньше это делали индусы). к сожалению, я в данном вопросе имею очень поверхностные знания, так как с АНБ не связан. Я слышал, что нужен программист, который правильно этому ИИ поставит задачу. А тот уже дальше сам напишет алгоритм.
P.S. В принципе, эта информация не имеет особой ценности, так как АНБ жестко контролирует тех, кто такое может делать и из под своего крыла не отпустит. (В СССР тоже были люди , которые начинали этим делом заниматся. Подавляющее большинство давно в США).
Возможно вам удастся найти кого-то, кто заинтересован этой темой и имеет достаточно мозгов, а потому склепает что-то относительно простенькое для вас.
Евгений З.
73 сообщения
#14 лет назад
Не люблю центральные СМИ, в них не содержится полезной для меня и моей семьи информации. Даже наоборот, сочувствующая бабушка, только хуже себя чувствует, после простора новостей по ТВ. Сомневаюсь, уже последние 10 лет, что выбор 15-20 новостей дня, редакторами центральных СМИ верный, и без этой информации в моей жизни, и жизни моей семьи произойдет катастрофа.
Антон С.
1316 сообщений
#14 лет назад
ezdorov,
1) информационный шум забивает пространство - за это определенным людям платят деньги и не только.
2) в них не содержится полезной для меня и моей семьи информации - вам не кажется глупой сама идея, что кто-то придет и даст вам что-то хорошее?
3) редакторами центральных СМИ верный - абсолютно верный. в последние годы пиарное агенство в РФ достигло огромных результатов. Количество мифов в сознании среднестатистического россиянина = 99%. остальной процент под подозрением.
4) хочу чтобы люди сами решали, какая новость заслуживает их внимания, а какая нет - эмм... а кто вам сказал, что 1000 жертв современной мифилогии смогут дать реальную оценку?
Евгений З.
73 сообщения
#14 лет назад
Цитата ("Enkvist"):
Количество мифов в сознании среднестатистического россиянина = 99%. остальной процент под подозрением.


Боже, надеюсь у меня другое распределение процентов!

Цитата ("Enkvist"):
а кто вам сказал, что 1000 жертв современной мифилогии смогут дать реальную оценку?


А вы не сгущаете краски? :-)
Антон С.
1316 сообщений
#14 лет назад
ezdorov, а чему вы так удивляетесь? задача элиты - загадить мозг низовки так, чтобы низовкой можно было легко управлять. для этого есть: садик, школа, институт, церковь, телевизор, газеты, радио, слухи, авторитетные источники, нобелевская премия и т.д. ))
Каждый источник распостроняет мифы по заказу своих хозяев ) . Вот сколько верите - столько у вас в голове и мифов.
Евгений З.
73 сообщения
#14 лет назад
Уххх... отлегло от сердца... Я неуч, атеист, циник, не имею авторитетов, на работе создаю сообщения для СМИ, все ставлю под сомнение, даже информацию с моих каналов восприятия (ВАК). Извините за откровенность, но разговор сместился и стал откровенным.
Антон С.
1316 сообщений
#14 лет назад
>А вы не сгущаете краски? :-)
Нет. У вас есть знания в каком-то вопросе, который реально чего-то стоит. задайте народу этот вопрос. узнаете много нового.
Евгений З.
73 сообщения
#14 лет назад
Цитата ("Enkvist"):
У вас есть знания в каком-то вопросе, который реально чего-то стоит. задайте народу этот вопрос. узнаете много нового.


Для меня этот вопрос бессмысленный, я народ. Что вы имеете ввиду? В чем измеряется стоимость знания?
Антон С.
1316 сообщений
#14 лет назад
ezdorov, отвечу вас иначе.
1) У каждого источника есть хозяин.
2) У каждого хозяина есть интерес.
3) Реальная информация дает возможность достигать целей тому , кто ее имеет. Соответственно, знания о реальности могут быть у хозяина источника.
4) Информация искажется таким образом, чтобы положительный результат имел хозяин источника - все остальное значения не имет.
Вот так вот получается 100% мифилогизация абсолютно всего. Каждый врет себе в угоду. В сумме получается только ложь.
Система вытаскивания информации, приближенной к правде, из лжи строится не на массовости тех, кто эту анализирует информацию, а на умении эту информацию анализировать.

P.S. Сделайте систему с лайками и не мучайтесь.

Стоимость знания измеряется тем, что можно получить применив это знание. (трату времени, негативные установки, не уменее жить, деньги, власть, здоровье, счастье, умение жить, самореализацию и т.д.)
Евгений З.
73 сообщения
#14 лет назад
Цитата ("Enkvist"):
Стоимость знания измеряется тем, что можно получить применив это знание.


Да!
Антон С.
1316 сообщений
#14 лет назад
ezdorov, так что вы думайте, что вы делать будете. по сути, вы предлагаете сделать аккумулятор человеческой глупости. то-есть, очередную помойку.
для очередной помойки никакого логического программирования не надо.
Вадим Т.
3240 сообщений
#14 лет назад
Цитата ("ArtPro"):
поиск по ключевым словам - это прошлый век. он нужен только тем, кому заняться нечем. важнее анализировать тексты по смыслу и качеству. по ключевому слову "путин" Вы получите 128972348624 тыс текстов в сутки. 99.9999% из них будут не умнее "путин-краб" или "путин есть детей".

Проблема в том, что на данный момент не существует математических методов и алгоритмов, способных анализировать тексты по смыслу и качеству. В том числе и ИИ от этого всё ещё весьма далек, в том числе с учетом обучения тех же нейронных сетей людьми-операторами вручную, и в том числе с использованием генетических алгоритмов, и т.д.

Анализ по ключевым словам и фразам — это настоящее. Старый добрый статистический поиск. Поисковики еще к этому добавляют поиск по своим базам знаний, но к данной задаче в этом топике это не относится. IMHO вот и всё, чем на данный момент располагает человечество в данной области. Увы.

По поводу зашумления выдачи я уже писал выше. Самый простой способ, который реально работает — включать бесполезные для получения качественного результата слова и выражения в словарь ключевых слов и фраз, которые или вообще не обрабатывать алгоритмом, или же обрабатывать с очень низким весовым коэффициентом. Этого может быть достаточно для получения приемлемого результата.

===
Примечание по ключевому слову «Путин». Я бы не исключал как раз это ключевое слово из выдачи. Так как можно допустить, что новость, в заголовке которой или в тексте которой присутствует например фамилия Путин, или фамилия другого очень известного человека, может быть весьма популярной и нужной. В частности, такая новость может быть намного более ценной для всего рунета в целом, чем большинство обыденных новостей того или иного региона (например с указанием имен провинциального начальства). В общем, повторюсь, статистический анализ на данный момент — это наше всё.

А защититься от левых новостей, проскочивших через статистический фильтр, можно и путем ручной модерации. Так как обработать и отмодерировать 5 новостей, полученных статистическим алгоритмом в результате, вручную не так уж и сложно.
Евгений З.
73 сообщения
#14 лет назад
Цитата ("Enkvist"):
ezdorov, так что вы думайте, что вы делать будете. по сути, вы предлагаете сделать аккумулятор человеческой глупости. то-есть, очередную помойку.
для очередной помойки никакого логического программирования не надо.


Нет дорогой друг. Предполагаю собирать сообщения, источник которых корпорации в разных секторах экономики. Люди денег, соображают более эффективно и знают больше, чем трудовые массы. Меня мало интересует сообщения из сфер шоу бизнеса, спорта и т.д. Например, группа экспертов из сферы добыча сырой нефти и природного газа - разведка нефтяных месторождений, смогут кликами по заголовкам, определить важные сообщения из своей сферы.

Цитата ("tvv"):
или же обрабатывать с очень низким весовым коэффициентом


Нужно мерить комапнии из одного сегмента, традиционными для экономистов показателями - доля, капитализация. Чем выше показатель, тем большую важность имеют сообщения от источника. Логика простая - важность сообщения от Wal-Mart выше, чем X5 retail group.
Вадим Т.
3240 сообщений
#14 лет назад
Цитата ("ezdorov"):
Нужно мерить комапнии из одного сегмента, традиционными для экономистов показателями - доля, капитализация. Чем выше показатель, тем большую важность имеют сообщения от источника. Логика простая - важность сообщения от Wal-Mart выше, чем X5 retail group.

Все правильно, именно про это я и пишу.
Нужно будет вести список ключевых слов и фраз, где для них будут проставлены весовые коэффициенты. Для каждой категории (экономика, политика и т.д.) будут свои подобные списки. Этим можно заниматься вручную, или же можно использовать нейронную сеть, разработав при этом алгоритм простановки весовых коэффициентов, и затем обучив её (к сожалению, обучать все равно придется вручную). Или же первое время можно использовать результаты выдачи поисковиков для первичного задания начальных значений весовых коэффициентов ключевых слов и фраз, используемых в той же нейронной сети.

Вот пример гугла:
"Wal-Mart" — результатов: примерно 158 000 000
"X5 retail group" — результатов: примерно 6 290 00
То есть первоначально ключевой фразе Wal-Mart можно выставить более высокий весовой коэффициент, чем "X5 retail group", примерно в 25.12 раз.
Евгений З.
73 сообщения
#14 лет назад
Цитата ("tvv"):
Вот пример гугла:
"Wal-Mart" — результатов: примерно 158 000 000
"X5 retail group" — hезультатов: примерно 6 290 00
То есть первоначально ключевой фразе Wal-Mart можно выставить более высокий квесовой коффициет, чем "X5 retail group", примерно в 25.12 раз.


Метод!

Цитата ("tvv"):
Вот пример гугла:
"Wal-Mart" — результатов: примерно 158 000 000
"X5 retail group" — hезультатов: примерно 6 290 00
То есть первоначально ключевой фразе Wal-Mart можно выставить более высокий весовой коффициет, чем "X5 retail group", примерно в 25.12 раз.


А если поработали спамеры? Забили сеть малозначительной информации о источнике, то коэффициент будет некорректный. Надо присваивать коэффициент на основе экономических показателей и публичной отчетности - как ни крути, но объем продаж более объективный фактор.
Вадим Т.
3240 сообщений
#14 лет назад
Цитата ("ezdorov"):
А если поработали спамеры? Забили сеть малозначительной информации о источнике, то коэффициент будет некорректный. Надо присваивать коэффициент на основе экономических показателей и публичной отчетности - как ни крути, но объем продаж более объективный фактор.

Да, вариант со спамерами возможен. Поэтому я и предлагаю использовать этот подход с поисковиками для задания _начальных_ весовых коэффициентов. Это довольно быстро можно сделать, и запустить проект в работу. А потом уже, постепенно, доводить модель до ума, исправлять весовые коэффициенты с учетом разных показателей, фильтровать спамеров, и т.д.
Евгений Б.
5330 сообщений
#14 лет назад
Цитата ("ezdorov"):
Вы правы. Есть технологии способные анализировать тексты по смыслу и качеству, находить новые сообщения с минимальной задержкой после публикации?

rss каналы + роботы настраиваются на часть ресурсов в зависимости от скорости написания постов. обновлять можно как угодно быстро, главное, что бы каналы позволяли. в принципе 1Gb канал достаточен для многого. цена вопроса всего 17-40 тыс в месяц.

Цитата ("Enkvist"):
Если уже анализировать с "кучей денег", то надо ИИ использовать.

Вы слишком футуристично-самонадеянно используете словосочетание ИИ

Цитата ("tvv"):
Проблема в том, что на данный момент не существует математических методов и алгоритмов, способных анализировать тексты по смыслу и качеству

а и не надо. все относительно просто.
поиск слепков текста по нечетким условиям с самообучением (в нудных рамках) - это работа не сложнее (а точнее проще) что делает файнридер или любая библиотека по распознаванию текста.
я не буду писать огромную статью по поводу нечеткого поиска текста или "смысловых групп" и т.п. , но в реальности все проще, чем Вы думаете. точнее Вы думаете, что нужен слишком умный механизм, что бы что либо искать нормально, а на деле процент "попадания" достаточно низкий для того, что бы удовлетворять требованиям системы + есть "слежка". т.е. когда появляется инфа, которую в ручную отобрал редактор - робот ищет подобные тексты уже более тщательно.