Копирайтеры/рерайтеры и программеры, посоветуйте
2390 сообщений
#13 лет назад
Ребята, всем привет 
Посоветуйте хорошие программы для сравнения статей между собой с целью выяснения их уникальности. К сожалению, не помню, кто упоминал про подобную. Очень надо. Зачем мне это нужно :?: Мой парень сейчас разрабыватывает одну программу и одна из фич это именно выявление уникальности статьи. От программеров буду благодарна за ссылки на подобные проги с открытым исходным кодом, чтобы понять, как это можно сделать, или же за алгоритм, который бы реализовывал данную функцию, потому как даже не знаем, какой запрос в гугле сделать



Вот, вроде бы всё :P
Заранее спасибо!
11416 сообщений
#13 лет назад
В тотал командере есть такая фича, сравнить по содержанию. Хотя вряд ли оттуда что-то можно почерпнуть...
2390 сообщений
#13 лет назад
Hungry_Hunter, а какой сборки тотал командер? или любой?
3195 сообщений
#13 лет назад
Код между собой сравнивают через winmerge, kdiff и т.п., искать по слову diff.Статьи можно сравнивать через word, там опция сравнения документов, вроде бы так и называется.
Как можно выявить уникальность статьи, сравнив её с другой статьёй - не знаю, поэтому может быть то, что написал выше - глупость.
130 сообщений
7132 сообщения
#13 лет назад
Готового алгоритма не видел.Но если покумекать, то нужно искать совпадение языковых последовательностей. Т.е. берем предложение из первого текста и пытаемся его найти во втором. Если нашли, то определяем степень совпадения (может слово одно/два отличаться или поменяны местами). Включаем некий счетчик. Потом берем следующее предложение. Если оно найдено, то аналогично первому. Затем проверяем нет ли четкой последовательности между этими предложениями (ну т.е. они идут подряд в обоих текстах). Если так - объединяем их в одну единицу текста. Берем третье предложение и повторяем обработку. Если последовательности нет, то такое предложение выделяется отдельной единицей. Если есть - объединяем с существующей (последней).
В конце, набрав такие единицы текста и их степень уникальности, можно вычислить уникальность всего текстового документа.
Ну где-то так.
7132 сообщения
2390 сообщений
#13 лет назад
shapod, мы, правда, слабо искали. Просто не знали с чего начать 

2390 сообщений
#13 лет назад
Цитата ("neadekvat"):более мелкими единицами языка - словами в количестве трех, стоящими подряд
называется шингл эта фиговина

7132 сообщения
#13 лет назад
neadekvat, так а какая разница? можно вообще каждый байт сравнивать. Суть-то одна. Выявляются языковые элементы и их уникальность. Вычисляем отношение их размеров к общему размеру текста помноженное на уникальность каждого такого элемента.
261 сообщение
2390 сообщений
#13 лет назад
Sivis, енто не наша, заказчик дал код на которым до этого человек 5 сидело и напутало...такое стыдно давать..да и не положено. 
12 сообщений
#13 лет назад
Сравнение текстов по шинглам, с разной длиной шингла - программа Шингл-эксперт. Задайте в поиске, сразу получите кучу ссылок на нее.Простая, но норм., многие копирайтеры ей пользуются.
2390 сообщений
#13 лет назад
Спасибо, ребята! :P
130 сообщений
#13 лет назад
veryonehope, и еще нарула прогу - Article Clone Easy. Там можно сравнивать тексты.Правда, пока не тестила

2390 сообщений
#13 лет назад
Formica, спасибо!