Надежда Волкова
2390 сообщений
#10 лет назад
Ребята, всем привет
Посоветуйте хорошие программы для сравнения статей между собой с целью выяснения их уникальности. К сожалению, не помню, кто упоминал про подобную. Очень надо. Зачем мне это нужно :?: Мой парень сейчас разрабыватывает одну программу и одна из фич это именно выявление уникальности статьи. От программеров буду благодарна за ссылки на подобные проги с открытым исходным кодом, чтобы понять, как это можно сделать, или же за алгоритм, который бы реализовывал данную функцию, потому как даже не знаем, какой запрос в гугле сделать
Вот, вроде бы всё :P
Заранее спасибо!
Артем Л.
11264 сообщения
#10 лет назад
В тотал командере есть такая фича, сравнить по содержанию. Хотя вряд ли оттуда что-то можно почерпнуть...
Надежда Волкова
2390 сообщений
#10 лет назад
Hungry_Hunter, а какой сборки тотал командер? или любой?
Максим Ф.
3195 сообщений
#10 лет назад
Код между собой сравнивают через winmerge, kdiff и т.п., искать по слову diff.
Статьи можно сравнивать через word, там опция сравнения документов, вроде бы так и называется.

Как можно выявить уникальность статьи, сравнив её с другой статьёй - не знаю, поэтому может быть то, что написал выше - глупость.
Анна В.
130 сообщений
#10 лет назад
Цитата ("veryonehope"):
К сожалению, не помню, кто упоминал про подобную.

Там упоминался этот сайт http://findcopy.ru/compare_texts
Денис Ш.
7132 сообщения
#10 лет назад
Готового алгоритма не видел.
Но если покумекать, то нужно искать совпадение языковых последовательностей. Т.е. берем предложение из первого текста и пытаемся его найти во втором. Если нашли, то определяем степень совпадения (может слово одно/два отличаться или поменяны местами). Включаем некий счетчик. Потом берем следующее предложение. Если оно найдено, то аналогично первому. Затем проверяем нет ли четкой последовательности между этими предложениями (ну т.е. они идут подряд в обоих текстах). Если так - объединяем их в одну единицу текста. Берем третье предложение и повторяем обработку. Если последовательности нет, то такое предложение выделяется отдельной единицей. Если есть - объединяем с существующей (последней).
В конце, набрав такие единицы текста и их степень уникальности, можно вычислить уникальность всего текстового документа.

Ну где-то так.
Денис Ш.
7132 сообщения
#10 лет назад
А вообще как-то вы слабо искали:

http://www.codeproject.com/KB/recipes/DiffAlgorithmCS.aspx

The algorithm was first published 20 years ago under the title "An O(ND) Difference Algorithm and its Variations" by Eugene Myers, Algorithmica Vol. 1 No. 2, 1986, p 251.


http://www.codeproject.com/KB/recipes/diffengine.aspx

http://www.codeproject.com/KB/files/PSFileDiff.aspx

http://www.codeproject.com/KB/recipes/NBDiffDiff.aspx

http://www.codeproject.com/KB/files/CsLCSDiff.aspx
Надежда Волкова
2390 сообщений
#10 лет назад
shapod, мы, правда, слабо искали. Просто не знали с чего начать Огромнейшее спасибо! :P
Денис Ш.
7132 сообщения
#10 лет назад
veryonehope, на здоровье
Надежда Волкова
2390 сообщений
#10 лет назад
Цитата ("neadekvat"):
более мелкими единицами языка - словами в количестве трех, стоящими подряд

называется шингл эта фиговина
Денис Ш.
7132 сообщения
#10 лет назад
neadekvat, так а какая разница? можно вообще каждый байт сравнивать. Суть-то одна. Выявляются языковые элементы и их уникальность. Вычисляем отношение их размеров к общему размеру текста помноженное на уникальность каждого такого элемента.
Светлана Некрасова
261 сообщение
#10 лет назад
Цитата ("Formica"):
Цитата ("veryonehope"):
К сожалению, не помню, кто упоминал про подобную.

Там упоминался этот сайт http://findcopy.ru/compare_texts
ДА-ДА! ТОЧНО-ТОЧНО! ИМЕННО http://findcopy.ru/compare_texts.
Я тоже им пользуюсь при рерайте, потом адвего выдает - 100%. или может быть я?
Виктор Т.
1036 сообщений
#10 лет назад
veryonehope, а можно подсмотреть одним глазком на вашу программу?
Надежда Волкова
2390 сообщений
#10 лет назад
Sivis, енто не наша, заказчик дал код на которым до этого человек 5 сидело и напутало...такое стыдно давать..да и не положено. неразглашение и все такое
Ольга Т.
12 сообщений
#10 лет назад
Сравнение текстов по шинглам, с разной длиной шингла - программа Шингл-эксперт. Задайте в поиске, сразу получите кучу ссылок на нее.
Простая, но норм., многие копирайтеры ей пользуются.
Лина К.
35 сообщений
#10 лет назад
http://advego.ru/plagiatus/
Надежда Волкова
2390 сообщений
#10 лет назад
Спасибо, ребята! :P
Анна В.
130 сообщений
#10 лет назад
veryonehope, и еще нарула прогу - Article Clone Easy. Там можно сравнивать тексты.
Правда, пока не тестила
Надежда Волкова
2390 сообщений
#10 лет назад
Formica, спасибо!
Елена Довгаль
102 сообщения