Копирайтеры/рерайтеры и программеры, посоветуйте

2390 сообщений

#14 лет назад

Ребята, всем привет

Посоветуйте хорошие программы для сравнения статей между собой с целью выяснения их уникальности. К сожалению, не помню, кто упоминал про подобную. Очень надо. Зачем мне это нужно :?: Мой парень сейчас разрабыватывает одну программу и одна из фич это именно выявление уникальности статьи. От программеров буду благодарна за ссылки на подобные проги с открытым исходным кодом, чтобы понять, как это можно сделать, или же за алгоритм, который бы реализовывал данную функцию, потому как даже не знаем, какой запрос в гугле сделать

Вот, вроде бы всё :P
Заранее спасибо!

11416 сообщений

#14 лет назад

В тотал командере есть такая фича, сравнить по содержанию. Хотя вряд ли оттуда что-то можно почерпнуть...

2390 сообщений

#14 лет назад

Hungry_Hunter, а какой сборки тотал командер? или любой?

3195 сообщений

#14 лет назад

Код между собой сравнивают через winmerge, kdiff и т.п., искать по слову diff.
Статьи можно сравнивать через word, там опция сравнения документов, вроде бы так и называется.

Как можно выявить уникальность статьи, сравнив её с другой статьёй - не знаю, поэтому может быть то, что написал выше - глупость.

130 сообщений

#14 лет назад

Цитата ("veryonehope"):

К сожалению, не помню, кто упоминал про подобную.

Там упоминался этот сайт ссылка

7132 сообщения

#14 лет назад

Готового алгоритма не видел.
Но если покумекать, то нужно искать совпадение языковых последовательностей. Т.е. берем предложение из первого текста и пытаемся его найти во втором. Если нашли, то определяем степень совпадения (может слово одно/два отличаться или поменяны местами). Включаем некий счетчик. Потом берем следующее предложение. Если оно найдено, то аналогично первому. Затем проверяем нет ли четкой последовательности между этими предложениями (ну т.е. они идут подряд в обоих текстах). Если так - объединяем их в одну единицу текста. Берем третье предложение и повторяем обработку. Если последовательности нет, то такое предложение выделяется отдельной единицей. Если есть - объединяем с существующей (последней).
В конце, набрав такие единицы текста и их степень уникальности, можно вычислить уникальность всего текстового документа.

Ну где-то так.

7132 сообщения

#14 лет назад

А вообще как-то вы слабо искали:

ссылка

Цитата:

The algorithm was first published 20 years ago under the title "An O(ND) Difference Algorithm and its Variations" by Eugene Myers, Algorithmica Vol. 1 No. 2, 1986, p 251.

ссылка

ссылка

ссылка

ссылка

2390 сообщений

#14 лет назад

shapod, мы, правда, слабо искали. Просто не знали с чего начать

Огромнейшее спасибо!

7132 сообщения

#14 лет назад

veryonehope, на здоровье

2390 сообщений

#14 лет назад

Цитата ("neadekvat"):

более мелкими единицами языка - словами в количестве трех, стоящими подряд

называется шингл эта фиговина

7132 сообщения

#14 лет назад

neadekvat, так а какая разница? можно вообще каждый байт сравнивать. Суть-то одна. Выявляются языковые элементы и их уникальность. Вычисляем отношение их размеров к общему размеру текста помноженное на уникальность каждого такого элемента.

261 сообщение

#14 лет назад

Цитата ("Formica"):

Цитата ("veryonehope"):
К сожалению, не помню, кто упоминал про подобную.

Там упоминался этот сайт ссылка

ДА-ДА! ТОЧНО-ТОЧНО! ИМЕННО ссылка.
Я тоже им пользуюсь при рерайте, потом адвего выдает - 100%.

или может быть я?

1036 сообщений

#14 лет назад

veryonehope, а можно подсмотреть одним глазком на вашу программу?

2390 сообщений

#14 лет назад

Sivis, енто не наша, заказчик дал код на которым до этого человек 5 сидело и напутало...такое стыдно давать..да и не положено.

неразглашение и все такое

12 сообщений

#14 лет назад

Сравнение текстов по шинглам, с разной длиной шингла - программа Шингл-эксперт. Задайте в поиске, сразу получите кучу ссылок на нее.
Простая, но норм., многие копирайтеры ей пользуются.