Копирайтеры/рерайтеры и программеры, посоветуйте
2390 повідомлень
#14 років тому
Ребята, всем привет Посоветуйте хорошие программы для сравнения статей между собой с целью выяснения их уникальности. К сожалению, не помню, кто упоминал про подобную. Очень надо. Зачем мне это нужно :?: Мой парень сейчас разрабыватывает одну программу и одна из фич это именно выявление уникальности статьи. От программеров буду благодарна за ссылки на подобные проги с открытым исходным кодом, чтобы понять, как это можно сделать, или же за алгоритм, который бы реализовывал данную функцию, потому как даже не знаем, какой запрос в гугле сделать
Вот, вроде бы всё :P
Заранее спасибо!
11416 повідомлень
#14 років тому
В тотал командере есть такая фича, сравнить по содержанию. Хотя вряд ли оттуда что-то можно почерпнуть...
2390 повідомлень
#14 років тому
Hungry_Hunter, а какой сборки тотал командер? или любой?
3195 повідомлень
#14 років тому
Код между собой сравнивают через winmerge, kdiff и т.п., искать по слову diff.Статьи можно сравнивать через word, там опция сравнения документов, вроде бы так и называется.
Как можно выявить уникальность статьи, сравнив её с другой статьёй - не знаю, поэтому может быть то, что написал выше - глупость.
130 повідомлень
7132 повідомлення
#14 років тому
Готового алгоритма не видел.Но если покумекать, то нужно искать совпадение языковых последовательностей. Т.е. берем предложение из первого текста и пытаемся его найти во втором. Если нашли, то определяем степень совпадения (может слово одно/два отличаться или поменяны местами). Включаем некий счетчик. Потом берем следующее предложение. Если оно найдено, то аналогично первому. Затем проверяем нет ли четкой последовательности между этими предложениями (ну т.е. они идут подряд в обоих текстах). Если так - объединяем их в одну единицу текста. Берем третье предложение и повторяем обработку. Если последовательности нет, то такое предложение выделяется отдельной единицей. Если есть - объединяем с существующей (последней).
В конце, набрав такие единицы текста и их степень уникальности, можно вычислить уникальность всего текстового документа.
Ну где-то так.
7132 повідомлення
2390 повідомлень
#14 років тому
shapod, мы, правда, слабо искали. Просто не знали с чего начать Огромнейшее спасибо! :P
2390 повідомлень
#14 років тому
Цитата ("neadekvat"):более мелкими единицами языка - словами в количестве трех, стоящими подряд
называется шингл эта фиговина
7132 повідомлення
#14 років тому
neadekvat, так а какая разница? можно вообще каждый байт сравнивать. Суть-то одна. Выявляются языковые элементы и их уникальность. Вычисляем отношение их размеров к общему размеру текста помноженное на уникальность каждого такого элемента.
261 повідомлення
1036 повідомлень
#14 років тому
veryonehope, а можно подсмотреть одним глазком на вашу программу?
2390 повідомлень
#14 років тому
Sivis, енто не наша, заказчик дал код на которым до этого человек 5 сидело и напутало...такое стыдно давать..да и не положено. неразглашение и все такое
12 повідомлень
#14 років тому
Сравнение текстов по шинглам, с разной длиной шингла - программа Шингл-эксперт. Задайте в поиске, сразу получите кучу ссылок на нее.Простая, но норм., многие копирайтеры ей пользуются.
2390 повідомлень
#14 років тому
Спасибо, ребята! :P
130 повідомлень
#14 років тому
veryonehope, и еще нарула прогу - Article Clone Easy. Там можно сравнивать тексты.Правда, пока не тестила
2390 повідомлень
#14 років тому
Formica, спасибо!