Как и обещал в предыдущем обзоре сервисов проверки контента на уникальность, представляю вашему вниманию программы, которые позволят обнаружить дублированный контент в Интернете.
1) Double Content Finder (DC Finder) — одна из самых известных программ для проверки текста на уникальность. Разработана программистами биржи контента TextBroker в 2007 году, программа периодически обновляется. Последний релиз, который мне удалось найти, за 2008 год.
Скачать программный продукт можно по этой ссылке, размер дистрибутива совсем небольшой, около 400кб, большим плюсом является то, что не требуется установка, программа запускается обычным exe файлом.
Ниже приведен скрин программы, который вы увидите при запуске.
Проверить текст на уникальность можно любым из трех способов – из текстового файла (работает только с .txt файлами), задав нужный вам url, где расположен материал или ручным вводом – скопировав часть текста через буфер обмена.
В итоге вы можете получить два варианта ответа: либо текст уникален, либо вы увидите список url – адресов, на которых найден проверяемый отрывок.
Мне понравились результаты проверки программы. Проводилось порядка 10 экспериментов, везде результат оказывался очень и очень похожим на правду.
2) Advego Plagiatus — программа, созданная разработчиками биржи контента Advego для поиска в интернете копий текстовых документов. В отличие от предыдущей рассмотренной программы она требует установки, что для меня является минусом – ну не люблю я устанавливать на свой компьютер всякое непроверенное ПО.
Предусмотрена возможность проверки текста на уникальность как скопированного через буфер, так и расположенного в Интернете. По результатам работы программы выдается результат в виде перечня ресурсов, на которых была обнаружена копия, и процентного соотношения найденных сопадений на этих ресурсах.
Настроек у программы не очень много, несомненным плюсом является возможность соединения через прокси. Дистибутив программы имеет размер около 1,2 Мб. Скачать программный продукт можно на этой странице.
3) Praide unique content analyzer – наименее известная, но самая функциональная по своей задумке программа для поиска дублированного текста.
Скачать ее можно непосредственно на сайте разработчиков, дистрибутив весит порядка 4 мб, а почитать историю появления и проследить процесс совершенствования программы — на всем известном форуме о поисковых системах.
Как и в предыдущих рассмотренных программах, есть возможность проверки скопированного текста через буфер обмена и посредством импорта материала из текстового файла. Также вы можете проверить текст уже расположенный на веб-странице в Интеренете… Как пользоваться этой программой?
В настройках можно выбрать два способа проверки – либо попассажно (текст разбивается на фразы длинной от пяти до десяти слов, которые затем ищутся в поисковых системах), либо шинглами (материал делится на фразы длиной, равной заданной длине шингла, «внахлест», т.е. второе слово в предыдущей фразе является первым в следующей, и затем также осуществляется поиск в поисковых машинах). Например, возьмем текст из моего предыдущего обзора:
«В последнее время бизнес в Интернет сфере развивается семимильными шагами. Если раньше достаточно было просто создать сайт своей организации или фирмы, разместить в Интернете – и …»
и зададим проверку текста попассажно с длиной пассажа в 5 слов (для упрощения стоп-слова будем также считать словами). Тогда объектами проверки будут:
- В последнее время бизнес в;
- Интернет сфере развивается семимильными шагами;
- Если раньше достаточно было просто;
- создать сайт своей организации или;
- фирмы, разместить в Интернете – и;
Если мы выберем метод проверки шинглами и зададим величину шингла равной 7, то этими самыми шинглами будут словосочетания:
- В последнее время бизнес в Интернет сфере;
- последнее время бизнес в Интернет сфере развивается;
- время бизнес в Интернет сфере развивается семимильными;
- бизнес в Интернет сфере развивается семимильными шагами;
- в Интернет сфере развивается семимильными шагами. Если;
- Интернет сфере развивается семимильными шагами. Если раньше;
ну и так далее до конца текста. Для каждого шингла рассчитывается контрольная сумма (или “сигнатура”) – это уникальное число, поставленное в соответствие каждой уникальной фразе, которая составляет шингл. После этого из всего множества полученных контрольных сумм (а их столько, сколько слов в документе минус величина заданного шингла, в нашем случае семь, и плюс один) выбираются только те, которые делятся, например, на 14.
Если есть повтор даже одного шингла, т.е. идущих подряд семи слов – уже велика вероятность скопированного текста. Если же таких совпадений много – значит вы с очень большой вероятностью нашли копию проверяемого текста.
Соответственно, время проверки с помощью программы Praide unique content analyzer напрямую зависит от введенных вами параметров и размеров текста – чем больше тест и меньше размер пассажа либо шингла, тем больше время поиска.
Также в настройках программы есть опция защиты вашего IP адреса – между каждым запросом программы к поисковым системах делается пауза в несколько секунд, чтобы при частом обращении поисковые системы не решили, что вы робот и не занесли ваш IP в черные списки. Особая гордость разработчиков – возможность самостоятельно выбирать поисковые системы, включая большое количество ПС буржуйнета, в которых будет производиться поиск.
После настройки всех необходимых вам параметров, выбирайте «Выполнить запрос» и запасайтесь терпением.
Результаты работы программы представлены ниже:
Для того, чтобы просмотреть, где же именно находятся материалы, которые программа посчитала сходными с заданным текстом, в таблице результатов нужно дважды кликнуть на интересующую вас ячейку. У меня выделена ячейка со значениями «Рады представить вашему вниманию нашу разработку Doub….» в поисковой системе Google, с количеством совпадений 1820.
Дважды кликнув по этой ячейке, мы автоматически переходим в интересующий нас поисковик и видим результаты совпадений по выбранной фразе.
Большим удобством является возможность вывода результатов работы программы на печать. Также, если во время работы с программой возникли какие-то вопросы, можно воспользоваться встроенной в программу помощью.
Вот, пожалуй, и все настольные программные продукты для поиска дублированного контента, которые есть в свободном доступе в Интернете на текущий момент. На мой вкус, пользоваться on-line сервисами гораздо быстрее и удобнее, хотя в программах есть такие плюсы, как встроенная помощь и возможность распечатать результаты проверки.
В заключении, хотелось добавить, что целью данного обзора было протестировать всевозможные настольные программы для поиска плагиата, и что все мнения по поводу удобства \ быстроты \ качества работы программ – сугубо индивидуальные. Все замечания и предложения только приветствуются. В любом случае, каким методом для поиска дублированного контента пользоваться, решать только вам.
Полезно на заметку:
- Обзор сервисов для проверки текста на уникальность (плагиат) – 2
- Обзор сервисов для проверки контента на уникальность (плагиат)
- Дублированный контент на одном сайте
- Дублированный контент на одном сайте (продолжение)
Еще бы сразу писали.платные или бесплатные
Пользуюсь системой проверки на плагиат http://bibliofond.ru/antiplagiat/ Пока нареканий не было все четко и быстро работает
При использовании Praide unique content analyzer программа никак не может закончить проверку, выдавая сообщение о том, что истекло время. Скажите, пожалуйста, с чем это связано и как можно решить эту проблему.
За обзор спасибо! По поводу Адвего согласен, результаты иногда поражают – от 50 до 100% уникальности с перерывом в 10 минут. А иногда и вообще не работает – поисковые системы заблокированы.
Ну что ж с ним делать с этим Адвего…)
Это связано с тем, что текст проверяется выборочно и в Интернете,
который может не всегда работать так как хотелось бы. Плагиата.Нет в
этом плане вроде значительно лучше при стандартных настройках (больше
слов проверяется).
Адвего Плагиатус безбожно врет! Несколько раз проверяешь один текст – и результаты прямо противоположные! От 12% до 100% !
Считаю, что все, кто оценил Адвего Плагиатус, оценит и наш проект Плагиата .НЕТ – http://mywebs.ru/plagiatanet.html Все то же, что есть в Адвего Плагиатус плюс проверка группы ссылок. Можно проверить весь сайт или набор страниц, например, где стоят ссылки.
Адвего Плагиатус вне конкуренции, поверьте.
Ещё неплох (имхо) справляется с поиском дублей AllSubmitter. Там отдельный модуль для этого дела
_http://www.webloganalyzer.biz/rushelp/flash/plagiarism.html – вот видео, если интересно.
Хороший обзор, спасибо возьму на вооружению пару софтин.
Спасибо огромное! Очень актуальный материал. Срочно подписываюсь по RSS
Я пользуюсь проверяю финдером. но всегда вожу кусок текста в яндекс для более детальной проверки на плагиат. Проверяю обзацами так проще .
Использую только DcFinder. Небольшая декстопная программка, простая, без лишнего.
Хорошенький обзорчик, а то я задрался ждать пока DCfinfer раздуплится
Давно пользуюсь Praide, считаю лучшей, но стоит попробовать и другие.
Интересная прога, спасибо! А вообще если нужно проверить дублирование контента на главной странице – в google analitics есть опция – определить похожие сайты. Очень нужная штука.
Хороший обзор. Пользуюсь Praide unique content analyzer. По-моему удобнее из всех.
Отличная подборочка, качну на всякий случай, авось пригодиться.