Где я могу найти хороший сценарий проверки на плагиат?

Я пишу диссертацию для моего проекта на последнем курсе, и я знаю, что независимо от того, что я пишу, будут сходства с тем, что есть в Интернете, в научных журналах и книгах. К счастью для большинства, Google может с легкостью устранить большинство из них, поэтому поиск бесплатного скрипта проверки плагиата не должен быть слишком сложным.

После небольшого поиска в Google я наткнулся на несколько действительно базовых шашек, но большинство из них являются либо "базовыми версиями", которые требуют оплаты за скрипт, который действительно работает, или просто бесполезны. Я нашел тот, который, кажется, хорошо работает для маленьких порций данных, но с треском проваливается при передаче большого файла.

Все, что я хочу сделать, - это иметь возможность загружать документ Word (или просто вводить текст, если нет доступных вариантов загрузки) и сообщать мне, что, как представляется, копируется и откуда. Кто-нибудь знает о каких-либо хороших контролерах плагиата, которые можно скачать бесплатно или запустить онлайн?

РЕДАКТИРОВАТЬ: просто чтобы уточнить мои потребности, я хочу инструмент, который может взять документ Word и искать его полностью, чтобы он мог пометить любой экземпляр, где документ соответствует другому документу в Google.

5 ответов

Решение

Здесь есть много хороших предложений, но общее мнение состоит в том, что нет никаких инструментов, которые могли бы делать то, что я хочу. Несмотря на это, я решил продолжить использовать базовую версию проверки плагиата. Это работает почти так, как я хочу, хотя, чтобы получить некоторые из лучших функций, которые мне нужно будет заплатить.

Этот инструмент использует API Google и будет очень хорошо находить скопированный текст, и я уже нашел два случая, когда я написал фразы, похожие на некоторые статьи.

Поскольку другие перечислили некоторые другие замечательные примеры, я мог бы закончить тем, что написал свой собственный скрипт, чтобы делать то, что я хочу, поскольку у меня есть опыт работы с Google API, и кажется, что это лучший скрипт, доступный на данный момент, с некоторыми из этих скриптов и техник быть лучшим для их собственного использования.

Я не думаю, что вы собираетесь найти реальное решение в виде скрипта или бесплатного приложения. Подумайте, что вы хотите, чтобы программа делала: прочитайте документ и проверьте - что? (Опубликованные работы других людей. Для этого требуется большая база данных опубликованных работ. Стилистическая дисперсия выходит за рамки статистической нормы. Для этого требуется статистическая норма стиля (возможно, основанная на словарном запасе и длине предложения, вычисленных по отношению к значимым словам - т.е. отфильтровать) и ',' или ',' to ',' for 'и т. д.). Это не тривиальные требования или то, что вы можете просто собрать в пару сотен строк | insert-your-scripting-language-here |.

Многие школы используют Turnitin, а многие школы используют Google для поиска опубликованных работ. Этот метод является хитом или мисс по очевидным причинам. Turnitin не бесплатный, и Google - очень несовершенное решение, но это два решения, которые я вижу чаще всего.

Университет Вирджинии делает доступным этот инструмент: Copyfind.
И исходный код, и исполняемый файл доступны для скачивания.

Эта программа проверяет коллекцию файлов документов. Он извлекает текстовые части этих документов и просматривает их на предмет совпадения слов во фразах определенной минимальной длины. Когда он находит два файла, которые содержат достаточно слов в этих фразах, copyfind создает файлы отчетов в формате html. Эти отчеты содержат текст документа с подчеркнутыми соответствующими фразами.

Что может сделать copyfind: он может найти документы, которые разделяют большое количество текста. Этот результат может указывать на то, что один файл является копией или частичной копией другого, или что оба они являются копиями или частичными копиями третьего документа.

Чего не может сделать copyfind: он не может искать текст, скопированный из любого внешнего источника, если только вы не включите этот внешний источник в документы, которые вы предоставляете copyfind. Он работает только на чисто локальных данных, он не может искать в Интернете или в Интернете, чтобы найти соответствующие документы. Если вы подозреваете, что определенный внешний источник был скопирован, вы должны создать локальный документ, содержащий этот внешний материал, и включить этот документ в коллекцию документов, которые вы предоставляете для copyfind.

Для веб-проверок вы можете взглянуть на:
Бесплатная онлайн система обнаружения плагиата, проверка плагиата

Я только недавно исследовал некоторые из этих онлайн-контролеров плагиата и обнаружил, что большинство этих бесплатных сайтов используют API Yahoo для проверки плагиата в бэкэнде. Хотя этот обзор мне показался довольно хорошим, я лично чаще всего пользуюсь Google, поскольку результаты значительно превосходят результаты, полученные на сайтах на основе API Yahoo.

Plagiarism-Checker от architshukla на github - это (главным образом) скрипт проверки плагиата с открытым исходным кодом, написанный (главным образом) на python, который якобы / предположительно использует google api для проверки документов n-граммы.

Я не проверял это, но, возможно, вы могли бы проверить это. Он предназначен для работы в Windows и Linux.

Другие вопросы по тегам