Шингл – это фрагмент текста длиной в несколько слов, с которым работает программа проверки уникальности. Суть дела заключается в том, что весь текст разбивается на отдельные фрагменты заданной фиксированной величины (от трёх до восьми слов), а программа, которая определяет уникальность текста, проверяет наличие таких же фрагментов текста (шинглов) в размещённых ранее документах в сети Интернет.
Уникальность проверяемого документа зависит от длины шингла. К примеру, если задать размер шингла в одно слово, то в Интернете всегда найдётся хотя бы один документ, в котором будет встречаться каждое слово, существующее в проверяемом документе – соответственно, и уникальность такого документа будет равна нулю. А если, например, создать выборку из девяти слов, то уникальность проверяемого контента резко возрастёт, ведь найти два документа, содержащих одинаковые фрагменты текста из девяти слов, довольно сложно.
Программы-антиплагиаты составляют шинглы по своим алгоритмам. Одним из таких правил является составление шингла внахлёст, т.е. каждый последующий шингл захватывает часть предыдущего.
Пример:
Исходный текст: Рецепт этого средства невероятно прост: достаточно взять две ложки мёда и смешать с таким же количеством белой глины.
Шингл 1: рецепт этого средства
Шингл 2: этого средства невероятно
Шингл 3: средства невероятно прост
В примере размер шингла составляет три слова, шинглы нарезаются внахлест.
Существует большое количество сложных алгоритмов нарезки шинглов. Давайте рассмотрим два наиболее популярных из них:
- без очистки текста от стоп-слов и символов;
- с очисткой текста от стоп-слов и символов.
Суть первого алгоритма заключается в проверке исходного документа без внесения каких-либо изменений. При использовании второго алгоритма из текста убираются символы, а также слова, которые не несут никакой смысловой нагрузки (междометия, предлоги, союзы и т.д.).
Пример:
Исходный текст: Рецепт этого средства невероятно прост: достаточно взять две ложки мёда и смешать с таким же количеством белой глины.
После очистки от символов и стоп-слов: Рецепт средства невероятно прост достаточно взять две ложки мёда смешать количеством белой глины.