Title: [Антиплагиат] Полный список омографов Post by: Coin-1 on September 03, 2018, 12:31:04 PM Примечание: Изначально эта тема была создана в корневом разделе русского локального форума Мета (https://bitcointalk.org/index.php?board=10.0), но была перенесена модератором сюда. Читайте также английскую версию (https://bitcointalk.org/index.php?topic=5000990.0) в основном разделе Meta.
Обычно в подписных кампаниях BitcoinTalk баунти-хантерам требуется написать определённое количество постов в неделю, за эту активность участникам начисляются стейки. Иногда недобросовестные пользователи копируют чужие сообщения или абзацы из сторонних статей в Интернете и постят их здесь на форуме. Такие посты могут быть легко сравнены и отслежены SEO-сервисами, поэтому для усложнения обнаружения эти баунти-хантеры начали использовать омографы. Говоря упрощённо, омографы - это символы в международной таблице Unicode, которые выглядят визуально одинаково. В английском алфавите используются только ASCII-символы. Если смешать в тексте омографы из разных языков, то при чтении человек не заметит никакой разницы, однако системы анализа не смогут выявить плагиат, просто сравнивая тексты в кодировке UTF-8. Например:
Таким образом некоторые пользователи, используя омографы, пишут посты на форуме, просто копируя и изменяя тексты других людей. Поэтому мне захотелось создать полный список омографов, которые могут использоваться в текстах на английском языке. Судя по HTML-коду, на форуме используется следующий CSS-стиль: Code: style="font-family: Verdana, Arial, sans-serif;" В таблице ниже представлены ASCII-символы и рядом их омографы, написанные всеми этими четыремя шрифтами. Смотрите мой следующий пост ниже. Title: [Антиплагиат] Полный список омографов Post by: Coin-1 on September 03, 2018, 12:31:41 PM Список омографов для ASCII:
[1] почти одинаковы во всех шрифтах [2] одинаковы во всех шрифтах, кроме "Verdana" (v5.02) [3] одинаковы во всех шрифтах, кроме "Courier New" (v5.11) [4] одинаковы только в шрифте "Arial" (v5.06) Title: Re: [Антиплагиат] Полный список омографов Post by: Coin-1 on September 03, 2018, 12:32:16 PM Зарезервировано.
Title: Re: [Антиплагиат] Полный список гомографов Post by: esmanthra on September 03, 2018, 02:52:19 PM для усложнения обнаружения эти баунти-хантеры начали использовать гомографы "Омографы", а если еще корректнее - омоглифы (https://ru.wikipedia.org/wiki/%D0%9E%D0%BC%D0%BE%D0%B3%D0%BB%D0%B8%D1%84). Омографы - это вообще-то про слова (https://ru.wikipedia.org/wiki/%D0%9E%D0%BC%D0%BE%D0%B3%D1%80%D0%B0%D1%84%D1%8B). Хотя хакерская атака (https://bitcointalk.org/index.php?topic=3686257.msg44327466#msg44327466) с подменой букв в URL-адресах и называется "омографической". Quote системы анализа не смогут выявить плагиат, просто сравнивая тексты в кодировке UTF-8 И это замечание превратило бы данную тему в пособие для начинающих копипастеров, если бы не одно "но": продвинутые системы распознавания плагиата и работы с текстом таки выявляют омоглифы. К примеру, российская система Антиплагиат (https://ru.wikipedia.org/wiki/%D0%90%D0%BD%D1%82%D0%B8%D0%BF%D0%BB%D0%B0%D0%B3%D0%B8%D0%B0%D1%82) выявляет (по крайней мере так утверждает (http://libinform.ru/read/interview/636-j-prikaz-ili-dlinnye-ruki-Antiplagiata/) ее исполнительный директор). Google Chrome (который браузер) "палит" смесь кириллицы и латинницы просто при проверке орфографии (т.е. можно тупо включить проверку и перекопировать текст в любое поле в браузере - "спорные" места будут подсвечены). LanguageTool (https://languagetool.org/) (что английский, что русский) показывает слова с омоглифами как "имеющие возможную ошибку в написании". А известный сайт-антиплагиатор text.ru (https://text.ru/antiplagiat) и вовсе с омоглифами обходится жестко: неизвестные ему (вроде македонских символов) выбрасывает, известные подсчитывает в "SEO-анализе текста" (пункт "Замена символов") - и, естественно, все равно находит источник. Кому интересно - может поковыряться в упомянутых с этой вот фразой (в которую специально понапихана куча разных омоглифов): Code: Thrее yеаrs agο, Micrоsоft Azure wаs the first tо bring blоckchain tο the clоud. Nоw it's cоnnеcting the tеchnоlоgy tо just abοut еverything еlse. (Первоначально фраза взята отсюда (https://bitcointalk.org/index.php?topic=5000337.0).) Title: Re: [Антиплагиат] Полный список гомографов Post by: biom33 on September 03, 2018, 03:34:11 PM неужели такими подменами кто-то занимается для набивания постов, на мой взгляд подмена символов займет больше времени чем написание своего поста и поэтому бессмысленна или преследуются другие цели.
Title: Re: [Антиплагиат] Полный список омографов Post by: Coin-1 on September 06, 2018, 04:14:16 PM "Омографы", а если еще корректнее - омоглифы (https://ru.wikipedia.org/wiki/%D0%9E%D0%BC%D0%BE%D0%B3%D0%BB%D0%B8%D1%84). Омографы - это вообще-то про слова (https://ru.wikipedia.org/wiki/%D0%9E%D0%BC%D0%BE%D0%B3%D1%80%D0%B0%D1%84%D1%8B). Хотя хакерская атака (https://bitcointalk.org/index.php?topic=3686257.msg44327466#msg44327466) с подменой букв в URL-адресах и называется "омографической". Да, правильнее будет "омографы", поправлю название темы. На мой взгляд, "омоглифы" - это, скорее, относится к изображениям, "омографы" - более широкое понятие. И это замечание превратило бы данную тему в пособие для начинающих копипастеров, если бы не одно "но": Здесь есть ещё одно "но": для SEO-сервиса нужно знать, на каком языке написано сообщение, так как алгоритму анализа нужно привести потенциальный плагиат к одинаковому формату со сравниваемым текстом. В любом случае, для работы SEO-сервису нужен полный список омографов, которые могут использоваться в текстах на данном языке. Могу сказать, что поисковые системы в общем случае хранят найденную в Интернете текстовую информацию "как есть", то есть без изменений. неужели такими подменами кто-то занимается для набивания постов, на мой взгляд подмена символов займет больше времени чем написание своего поста и поэтому бессмысленна или преследуются другие цели. Да, на форуме в англоязычных ветках некоторые недобросовестные баунти-хантеры занимаются подменой ASCII-символов в постах. Сообщения перед отправкой можно модифицировать простым JS-скриптом за одну секунду. Это не занимает много времени. Оказывается, буквально недавно проблема была решена ретроспективной заменой таких символов при показе постов в англоязычных секциях, но, по-моему, ещё не все омографы были добавлены в тот список. Title: Re: [Антиплагиат] Полный список омографов Post by: grimeygrim on September 30, 2018, 11:22:00 AM Яндекс ещё лет 20 назад, когда он был просто одним из поисковиков, умел определять фразы, где русские буквы были заменены латинскими, аналогичными по написанию.
Title: Re: [Антиплагиат] Полный список омографов Post by: Alex_Sr on November 15, 2018, 02:31:32 PM Пару дней назад увидел несколько одинаковых аккаунтов в SPREADSHEET моей подписной. Что интересно - мошенники использовали букву B из этого списка и при сортировке по алфавиту аккаунты оказывались в разных частях таблицы что затрудняло их обнаружение.
Title: Re: [Антиплагиат] Полный список омографов Post by: Coin-1 on November 15, 2018, 04:42:30 PM Пару дней назад увидел несколько одинаковых аккаунтов в SPREADSHEET моей подписной. Что интересно - мошенники использовали букву B из этого списка и при сортировке по алфавиту аккаунты оказывались в разных частях таблицы что затрудняло их обнаружение. Интересно. Оказывается, даже в баунти-таблицах мошенники уже омографы используют. Сейчас, кстати, на форуме плагиаторы начали применять так называемые "спиннеры", которые заменяют ключевые слова в исходном предложении на синонимы. При этом примерный смысл текста остаётся неизменным. Title: Re: [Антиплагиат] Полный список омографов Post by: Alex_Sr on November 15, 2018, 04:54:40 PM Сейчас, кстати, на форуме плагиаторы начали применять так называемые "спиннеры", которые заменяют ключевые слова в исходном предложении на синонимы. При этом примерный смысл текста остаётся неизменным. Видимо генерировать "свежий" контент ботофермам все сложнее и сложнее. Вот и пускают в ход СЕО-шные инструменты типа СловоЁБа. В результате получаются посты типа: "Мы думаем что криптовалюта вырастут, но возможно и упадет, но я точно не знал" ;D Title: Re: [Антиплагиат] Полный список омографов Post by: esmanthra on November 16, 2018, 07:00:38 AM плагиаторы начали применять так называемые "спиннеры", которые заменяют ключевые слова в исходном предложении на синонимы. При этом примерный смысл текста остаётся неизменным Это не новшество какое-то. Простейший рерайт в копирайтинге строится на этом. |