Примечание: Изначально эта тема была создана в корневом разделе русского локального форума
Мета, но была перенесена модератором сюда. Читайте также
английскую версию в основном разделе Meta.
Обычно в подписных кампаниях BitcoinTalk баунти-хантерам требуется написать определённое количество постов в неделю, за эту активность участникам начисляются стейки. Иногда недобросовестные пользователи копируют
чужие сообщения или абзацы из сторонних статей в Интернете и постят их здесь на форуме. Такие посты могут быть легко сравнены и отслежены SEO-сервисами, поэтому для усложнения обнаружения эти баунти-хантеры начали использовать
омографы.
Говоря упрощённо,
омографы - это символы в международной таблице Unicode, которые выглядят визуально
одинаково. В английском алфавите используются только ASCII-символы.
Если смешать в тексте омографы из разных языков, то при чтении человек не заметит никакой разницы, однако системы анализа не смогут выявить
плагиат, просто сравнивая тексты в кодировке UTF-8.
Например:
- "SEO". Здесь все символы ASCII, омографы не используются. Длина слова в UTF-8 равна 3 байтам.
- "ЅΕО". Здесь первый символ "Ѕ" взят из македонского алфавита, второй символ "Ε" из греческого алфавита, а третий символ "О" из русского алфавита. Эти неанглийские буквы выглядят так же как ASCII-символы, но кодируются двумя байтами, поэтому длина слова в UTF-8 равна 6 байтам.
Таким образом некоторые пользователи, используя омографы, пишут посты на форуме, просто копируя и изменяя тексты
других людей. Поэтому мне захотелось создать
полный список омографов, которые могут использоваться в текстах на английском языке.
Судя по HTML-коду, на форуме используется
следующий CSS-стиль:
style="font-family: Verdana, Arial, sans-serif;"
Итак, в постах используются три шрифта: "
Verdana", "
Arial" и "
Sans Serif". Также для моноразмерных текстов используется "
Courier New".
В таблице ниже представлены ASCII-символы и рядом их омографы, написанные всеми этими четыремя шрифтами. Смотрите мой следующий пост
ниже.