Bitcoin Forum
May 04, 2024, 07:34:50 AM *
News: Latest Bitcoin Core release: 27.0 [Torrent]
 
   Home   Help Search Login Register More  
Pages: [1]
  Print  
Author Topic: [Антиплагиат] Полный список омографов  (Read 204 times)
Coin-1 (OP)
Legendary
*
Offline Offline

Activity: 2436
Merit: 2174



View Profile
September 03, 2018, 12:31:04 PM
Last edit: September 06, 2018, 04:17:46 PM by Coin-1
Merited by Alex_Sr (1), Symmetrick (1)
 #1

Примечание: Изначально эта тема была создана в корневом разделе русского локального форума Мета, но была перенесена модератором сюда. Читайте также английскую версию в основном разделе Meta.



Обычно в подписных кампаниях BitcoinTalk баунти-хантерам требуется написать определённое количество постов в неделю, за эту активность участникам начисляются стейки. Иногда недобросовестные пользователи копируют чужие сообщения или абзацы из сторонних статей в Интернете и постят их здесь на форуме. Такие посты могут быть легко сравнены и отслежены SEO-сервисами, поэтому для усложнения обнаружения эти баунти-хантеры начали использовать омографы.

Говоря упрощённо, омографы - это символы в международной таблице Unicode, которые выглядят визуально одинаково. В английском алфавите используются только ASCII-символы.

Если смешать в тексте омографы из разных языков, то при чтении человек не заметит никакой разницы, однако системы анализа не смогут выявить плагиат, просто сравнивая тексты в кодировке UTF-8.

Например:
  • "SEO". Здесь все символы ASCII, омографы не используются. Длина слова в UTF-8 равна 3 байтам.
  • "ЅΕО". Здесь первый символ "Ѕ" взят из македонского алфавита, второй символ "Ε" из греческого алфавита, а третий символ "О" из русского алфавита. Эти неанглийские буквы выглядят так же как ASCII-символы, но кодируются двумя байтами, поэтому длина слова в UTF-8 равна 6 байтам.

Таким образом некоторые пользователи, используя омографы, пишут посты на форуме, просто копируя и изменяя тексты других людей. Поэтому мне захотелось создать полный список омографов, которые могут использоваться в текстах на английском языке.



Судя по HTML-коду, на форуме используется следующий CSS-стиль:
Code:
style="font-family: Verdana, Arial, sans-serif;"
Итак, в постах используются три шрифта: "Verdana", "Arial" и "Sans Serif". Также для моноразмерных текстов используется "Courier New".

В таблице ниже представлены ASCII-символы и рядом их омографы, написанные всеми этими четыремя шрифтами. Смотрите мой следующий пост ниже.
Remember that Bitcoin is still beta software. Don't put all of your money into BTC!
Advertised sites are not endorsed by the Bitcoin Forum. They may be unsafe, untrustworthy, or illegal in your jurisdiction.
1714808090
Hero Member
*
Offline Offline

Posts: 1714808090

View Profile Personal Message (Offline)

Ignore
1714808090
Reply with quote  #2

1714808090
Report to moderator
Coin-1 (OP)
Legendary
*
Offline Offline

Activity: 2436
Merit: 2174



View Profile
September 03, 2018, 12:31:41 PM
Last edit: September 06, 2018, 04:10:06 PM by Coin-1
 #2

Список омографов для ASCII:

Символ ASCIIНомер Unicode  Комментарий      Verdana   Arial        Sans Serif  Courier New
1)A (65)0x0391 (913)ГреческийA  ΑA  ΑA  ΑA  Α
2)B (66)0x0392 (914)ГреческийB  ΒB  ΒB  ΒB  Β
3)E (69)0x0395 (917)ГреческийE  ΕE  ΕE  ΕE  Ε
4)Z (90)0x0396 (918)ГреческийZ  ΖZ  ΖZ  ΖZ  Ζ
5)H (72)0x0397 (919)ГреческийH  ΗH  ΗH  ΗH  Η
6)I (73)0x0399 (921)ГреческийI  ΙI  ΙI  ΙI  Ι
7)K (75)0x039A (922)ГреческийK  ΚK  ΚK  ΚK  Κ
8)M (77)0x039C (924)ГреческийM  ΜM  ΜM  ΜM  Μ
9)N (78)0x039D (925)ГреческийN  ΝN  ΝN  ΝN  Ν
10)O (79)0x039F (927)ГреческийO  ΟO  ΟO  ΟO  Ο
11)P (80)0x03A1 (929)ГреческийP  ΡP  ΡP  ΡP  Ρ
12)T (84)0x03A4 (932)ГреческийT  ΤT  ΤT  ΤT  Τ
13)Y (89)0x03A5 (933)ГреческийY  ΥY  ΥY  ΥY  Υ
14)X (88)0x03A7 (935)ГреческийX  ΧX  ΧX  ΧX  Χ
15)o (111)0x03BF (959)Греческийo  οo  οo  οo  ο
16)c (99) [4]0x03E2 (994)Греческийc  ϲc  ϲc  ϲc  ϲ
17)j (106) [2]0x03E3 (995)Македонскийj  ϳj  ϳj  ϳj  ϳ
18)C (67) [4]0x03E9 (1001)C  ϹC  ϹC  ϹC  Ϲ
19)S (83)0x0405 (1029)МакедонскийS  ЅS  ЅS  ЅS  Ѕ
20)I (73)0x0406 (1030)I  ІI  ІI  ІI  І
21)J (74)0x0408 (1032)МакедонскийJ  ЈJ  ЈJ  ЈJ  Ј
22)A (65)0x0410 (1040)РусскийA  АA  АA  АA  А
23)B (66)0x0412 (1042)РусскийB  ВB  ВB  ВB  В
24)E (69)0x0415 (1045)РусскийE  ЕE  ЕE  ЕE  Е
25)K (75) [1]0x041A (1050)РусскийK  КK  КK  КK  К
26)M (77)0x041C (1052)РусскийM  МM  МM  МM  М
27)H (72)0x041D (1053)РусскийH  НH  НH  НH  Н
28)O (79)0x041E (1054)РусскийO  ОO  ОO  ОO  О
29)P (80)0x0420 (1056)РусскийP  РP  РP  РP  Р
30)C (67)0x0421 (1057)РусскийC  СC  СC  СC  С
31)T (84)0x0422 (1058)РусскийT  ТT  ТT  ТT  Т
32)X (88)0x0425 (1061)РусскийX  ХX  ХX  ХX  Х
33)a (97)0x0430 (1072)Русскийa  аa  аa  аa  а
34)e (101)0x0435 (1077)Русскийe  еe  еe  еe  е
35)o (111)0x043E (1086)Русскийo  оo  оo  оo  о
36)p (112)0x0440 (1088)Русскийp  рp  рp  рp  р
37)c (99)0x0441 (1089)Русскийc  сc  сc  сc  с
38)y (121) [3]0x0443 (1091)Русскийy  уy  уy  уy  у
39)x (120)0x0445 (1093)Русскийx  хx  хx  хx  х
40)s (115)0x0455 (1109)Македонскийs  ѕs  ѕs  ѕs  ѕ
41)i (105)0x0456 (1110)i  іi  іi  іi  і
42)j (106)0x0458 (1112)Македонскийj  јj  јj  јj  ј
43)Y (89)0x04AE (1198)Y  ҮY  ҮY  ҮY  Ү
44)h (104)0x04BB (1211)h  һh  һh  һh  һ
45)I (73) [2]0x04C0 (1216)I  ӀI  ӀI  ӀI  Ӏ
46)l (108) [2]0x04CF (1231)l  ӏl  ӏl  ӏl  ӏ
47)G (71) [1]0x050C (1292)G  ԌG  ԌG  ԌG  Ԍ
48)Q (81)0x051A (1306)Q  ԚQ  ԚQ  ԚQ  Ԛ
49)q (113)0x051B (1307)q  ԛq  ԛq  ԛq  ԛ
50)W (87)0x051C (1308)W  ԜW  ԜW  ԜW  Ԝ
51)w (119)0x051D (1309)w  ԝw  ԝw  ԝw  ԝ

[1] почти одинаковы во всех шрифтах
[2] одинаковы во всех шрифтах, кроме "Verdana" (v5.02)
[3] одинаковы во всех шрифтах, кроме "Courier New" (v5.11)
[4] одинаковы только в шрифте "Arial" (v5.06)
Coin-1 (OP)
Legendary
*
Offline Offline

Activity: 2436
Merit: 2174



View Profile
September 03, 2018, 12:32:16 PM
Last edit: September 06, 2018, 04:10:25 PM by Coin-1
 #3

Зарезервировано.
esmanthra
Hero Member
*****
Offline Offline

Activity: 504
Merit: 732


View Profile
September 03, 2018, 02:52:19 PM
Merited by xandry (2), Xal0lex (1)
 #4

для усложнения обнаружения эти баунти-хантеры начали использовать гомографы

"Омографы", а если еще корректнее - омоглифы. Омографы - это вообще-то про слова. Хотя хакерская атака с подменой букв в URL-адресах и называется "омографической".

Quote
системы анализа не смогут выявить плагиат, просто сравнивая тексты в кодировке UTF-8

И это замечание превратило бы данную тему в пособие для начинающих копипастеров, если бы не одно "но": продвинутые системы распознавания плагиата и работы с текстом таки выявляют омоглифы. К примеру, российская система Антиплагиат выявляет (по крайней мере так утверждает ее исполнительный директор). Google Chrome (который браузер) "палит" смесь кириллицы и латинницы просто при проверке орфографии (т.е. можно тупо включить проверку и перекопировать текст в любое поле в браузере - "спорные" места будут подсвечены). LanguageTool (что английский, что русский) показывает слова с омоглифами как "имеющие возможную ошибку в написании". А известный сайт-антиплагиатор text.ru и вовсе с омоглифами обходится жестко: неизвестные ему (вроде македонских символов) выбрасывает, известные подсчитывает в "SEO-анализе текста" (пункт "Замена символов") - и, естественно, все равно находит источник.

Кому интересно - может поковыряться в упомянутых с этой вот фразой (в которую специально понапихана куча разных омоглифов):

Code:
Thrее yеаrs agο, Micrоsоft Azure wаs the first tо bring blоckchain tο the clоud. Nоw it's cоnnеcting the tеchnоlоgy tо just abοut еverything еlse.

(Первоначально фраза взята отсюда.)
biom33
Member
**
Offline Offline

Activity: 528
Merit: 38


View Profile
September 03, 2018, 03:34:11 PM
 #5

неужели такими подменами кто-то занимается для набивания постов, на мой взгляд подмена символов займет больше времени чем написание своего поста и поэтому бессмысленна или преследуются другие цели.
Coin-1 (OP)
Legendary
*
Offline Offline

Activity: 2436
Merit: 2174



View Profile
September 06, 2018, 04:14:16 PM
 #6

"Омографы", а если еще корректнее - омоглифы. Омографы - это вообще-то про слова. Хотя хакерская атака с подменой букв в URL-адресах и называется "омографической".

Да, правильнее будет "омографы", поправлю название темы. На мой взгляд, "омоглифы" - это, скорее, относится к изображениям, "омографы" - более широкое понятие.


И это замечание превратило бы данную тему в пособие для начинающих копипастеров, если бы не одно "но":

Здесь есть ещё одно "но": для SEO-сервиса нужно знать, на каком языке написано сообщение, так как алгоритму анализа нужно привести потенциальный плагиат к одинаковому формату со сравниваемым текстом. В любом случае, для работы SEO-сервису нужен полный список омографов, которые могут использоваться в текстах на данном языке. Могу сказать, что поисковые системы в общем случае хранят найденную в Интернете текстовую информацию "как есть", то есть без изменений.



неужели такими подменами кто-то занимается для набивания постов, на мой взгляд подмена символов займет больше времени чем написание своего поста и поэтому бессмысленна или преследуются другие цели.

Да, на форуме в англоязычных ветках некоторые недобросовестные баунти-хантеры занимаются подменой ASCII-символов в постах. Сообщения перед отправкой можно модифицировать простым JS-скриптом за одну секунду. Это не занимает много времени.

Оказывается, буквально недавно проблема была решена ретроспективной заменой таких символов при показе постов в англоязычных секциях, но, по-моему, ещё не все омографы были добавлены в тот список.
grimeygrim
Jr. Member
*
Offline Offline

Activity: 65
Merit: 4



View Profile WWW
September 30, 2018, 11:22:00 AM
 #7

Яндекс ещё лет 20 назад, когда он был просто одним из поисковиков, умел определять фразы, где русские буквы были заменены латинскими, аналогичными по написанию.
Alex_Sr
Hero Member
*****
Offline Offline

Activity: 840
Merit: 962


HOLD BITCOIN! Fiat - SCAM!


View Profile WWW
November 15, 2018, 02:31:32 PM
 #8

Пару дней назад увидел несколько одинаковых аккаунтов в SPREADSHEET моей подписной. Что интересно - мошенники использовали букву B из этого списка и при сортировке по алфавиту аккаунты оказывались в разных частях таблицы что затрудняло их обнаружение.


░░░░░░░▄▄▄▄▄▄
░░░░▄██████████▄
░░░██████████████
░░██████▐▌██████
█████░░░░░░░▀█████
██████▄▄░░▄▄░░██████
████████░░▀▀▄██████
████████░░▄▄▄░░█████
██████▀▀░░▀▀▀░░█████
█████░░░░░░░░█████
░░██████▐▌██████
░░░██████████████
░░░░▀██████████▀
░░░░░░░▀▀▀▀▀▀
░░░
||
|
Coin-1 (OP)
Legendary
*
Offline Offline

Activity: 2436
Merit: 2174



View Profile
November 15, 2018, 04:42:30 PM
 #9

Пару дней назад увидел несколько одинаковых аккаунтов в SPREADSHEET моей подписной. Что интересно - мошенники использовали букву B из этого списка и при сортировке по алфавиту аккаунты оказывались в разных частях таблицы что затрудняло их обнаружение.

Интересно. Оказывается, даже в баунти-таблицах мошенники уже омографы используют.

Сейчас, кстати, на форуме плагиаторы начали применять так называемые "спиннеры", которые заменяют ключевые слова в исходном предложении на синонимы. При этом примерный смысл текста остаётся неизменным.
Alex_Sr
Hero Member
*****
Offline Offline

Activity: 840
Merit: 962


HOLD BITCOIN! Fiat - SCAM!


View Profile WWW
November 15, 2018, 04:54:40 PM
Last edit: November 15, 2018, 05:06:08 PM by Alex_Sr
 #10

Сейчас, кстати, на форуме плагиаторы начали применять так называемые "спиннеры", которые заменяют ключевые слова в исходном предложении на синонимы. При этом примерный смысл текста остаётся неизменным.

Видимо генерировать "свежий" контент ботофермам все сложнее и сложнее. Вот и пускают в ход СЕО-шные инструменты типа СловоЁБа.

В результате получаются посты типа: "Мы думаем что криптовалюта вырастут, но возможно и упадет, но я точно не знал"  Grin


░░░░░░░▄▄▄▄▄▄
░░░░▄██████████▄
░░░██████████████
░░██████▐▌██████
█████░░░░░░░▀█████
██████▄▄░░▄▄░░██████
████████░░▀▀▄██████
████████░░▄▄▄░░█████
██████▀▀░░▀▀▀░░█████
█████░░░░░░░░█████
░░██████▐▌██████
░░░██████████████
░░░░▀██████████▀
░░░░░░░▀▀▀▀▀▀
░░░
||
|
esmanthra
Hero Member
*****
Offline Offline

Activity: 504
Merit: 732


View Profile
November 16, 2018, 07:00:38 AM
 #11

плагиаторы начали применять так называемые "спиннеры", которые заменяют ключевые слова в исходном предложении на синонимы. При этом примерный смысл текста остаётся неизменным

Это не новшество какое-то. Простейший рерайт в копирайтинге строится на этом.
Pages: [1]
  Print  
 
Jump to:  

Powered by MySQL Powered by PHP Powered by SMF 1.1.19 | SMF © 2006-2009, Simple Machines Valid XHTML 1.0! Valid CSS!