Bitcoin Forum

Local => إستفسارات و أسئلة المبتدئين => Topic started by: NotATether on January 07, 2021, 06:26:46 PM



Title: تفصيل عن المعاجلة كشف كتابة
Post by: NotATether on January 07, 2021, 06:26:46 PM
السلام عليكم و رحمة الله وبركاته

اليوم سأفصل ما هو كشف كتابة (stylometry) و لماذا هو مفيد لمستخدمين إنترنت و مثير للإعجاب خاصة لمستخدمين bitcointalk .

ما هو كشف كتابة؟

كل شخص عنده طريقة فريدة لكتابة منشورات، كلنا عندنا كلمات أو عبارات مفضلة نستخدمها مرات كثيرة. و يستطيع معظمنا تحديد انك المؤلف منشورة بنظر هذه كلمات أو عبارات. و أيضا بعض الناس يكتبون جملات قصيرة ليس منظم بالكامل و بعدهم يكتبون جملاتهم بفقرات طويلة مع مفردات غنية.

كشف كتابة هو علم أنماط كتابة شخص ما لتجميع هويته من تلك كتابات، و يمكن إستخدام الهوية لتميز الشخص الذي كتبها حتى و لو لم يستخدم نفس اسم المستخدم أو مستعار في الموقع أو مكان الذي كتبها. يدعم كشف كتابة تحديد شخص الذي يشارك في مواقع أو امكان معددة، بنسبة محددة. يعني ليس من الممكن تحديد منشور شخص انه يمتني اليه بالضبط، و لكن فقط انه يمتني اليه مع احتمال مثل 90% او 99% و لكن ليس 100%. علم كشف كتابة ليس شيء سهل حسابه فلنرى كيف ينجز هذا معاجلة.

كيفيه ينجز كشف كتابة على شخص ما:

سأحدث الخطوات التي يتعين على ناس اتخاذها قبل تحديد شخص ما. أولا يحتاجون إلى كثير من منشورات الذي علمت بالتأكيد ان كتبه الشخص الذي تحاول تحديده. أتحدث عن أحجام في الحدود مئات أو آلاف منشورات. و السبب الذي تحتاج إلى كثير من منشورات هو لتدريب النموذج الذي سيدرس هذه المنشورات. و لا يستطيع دراسة عينة مع منشورات قليلة لان لم يكون معلومات كافية لوصل إلى نتيجة دقيقة و يصل بدلا من ذلك إلى نتيجة غامضة غير مفيد.

ثانية تحتاج إلى برنامجات أو وحدات مخصصة لتدريس ناموذجات. لن أتحدث عن وحدات مخصصة في هذا دورة تعليمي لأنهم تقني للغاية لا يفهمه معظمكم، و نفس شيء للناموذجات، هم مفاهيم إحصائية لازم لديك معرفة رياضيات المتقدمة لتفهمهم. ربما أحدثهم في منشور ثاني إن شاء الله. سأعلق فقط ان كل البرنامجات والنموذجات أساسي متاح مجانا على إنترنت و مصدرهم نفسه مجانا ذاته لتنزيلها و تشغيله محليا.

لتجنب الكشف بواسطة ناموذج كشف كتابة:

يعرض كشف كتابة مشكلة لكثير من الناس لانه ينته خصوصيتهم. و لكن منذ يصنف خوارزمية النموذج منشوراتك و كل خوارزميات عندهم أوجهة القصور فمن الممكن استغلال بعض هؤلاء أوجهة القصور لتجعل النموذج تصنف المنشورات الأكثر غمض. في هذا الحالة إذا قمت بتناوب بين جملات طويلة وقصيرة و لا تعد استخدام نفس كلمات في كثير من المنشورات فلن يكن لدى منشوراتك أي شيء مشترك.

في الواقع، استخدم ساتوشي ناكاموتو تقنية كتابة في المنتدى و البريد إلكترونية فيها توجد تشابه منخفض بين أي منشورتين. بسبب هذا تشابه منخفض و حقيقة ان لم يكشف عن أي معلومات شخصية، لم يكن من الممكن تحديد ساتوشي. ربما عرف الجوهر كشف كتابة جيد ما يكفي لكتابة منشوراته بشكل مختلف.


Title: Re: تفصيل عن المعاجلة كشف كتابة
Post by: khaled0111 on January 07, 2021, 08:21:16 PM
كل شخص لديه بصمة خاصة في الكتابة و يمكن في اغلب الحالات التعرف على الكاتب من خلال هذه البصمة اذا كان يكتب بشكل طبيعي و لا يحاول تغيير طريقته في الكتابة لاخفاء هويته.
المفردات، تركيبات الجمل، النقاط، الفواصل وطريقة استعمالها، كيفية اضافة اقتباس، الرموز التعبيرية... كلها يمكن استعمالها للتعرف على الكاتب اضافة الى الطابع الخاص. يمكن ايضا الاعتماد على الوقت الذي يتم فيه النشر في بعض الحالات.
مثل هذه البرمجيات تعتمدها بالاساس الوكالات الحكومية و اجهزة المخابرات و على ما اعتقد تم استعمالها على كتابات ساتوشي لكن لم يتم الوصول الى اي نتيجة.

هناك حادثة خرى يمكن اعتبارها طريفة تم خلالها استعمال هذه التقنية هنا في المنتدى لتاكيد ان عضويتين يمتلكهما شخص واحد. يمكن قراءة اكثر تفاصيل على هذه الحادثة في الرابط التالي اين تم نشر كود السكريبت المستعمل لكن لم يتم نشر النماذج:
https://bitcointalk.org/index.php?topic=1171059.0


Title: Re: تفصيل عن المعاجلة كشف كتابة
Post by: NotATether on January 08, 2021, 06:29:19 AM
مثل هذه البرمجيات تعتمدها بالاساس الوكالات الحكومية و اجهزة المخابرات و على ما اعتقد تم استعمالها على كتابات ساتوشي لكن لم يتم الوصول الى اي نتيجة.

وجدت المقالة (http://web.archive.org/web/20200108181712/https://medium.com/@amuse/how-the-nsa-caught-satoshi-nakamoto-868affcef595) فيها يطالب الNSA انهم إشاءوا بصمة ساتوشي بإجراء مقارنة بين كتابته و كتابة عدد هائل من الناس. و تم حصول على كل هذه كتابات من مستندات و ملفات الذي وصلوا عليهم ببرنامج PRISM  و هذا برنامج حكومية لتجسس على بريد إلكتروني تقريبا كل مستخدمين مزود بريد اليكتروني جيميل و ياهو، و طبعا أنا لا أعجب او أوافق إلى هذه حصول الغزو الخصوصية خاصة عندما يكون نصوص متاحة للجمهور الذي حجم مجموعات بياناتهم يتجاوز إلى حد الكبير حجم البريد الإلكتروني المرسل في جميع الأوقات. و ثاني مصدر البيانات الذي استخدموا لينشاء بصمة ساتوشي هو برنامج MUSCULAR و هو إيضا برنامج حكومية، يعترض حركة المرور من مراكز بيانات جوجل و فيسبوك و أمازون و ياهو، لا أعرف ما هو نوع البيانات الذي يعترضون و لكن هذا ليس من المفترض ان يكون هذا ممكنا لان حركة المرور من المفترض ان يكون مشفرا بين برنامجين.

 و من المثير للإهتمام، رغم أنهم يملكون هذا بصمة هائل، لم يستطيعون تحديد ساتوشي بها إلى هذا اليوم  ::)

موجود استخدامات مشروعة لكشف كتابة مثل الذي ذكرته و لكن لسوء الحط يتم إساءة استخدامه من قبل كثير من الناس.


Title: Re: تفصيل عن المعاجلة كشف كتابة
Post by: khaled0111 on January 08, 2021, 11:26:42 PM
اخر اهتمامات الولايات المتحدة هي خصوصية الاشخاص سواء كانو امريكيين او من اي مكان في العالم.
و قد تم الكشف في عديد المرات عن عمليات التجسس و التنصت التي تقوم بها و كالاتهم الاستخباراتية.
المقلق في الموضوع هو تمكنهم من الوصول لكل تلك البيانات رغم انها تنتقل بشكل مشفر بين المستخدم و الشركات الكبرى. الخلل ليس في عملية التشفير نفسها لكن في عملية نقل البيانات بشكل غير مشفر بين مراكز بيانات الشركات نفسها اين يتم التقاط هذه البيانات و سرقتها.
في كل الحالات لا استغرل ان تكون شركات مثل قوقل و فايسبوك و غيرها متواطئة بالاساس و تقوم بتسليم البيانات عن طواعية.
اسف على الخروج عن الموضوع الاساسي  :D

هل هناك برنامج مفتوح المصدر قمت بتجربته و يمكنك اطلاعنا عليه و على مدى دقته؟


Title: Re: تفصيل عن المعاجلة كشف كتابة
Post by: NotATether on January 11, 2021, 04:38:53 AM
هل هناك برنامج مفتوح المصدر قمت بتجربته و يمكنك اطلاعنا عليه و على مدى دقته؟


بحثت لبرنامجات في جوجل و وجدت عدد من وحدات كشف الكتابة كتب لللغة برمجة بيثون و لحسن الحظ أنا من ذوي خبرة في بيثون فقمت بإنشاء بيئة إفتراضسة (ضروري لكي لا تتدخل التبيعات للوحدات الذي انصبت على نظامي) و لدي الوحدات التالية منصوب من Github:

- worldwise001/stylometry (https://github.com/worldwise001/stylometry)
- jpotts18/stylometry (https://github.com/jpotts18/stylometry) و هذا لم يعد تطوير و لكن ينظر انه ما زال مفيد
- dykang/PASTEL (https://github.com/dykang/PASTEL) كود دعم من ورقة بحثية عن كشف كتابة
- evllabs/JGAAP (https://github.com/evllabs/JGAAP) هذا اداة مصممة خاصية لحل مشاكل الإستنان، يبدو مفيدا لفحص سرقة ادبية مكتوب في جافا
- Hassaan-Elahi/Writing-Styles-Classification-Using-Stylometric-Analysis (https://github.com/Hassaan-Elahi/Writing-Styles-Classification-Using-Stylometric-Analysis) وحدة يتعارف عن أنماط الكتابة مختلفة في نفس مستندة
و في كثير جدا من وحدات الذي لم شفتهم يمكنك ترى هنا https://github.com/topics/stylometry

شخصية أنا منبهر بكل هذه الوحدات و في كشف كتابة بشكل عام و اريد ان اجد وقت في هذا أسبوع لمحاولتهم.