هذا الموضوع يحتوي على 14 رد و 4 مشاركون وتمّ تحديثه آخر مرة بواسطة  AboAlabbas قبل 3 سنوات، 11 شهور.

أضف رد جديد
الحالة: بحاجة لحل
  • منشئ
    موضوع
  • #17024

    السلام عليكم ورحمة الله وبركاته،،

    ووردبريس 3.7 قدمت ميزة جديدة و هي ترتيب نتائج البحث عبر الأفضلية، في خوارزمية البحث الجديدة للووردبريس، تقوم بحذف كلمات تسمى “الكلمات المستبعدة” لكي يتم تحسين طريقة البحث في قاعدة البيانات.

    ما هي الكلمات المستبعدة؟

    الكلمات المستبعدة (stop-words) هي الكلمات التي تستبعد قبل المعالجة اللغوية الآلية للبيانات (نصوص). وهي الكلمات التي تتكرر في النصوص مثل (في، من، إلى،…) ويستحسن تجاهلها وعدم فهرستها من أجل تحسين البحث. ويرجع الفضل لهانس بيتر لوهن (من الرواد في استرجاع المعلومات) في استعمال هذا المصطلح والمفهوم في التطوير

    إقتباس من مشروع “الكلمات العربية المستبعدة“.

    ما المطلوب؟
    حسب البحث الذي قمت حول أي مشاريع سابقة لتجميعات “الكلمات المستبعدة العربية”، بعض القوائم تتعدى 1000 كلمة! نحن نحتاج إلى ما يقارب 100 كلمة كحد اقصى في الترجمة الأساسية للووردبريس.

    طبعاً المسألة ليست مجرد “ترجمة” فهذا الموضوع شديد الحساسية، وممكن يؤثر على كثير من المواقع إن تم إختيار الكلمات بشكل عشوائي، لذا قمت بمراسة بعض المختصين في مجال “اللغات الطبيعية” و مازلت أنتظر الرد.

    إلى ذلك الحين، هذا الموضوع مفتوح لأي إقتراح بهذا الخصوص..

    ربما تحتاج خدمات ووردبريس مدفوعة؟ ندعوك لزيارة عرب ووردبريس بريميوم - الفرع التجاري الرسمي لموقع عرب ووردبريس.

الوسوم: 

مشاهدة 4 ردود - 11 حتى 14 (من مجموع 14)
  • الكاتب
    الردود
  • #17134

    طير طيار
    Participant

    خيار معالجه مدخل البحث بما يوافق القواعد الموضوعه هو حل جيد وانا استخدمه فى برمجة البحث فى قواعد البيانات البسيطه
    وانصح اذا امكن الاستبدال
    حرف (ى) الى (ي) لان هناك ملايين الاخطاء فى عدم التمييز بينهم وبالتالى التوحيد الى (ي) يفيد اذا كنت افهم ماتقولون جيدا
    وايضا استبدال (ة) ب (ه) لان (ة) مفرده ولا تأتي الا فى اخر الكلام ويمكن استبدالها ب (ه)

    لا ادرى ان كان كلامي مفيد وفى صلب الموضوع ام لا فتقبلوا محاولتى.

    #17141

    ما رأيك في اضافة جميع احرف التشكيل (منفصلة) في الكلمات الممنوعة … فمن المعروف ان كل تشكيل = حرف وبالتالي سهل منع وجوده ..من المعروف ان التشكيل يضر بالسيو بشكل عام ..

    قائمة “الكلمات المستبعدة” هي للكلمات فقط، لا يستحسن وضع قائمة حروف بشكل منفصل. أعرف أن الموضوع ممكن يتطور ولكن دعنا نضع في نواة الووردبريس الشئ الأساسي فقط و ننشر إضافة “WP Arabic Stopwords” للأشياء الإضافية.

    السؤال الاهم : هل هذا الاجراء يمكنه ان يؤثر علي الاداء او قد يولد اخطاء ؟

    لقد قمت بالأمس بتجهيز باتش لنواة الووردبريس لحذف علامات التشكيل و تحسين التعامل مع النصوص العربية.. حالياً أقوم ببعض التجارب الإضافية على الأداء و غيرها من التفاصيل.. أستبعد أن يتم تطبيق الباتش في ووردبريس 3.7 خاصة مع إقتراب موعد الإصدار النهائي،، ولكن من الممكن أن يتم تطبيقه في ووردبريس 3.8 التي ستصدر في بداية السنة الجديدة.

    وهذا -ازالة الهمزات بالذات- سيؤثر في نتائج البحث بطريقة سلبية لان عملية المعالجة ستطبق على المدخل كله.

    بشكل عام طريقة البحث ستتحسن. ستبقى هناك بعض الحالات الشاذة بالطبع.. حالياً من الممكن حذف الهمزات في عملية المقارنة مع الكلمات المستبعدة فقط،، و إرجاعها عند عملية البحث في قاعدة البيانات. ما رأيك؟

    #17142

    حرف (ى) الى (ي) لان هناك ملايين الاخطاء فى عدم التمييز بينهم وبالتالى التوحيد الى (ي) يفيد اذا كنت افهم ماتقولون جيدا
    وايضا استبدال (ة) ب (ه) لان (ة) مفرده ولا تأتي الا فى اخر الكلام ويمكن استبدالها ب (ه)

    أتفق معك بخصوص التاء المربوطة.. ولكن لا أعلم بخصوص الياء..
    الموضوع محتاج تفكير 🙂

    #17171

    AboAlabbas
    Participant

    حالياً من الممكن حذف الهمزات في عملية المقارنة مع الكلمات المستبعدة فقط، و إرجاعها عند عملية البحث في قاعدة البيانات. ما رأيك؟

    الفكرة جيدة جدا ..
    المشكلة انه ليس الكل يهتم بالهمزات اثناء الكتابة ولكن ايضا ليس الكل يهملها.
    مثال: البحث عن كلمة “اسلام” مرة بهمزة ومرة بدونها.. اختلفت النتيجة كثيرا هذا لان المدون هنا يهتم بالهمزات وبالتالي سيحدث العكس اذا كان المدون عكس ذلك:
    http://www.osamashahwan.info/?s=%D8%A5%D8%B3%D9%84%D8%A7%D9%85
    http://www.osamashahwan.info/?s=%D8%A7%D8%B3%D9%84%D8%A7%D9%85

مشاهدة 4 ردود - 11 حتى 14 (من مجموع 14)

يجب تسجيل الدخول للرد على هذا الموضوع.

الحالة: بحاجة لحل