تنظيف البيانات وتحليلها
25 Questions
8 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

ما هي الطريقة التي يُفضل تجاهلها عند تصنيف البيانات؟

  • تجاهل المجموعة المستخرجة
  • استخدام متوسط القيم
  • ملء القيم المفقودة يدويًا
  • تجاهل العبارات المفقودة (correct)
  • ما هو العيب الرئيسي في ملء القيم المفقودة يدويًا؟

  • يعتمد على تقديرات غير دقيقة
  • ممل وغير قابل للتطبيق (correct)
  • يؤدي إلى انحراف البيانات
  • يتطلب مهارات عالية
  • لماذا لا يكون تجاهل القيم المفقودة فعالًا عندما تختلف النسب من خاصية إلى أخرى؟

  • لأنه قد يؤدي إلى نقص جماعي في البيانات
  • لأنه يجعل النتائج غير دقيقة (correct)
  • لأنه يزيد من التعقيد في التحليل
  • لأنه يتطلب موارد إضافية
  • ما هو الحل غير الفعال عندما تكون هناك نسبة كبيرة من القيم المفقودة في مجموعة البيانات؟

    <p>تجاهل القيم المفقودة (C)</p> Signup and view all the answers

    ما هي إحدى العواقب المحتملة لتجاهل القيم المفقودة في التصنيف؟

    <p>تدهور جودة البيانات (B)</p> Signup and view all the answers

    ما هو التعريف الصحيح لكلمة 'صاخب' في سياق البيانات؟

    <p>احتواء البيانات على ضوضاء أو أخطاء (A)</p> Signup and view all the answers

    أي من الخيارات التالية تعبر عن حالة عدم التناسق في البيانات؟

    <p>عيد الميلاد هو '03/07/2010' والسن هو '42' (D)</p> Signup and view all the answers

    ما الفائدة الرئيسية من تصوير البيانات؟

    <p>اكتشاف الأنماط والاتجاهات (B)</p> Signup and view all the answers

    أي من الخيارات التالية لا يرتبط بتحديد الضوضاء في البيانات؟

    <p>التحليلات الإحصائية (C)</p> Signup and view all the answers

    ما هي الحالة التي يمكن أن تكون 'صاخبة' في البيانات؟

    <p>انخفاض غير معقول في البيانات المالية (D)</p> Signup and view all the answers

    ما هي العناصر التي يمكن تحديدها من خلال تصوير البيانات؟

    <p>اكتشاف الضوضاء والأنماط (A)</p> Signup and view all the answers

    أي من الخيارات التالية تعبر عن عدم التناسق في التقييمات؟

    <p>تحديث من '1, 2, 3' إلى 'A, B, C' (C)</p> Signup and view all the answers

    ما هي السمة التي تشير إلى وجود أخطاء في السجلات المكررة؟

    <p>وجود بيانات غير متطابقة بين السجلات (B)</p> Signup and view all the answers

    ما هو الغرض من التعامل مع البيانات الضوضائية؟

    <p>تحسين جودة ودقة التحليل (A)</p> Signup and view all the answers

    أي من العوامل التالية قد تشير إلى وجود ضوضاء في البيانات؟

    <p>ظهور الشواذ بين البيانات (B)</p> Signup and view all the answers

    ما هي إحدى الطرق لاكتشاف تناقض البيانات؟

    <p>استخدام المعلومات الوصفية مثل المجال والنطاق (A)</p> Signup and view all the answers

    أي من الخيارات التالية تمثل عملية تنقيح البيانات؟

    <p>استخدام المعرفة البسيطة في المجال لاكتشاف الأخطاء (C)</p> Signup and view all the answers

    ما هي العملية التي تتضمن تحليل البيانات لاكتشاف القواعد والعلاقات؟

    <p>تدقيق البيانات (A)</p> Signup and view all the answers

    ما الهدف من استخدام أدوات تجارية في عملية اكتشاف تناقض البيانات؟

    <p>للتحقق من صحة المعلومات بشكل تلقائي (B)</p> Signup and view all the answers

    ما هي القاعدة التي يجب فحصها في عملية اكتشاف تناقض البيانات؟

    <p>قاعدة التكرار (D)</p> Signup and view all the answers

    ما هي الخطوة الأولى في طرق تقسيم البيانات لتنعيمها؟

    <p>ترتيب مجموعة البيانات (A)</p> Signup and view all the answers

    ما الهدف من تقسيم النطاق إلى N فترات في طرق تقسيم البيانات؟

    <p>لتحقيق توازن في توزيع العينات (B)</p> Signup and view all the answers

    ما الذي يتم تحقيقه من خلال استخدام تقسيم عمق متساوي في تقسيم البيانات؟

    <p>توزيع العينات بالتساوي (C)</p> Signup and view all the answers

    أي من الخطوات التالية ليست جزءًا من طرق تقسيم البيانات لتنعيمها؟

    <p>تحديد الأبعاد العشوائية (D)</p> Signup and view all the answers

    كيف يتم التعامل مع النطاق أثناء تقسيم البيانات لتنعيمها؟

    <p>تقسيم النطاق بحيث يحتوي على نفس العمق لكل عينة (A)</p> Signup and view all the answers

    Study Notes

    ### بيانات ضوضاء 

    • تحتوي على ضوضاء أو أخطاء أو قيم شاذة.
    • على سبيل المثال، الراتب = "-10" (خطأ).

    ### بيانات غير متسقة

    • تحتوي على تناقضات في الرموز أو الأسماء.
    • على سبيل المثال:
      • العمر = "42"، تاريخ الميلاد = "03/07/2010"
      • كان التصنيف "1، 2، 3" ، أصبح التصنيف الآن "أ، ب، ج"
      • تناقض بين سجلات مكررة.

    ### التعامل مع البيانات الضوضاء

    • تجاهل السجل: يتم ذلك عادةً عندما يكون تصنيف الفئة مفقودًا (عند القيام بالتصنيف) - غير فعال عندما تختلف نسبة القيم المفقودة لكل سمة بشكل كبير.
    • ملء القيمة المفقودة يدويًا: شاق وغير عملي؟
    • يساعد تصور البيانات في تحديد الأنماط والاتجاهات والقيم الشاذة أو الشذوذات التي قد تشير إلى الضوضاء.

    تقنيات التجميع لتنعيم البيانات

    • تقسيم البيانات إلى مجموعات مجاورة.
    • طريقة تقسيم متساوية العمق: تقسيم نطاق البيانات إلى نطاقات متساوية مع عدد تقريبيًا متساوٍ من العينات في كل نطاق.
    • تخزين المتوسط أو الوسيط أو الحدود في كل صف.

    ### تنظيف البيانات كعملية 

    • كشف تناقض البيانات:

      • استخدام البيانات الوصفية (على سبيل المثال المجال، النطاق، التبعية، التوزيع)
      • التحقق من تحميل الحقول الزائد
      • التحقق من قاعدة التميز، قاعدة المتتاليات وقاعدة الفراغات
      • استخدام أدوات تجارية.
    • تنقيح البيانات: استخدام معرفة مجال بسيطة (على سبيل المثال رمز بريدي، تصحيح إملائي) للكشف عن الأخطاء وإجراء التصحيحات.

    • تدقيق البيانات: عن طريق تحليل البيانات لاكتشاف القواعد والعلاقات للكشف عن المخالفين (على سبيل المثال الارتباط والتجميع للعثور على القيم الشاذة).

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Related Documents

    Data Cleaning Chapter 3 PDF

    Description

    يتناول هذا الاختبار مفاهيم تنظيف البيانات، بما في ذلك كيفية التعامل مع الضوضاء والقيم الشاذة والمعلومات المتناقضة. سنتحدث أيضًا عن تقنيات التجميع المستخدمة لتسهيل تحليل البيانات. هذا الاختبار مهم لفهم كيفية تحسين جودة البيانات للتحليل اللاحق.

    More Like This

    Use Quizgecko on...
    Browser
    Browser