تنظيف البيانات وتحليلها

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson
Download our mobile app to listen on the go
Get App

Questions and Answers

ما هي الطريقة التي يُفضل تجاهلها عند تصنيف البيانات؟

  • تجاهل المجموعة المستخرجة
  • استخدام متوسط القيم
  • ملء القيم المفقودة يدويًا
  • تجاهل العبارات المفقودة (correct)

ما هو العيب الرئيسي في ملء القيم المفقودة يدويًا؟

  • يعتمد على تقديرات غير دقيقة
  • ممل وغير قابل للتطبيق (correct)
  • يؤدي إلى انحراف البيانات
  • يتطلب مهارات عالية

لماذا لا يكون تجاهل القيم المفقودة فعالًا عندما تختلف النسب من خاصية إلى أخرى؟

  • لأنه قد يؤدي إلى نقص جماعي في البيانات
  • لأنه يجعل النتائج غير دقيقة (correct)
  • لأنه يزيد من التعقيد في التحليل
  • لأنه يتطلب موارد إضافية

ما هو الحل غير الفعال عندما تكون هناك نسبة كبيرة من القيم المفقودة في مجموعة البيانات؟

<p>تجاهل القيم المفقودة (C)</p> Signup and view all the answers

ما هي إحدى العواقب المحتملة لتجاهل القيم المفقودة في التصنيف؟

<p>تدهور جودة البيانات (B)</p> Signup and view all the answers

ما هو التعريف الصحيح لكلمة 'صاخب' في سياق البيانات؟

<p>احتواء البيانات على ضوضاء أو أخطاء (A)</p> Signup and view all the answers

أي من الخيارات التالية تعبر عن حالة عدم التناسق في البيانات؟

<p>عيد الميلاد هو '03/07/2010' والسن هو '42' (D)</p> Signup and view all the answers

ما الفائدة الرئيسية من تصوير البيانات؟

<p>اكتشاف الأنماط والاتجاهات (B)</p> Signup and view all the answers

أي من الخيارات التالية لا يرتبط بتحديد الضوضاء في البيانات؟

<p>التحليلات الإحصائية (C)</p> Signup and view all the answers

ما هي الحالة التي يمكن أن تكون 'صاخبة' في البيانات؟

<p>انخفاض غير معقول في البيانات المالية (D)</p> Signup and view all the answers

ما هي العناصر التي يمكن تحديدها من خلال تصوير البيانات؟

<p>اكتشاف الضوضاء والأنماط (A)</p> Signup and view all the answers

أي من الخيارات التالية تعبر عن عدم التناسق في التقييمات؟

<p>تحديث من '1, 2, 3' إلى 'A, B, C' (C)</p> Signup and view all the answers

ما هي السمة التي تشير إلى وجود أخطاء في السجلات المكررة؟

<p>وجود بيانات غير متطابقة بين السجلات (B)</p> Signup and view all the answers

ما هو الغرض من التعامل مع البيانات الضوضائية؟

<p>تحسين جودة ودقة التحليل (A)</p> Signup and view all the answers

أي من العوامل التالية قد تشير إلى وجود ضوضاء في البيانات؟

<p>ظهور الشواذ بين البيانات (B)</p> Signup and view all the answers

ما هي إحدى الطرق لاكتشاف تناقض البيانات؟

<p>استخدام المعلومات الوصفية مثل المجال والنطاق (A)</p> Signup and view all the answers

أي من الخيارات التالية تمثل عملية تنقيح البيانات؟

<p>استخدام المعرفة البسيطة في المجال لاكتشاف الأخطاء (C)</p> Signup and view all the answers

ما هي العملية التي تتضمن تحليل البيانات لاكتشاف القواعد والعلاقات؟

<p>تدقيق البيانات (A)</p> Signup and view all the answers

ما الهدف من استخدام أدوات تجارية في عملية اكتشاف تناقض البيانات؟

<p>للتحقق من صحة المعلومات بشكل تلقائي (B)</p> Signup and view all the answers

ما هي القاعدة التي يجب فحصها في عملية اكتشاف تناقض البيانات؟

<p>قاعدة التكرار (D)</p> Signup and view all the answers

ما هي الخطوة الأولى في طرق تقسيم البيانات لتنعيمها؟

<p>ترتيب مجموعة البيانات (A)</p> Signup and view all the answers

ما الهدف من تقسيم النطاق إلى N فترات في طرق تقسيم البيانات؟

<p>لتحقيق توازن في توزيع العينات (B)</p> Signup and view all the answers

ما الذي يتم تحقيقه من خلال استخدام تقسيم عمق متساوي في تقسيم البيانات؟

<p>توزيع العينات بالتساوي (C)</p> Signup and view all the answers

أي من الخطوات التالية ليست جزءًا من طرق تقسيم البيانات لتنعيمها؟

<p>تحديد الأبعاد العشوائية (D)</p> Signup and view all the answers

كيف يتم التعامل مع النطاق أثناء تقسيم البيانات لتنعيمها؟

<p>تقسيم النطاق بحيث يحتوي على نفس العمق لكل عينة (A)</p> Signup and view all the answers

Flashcards are hidden until you start studying

Study Notes

### بيانات ضوضاء 

  • تحتوي على ضوضاء أو أخطاء أو قيم شاذة.
  • على سبيل المثال، الراتب = "-10" (خطأ).

### بيانات غير متسقة

  • تحتوي على تناقضات في الرموز أو الأسماء.
  • على سبيل المثال:
    • العمر = "42"، تاريخ الميلاد = "03/07/2010"
    • كان التصنيف "1، 2، 3" ، أصبح التصنيف الآن "أ، ب، ج"
    • تناقض بين سجلات مكررة.

### التعامل مع البيانات الضوضاء

  • تجاهل السجل: يتم ذلك عادةً عندما يكون تصنيف الفئة مفقودًا (عند القيام بالتصنيف) - غير فعال عندما تختلف نسبة القيم المفقودة لكل سمة بشكل كبير.
  • ملء القيمة المفقودة يدويًا: شاق وغير عملي؟
  • يساعد تصور البيانات في تحديد الأنماط والاتجاهات والقيم الشاذة أو الشذوذات التي قد تشير إلى الضوضاء.

تقنيات التجميع لتنعيم البيانات

  • تقسيم البيانات إلى مجموعات مجاورة.
  • طريقة تقسيم متساوية العمق: تقسيم نطاق البيانات إلى نطاقات متساوية مع عدد تقريبيًا متساوٍ من العينات في كل نطاق.
  • تخزين المتوسط أو الوسيط أو الحدود في كل صف.

### تنظيف البيانات كعملية 

  • كشف تناقض البيانات:

    • استخدام البيانات الوصفية (على سبيل المثال المجال، النطاق، التبعية، التوزيع)
    • التحقق من تحميل الحقول الزائد
    • التحقق من قاعدة التميز، قاعدة المتتاليات وقاعدة الفراغات
    • استخدام أدوات تجارية.
  • تنقيح البيانات: استخدام معرفة مجال بسيطة (على سبيل المثال رمز بريدي، تصحيح إملائي) للكشف عن الأخطاء وإجراء التصحيحات.

  • تدقيق البيانات: عن طريق تحليل البيانات لاكتشاف القواعد والعلاقات للكشف عن المخالفين (على سبيل المثال الارتباط والتجميع للعثور على القيم الشاذة).

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

Data Cleaning Chapter 3 PDF

More Like This

Data Cleaning and Transformation Quiz
18 questions
Data Cleaning Steps in Data Governance
10 questions
Data Cleaning and Validation
15 questions

Data Cleaning and Validation

EventfulConnemara815 avatar
EventfulConnemara815
Data Cleaning with Janitor Package
20 questions
Use Quizgecko on...
Browser
Browser