Data Check
C+ 77 completedPipeline State
completedPipeline Metadata
AI Prompt
Catalog Information
A toolkit that automates data quality inspection, including validation, anomaly detection, and distribution analysis.
Description
The toolkit provides a comprehensive suite for inspecting data quality across large datasets. It automates validation against user-defined schemas and checks for missing or inconsistent values. Advanced statistical methods detect anomalies and outliers, while distribution analysis highlights shifts in data patterns. The solution is accessible via both a command-line interface and a lightweight web API, enabling integration into existing pipelines. Designed for data engineers and analysts, it helps ensure reliable data for downstream analytics and machine learning.
الوصف
يقدم هذا الأداة مجموعة شاملة لفحص جودة البيانات عبر مجموعات بيانات كبيرة. تقوم الأداة بأتمتة التحقق مقابل مخططات محددة من قبل المستخدم وتتحقق من القيم المفقودة أو غير المتسقة. تستخدم الأساليب الإحصائية المتقدمة لاكتشاف الشذوذ والبيانات الشاذة، بينما يسلط تحليل التوزيع الضوء على التغيرات في أنماط البيانات. يمكن الوصول إلى الحل عبر واجهة سطر أوامر بسيطة وواجهة برمجة تطبيقات ويب خفيفة، مما يتيح دمجه في خطوط الأنابيب الحالية. صممت للأخصائيين في هندسة البيانات والمحللين، وتساعد على ضمان بيانات موثوقة للعمليات التحليلية والتعلم الآلي المستقبلية. يتيح الأداة إنشاء تقارير توزيع مفصلة تساعد في تقييم الاتساق والموثوقية. كما يدعم التكامل مع أنظمة ETL لتشغيل فحوصات تلقائية مستمرة.
Novelty
6/10Tags
Technologies
Claude Models
Quality Score
Strengths
- CI/CD pipeline configured (github_actions)
- Good test coverage (47% test-to-source ratio)
- Code linting configured (ruff (possible))
- Consistent naming conventions (snake_case)
- Good security practices \u2014 no major issues detected
- Properly licensed project
Weaknesses
- 510 duplicate lines detected \u2014 consider DRY refactoring
- 3 'god files' with >500 LOC need decomposition
Security & Health
Languages
Frameworks
Concepts (2)
| Category | Name | Description | Confidence | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Open data scored by Repobility · https://repobility.com | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| auto_description | Project Description | Data quality inspection toolkit - automated validation, anomaly detection, and distribution analysis | 80% | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| auto_category | Web Backend | web-backend | 70% | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Embed Badge
Add to your README:
