Automated end‑to‑end testing framework for an e-commerce demo store.
يقدّم هذا المشروع مجموعة اختبارات شاملة تعتمد على Playwright لتأمين تجربة المستخدم الكاملة على متجر تجريبي للتجارة الإلكترونية. يستخدم نمط كائن الصفحة (Page Object Model) لتجميع تفاعلات الصفحات، مما يجعل الاختبارات سهلة القراءة والصيانة. تُنتج المجموعة تقارير HTML وJSON، يمكن استهلاكها في خطوط CI/CD وخدمات التقارير السحابية. صُمم هذا الإطار للمهندسين المختصين بالاختبار والمهندسين الأماميين الذين يحتاجون إلى اختبارات موثوقة ومتكررة تعمل عبر متصفحات متعددة. كما يتضمن خطوات تكامل لتحميل التقارير إلى منصة سحابية، مما يبسط رؤية نتائج الاختبار.
This project provides automated tests to validate the functionality and performance of the DataOrb data management system.
يُنفّذ المشروع مجموعة من الاختبارات الآلية التي تغطي وظائف أساسية لنظام إدارة البيانات DataOrb. يركز على التحقق من صحة البيانات، استجابة واجهة برمجة التطبيقات، وأداء العمليات في سيناريوهات متعددة. يستخدم إطار اختبار JavaScript لتشغيل اختبارات الوحدة والتكامل، مع توليد بيانات عشوائية لتغطية حالات الاستخدام المتنوعة. يهدف إلى كشف الأخطاء قبل الإطلاق، وتوفير وثائق واضحة للمتطلبات. يستهدف مطوري النظام ومهندسي ضمان الجودة الذين يحتاجون إلى أداة موثوقة لاختبار التغييرات. يحل مشكلة عدم الثقة في استقرار النظام عند إضافة ميزات جديدة. يميز المشروع بتركيزه على الأداء والاختبارات المتكاملة مع التكامل المستمر.
Generate and validate user-perspective scenarios for a PHP database query library, serving as a lightweight consumer-driven contract suite.
يُعد هذا المشروع مجموعة اختبارات تُنشئ سيناريوهات مستخدم مُحاكاة للواجهات التي تُقدّمها مكتبة ztd-query-php. يركز على اختبار محولات قاعدة البيانات مثل mysqli وPDO عبر منصات MySQL وPostgreSQL وSQLite. تُكتب السيناريوهات باستخدام PHPUnit وتُحفظ في دليل tests، ما يتيح تشغيلها تلقائياً عند كل تحديث للمتطلبات. كما يُحوّل النتائج إلى مواصفات EARS تُوثّق السلوك المتوقع للمستهلك. يتيح ذلك للفرق التي تعتمد على المكتبة فحص التغييرات السلوكية بسرعة، وتحديد الانحرافات قبل دمجها. يُعدّ هذا النهج مثالاً عملياً على اختبار المستهلك المُوجه بالاتفاقيات، ويُسهل مشاركة النتائج مع مطوري المكتبة الأصلية. يُستخدم المشروع كأداة خفيفة الوزن للتحقق من التوافق، مع إمكانية دمجه في خطوط CI/CD. يساهم في تحسين جودة الكود عبر كشف الأخطاء المتكررة وتوثيق السلوكيات المتوقعة.
A JavaScript test suite for validating the FDK library's functionality.
يُقدّم هذا المشروع مجموعة من الاختبارات التي تُستخدم للتحقق من صحة وظائف مكتبة FDK. تُنفّذ الاختبارات في بيئة JavaScript وتُظهر النتائج في سطر الأوامر. يتيح للمطورين التأكد من أن التغييرات في الكود لا تُعطل الوظائف الأساسية للمكتبة. تُغطي الاختبارات سيناريوهات شائعة مثل استدعاء الدوال، معالجة الأخطاء، والتكامل مع مكونات أخرى. يُسهل المشروع عملية دمج التحديثات الجديدة في خطوط الإنتاج. يساهم في تقليل الأخطاء غير المتوقعة وتحسين جودة الكود.
Dubis is a lightweight testing library that enables developers to write and run unit tests for JavaScript and Python projects.
دبيس يوفر واجهة برمجية بسيطة ومعبرة لكتابة اختبارات وحدات في كل من جافاسكريبت وبايثون. يركز على سرعة التنفيذ والتكوين البسيط، مما يسهل دمجه في المشاريع القائمة أو خطوط أنابيب التكامل المستمر. تتضمن المكتبة مجموعة من المساعدات للمقارنات وتدعم وظائف الاختبار غير المتزامنة بشكل افتراضي. صممت لتلبية احتياجات المطورين الذين يبحثون عن بديل خفيف الوزن للأنظمة الأكبر، مع الحفاظ على الميزات الأساسية مثل اكتشاف الاختبارات وتوليد التقارير. من خلال دعم لغتين شائعتين، يساعد دبيس الفرق على الحفاظ على ممارسات اختبار موحدة عبر قواعد بيانات متعددة اللغات.
A benchmark tool that evaluates how accurately local small language models can generate SQL queries from natural language questions.
يُقدّم مشروع Semantic SQL Testing إطار عمل لتقييم قدرات نماذج اللغة الصغيرة على توليد استعلامات SQL بدقة من أسئلة مكتوبة باللغة الطبيعية. يتضمن المشروع تعريفًا تفصيليًا لنموذج معنوي يصف مخططًا نجميًا من نوع TPC‑DS، مع مجموعة من 20 سؤالًا تغطي عمليات تجميع بسيطة ومعقدة. يتم تشغيل النماذج محليًا عبر خادم استدلال خفيف الوزن، ويُعتمد نظام تقييم تلقائي يقارن النتائج التي تُخرجها النماذج مع استعلامات أساسية مُتحققة، مع مراعاة تحييد أسماء الأعمدة وتطبيق حدود تحمل رقمية. يُنتج البرنامج مخططات بيانية توضح العلاقة بين سرعة التنفيذ ودقة الاستعلام، ما يتيح للمستخدمين مقارنة أداء النماذج المختلفة بسهولة. يستهدف هذا المشروع الباحثين ومطوري نماذج اللغة الذين يسعون إلى اختبار وتحسين أداء نماذجهم في مهام تحليل البيانات، مع توفير بيئة تجريبية قابلة للتكرار وشفافة.
A benchmark suite that evaluates the effectiveness of agent skills by performing A/B tests against raw LLM outputs.
يقدم هذا الأداة إطار عمل منظم لقياس مدى فاعلية مهارات الوكيل مقارنةً بمخرجات النموذج اللغوي الكبير غير المعدل. يقوم بتشغيل تقييمات جنباً إلى جنب، مع جمع مقاييس مثل الدقة، والملاءمة، ووقت الاستجابة. يدعم مجموعة الاختبار إعدادات قابلة للتكوين للعبارات ويمكن توسيعه بوظائف تقييم مخصصة. صُممت لتلبية احتياجات المطورين الذين يبنون مهارات الوكيل المعيارية ويحتاجون إلى أدلة موضوعية على التحسين. من خلال أتمتة عملية المقارنة، يساعد الفرق على التكرار بسرعة واتخاذ قرارات مستندة إلى البيانات.
This project provides a benchmark framework for evaluating Vision Language Models on extracting structured game state from anime gacha game screenshots, enabling automated QA and analytics.
يُقيّم هذا الإطار ما إذا كانت نماذج اللغة البصرية المتقدمة قادرة على استخراج حالة اللعبة المهيكلة بدقة من لقطات شاشة ألعاب الجاكّا الأنمي، بما في ذلك نقاط الصحة، واللفات، ومؤشرات الجاكّا، وعناصر واجهة المستخدم، والنصوص باللغتين اليابانية والإنجليزية. يتضمن الإطار وكيلًا قائمًا على LangGraph يقوم بتصنيف نوع الشاشة، واستخراج الحقول، والتحقق من صحة البيانات وفقًا للمعايير، وتطبيق قواعد ضمان الجودة المخصصة للقطاع. كما يوفر إطارًا لتصنيف الأخطاء ومتابعة اقتصاد الجاكّا، مما يتيح تحليلات دقيقة للأداء. يُقيس الإطار التكلفة، والوقت المستغرق، ودقة الاستخراج، ويولد تقارير مع فترات ثقة bootstrap وتحليلات Pareto لكل نموذج. يهدف المشروع إلى تحديد ما إذا كان يمكن استخدام نماذج اللغة البصرية لتشغيل تحليلات الألعاب والاختبار الآلي على نطاق واسع وبكلفة معقولة.