Evaluate NIM-hosted LLMs on autonomous multi-step skill tasks.
يُعد هذا النظام أداة لتقييم قدرات نماذج اللغة الكبيرة المستضافة على منصة NIM في تنفيذ وثائق مهارات متعددة الخطوات بشكل مستقل. يقوم بتشغيل مجموعة من النماذج داخل حاويات Docker، ويمنح كل نموذج أداة bash ومجموعة تعليمات skill.md، ثم يحاول إكمال المهام تلقائياً. يراقب النظام معايير النجاح مثل معدل النجاح، ومعالم التقدم التي يصل إليها كل نموذج قبل الفشل، ويسجل سجلات مفصلة لكل تجربة. يتيح لوحة المعلومات عرض النتائج في الوقت الحقيقي، مع إمكانية إعادة المحاولة وإدارة معدل الاتصال بالواجهة البرمجية. يستهدف الباحثين في الذكاء الاصطناعي ومطوري النماذج الذين يحتاجون إلى أداة موثوقة لقياس أداء النماذج في سيناريوهات تطبيقية معقدة. يحل المشكلة التي تواجهها الفرق في قياس فعالية النماذج في مهام متعددة الخطوات، ويمنحهم بيانات دقيقة حول نقاط القوة والضعف. يميز نفسه بقدرة التتبع التفصيلية للمعالم، والقدرة على التعامل مع الأخطاء المؤقتة، وتوفير واجهة سهلة الاستخدام للعرض والتحليل.
Automated UI testing framework for Porsche's web interface.
يُقدّم هذا المشروع إطار عمل لاختبار واجهة موقع Porsche عبر المتصفحات. يستخدم Playwright لمحاكاة تفاعلات المستخدم على مختلف المتصفحات، ما يضمن اتساق واجهة المستخدم ووظائفها. تم بناؤه باستخدام Vite لتوفير بيئة تطوير سريعة مع دعم التحديث الحي، ما يسرّع عملية كتابة واختبار السيناريوهات. يستهدف مهندسي ضمان الجودة ومطوري الواجهة الأمامية، ويسهّل اختبار الانحدار وإكتشاف الانحرافات البصرية مبكراً. يدعم المشروع كتابة نصوص اختبار مخصصة، التنفيذ المتوازي، وتوليد تقارير مفصلة. يتيح هذا الإطار فرق التطوير الحفاظ على جودة عالية في منصة Porsche المعقدة. يبرز المشروع بمرونته في تكامل مع أنظمة CI/CD وتوفير واجهة مستخدم رسومية لتشغيل الاختبارات.
A lightweight test harness for debugging code snippets.
يقدم هذا المشروع إطار عمل بسيط لتشغيل حالات اختبار معزولة وتسجيل مخرجاتها. يوفر واجهة سطر أوامر تقبل نصوص الاختبار، وتنفذها في بيئة مُتحكم فيها، وتسجيل النتائج للتحليل السريع. صُمم هذا الأداة لمساعدة المطورين على تحديد وإصلاح الأخطاء مبكرًا في دورة التطوير. يدعم التحقق الأساسي من القيم وتقرير الأخطاء، مما يجعله مناسبًا للعمليات السريعة للتحقق من الصحة. يركز على سهولة الاستخدام، مما يتيح للفرق دمجه في سير العمل الحالي دون منحنى تعلم حاد. يتيح للمستخدمين تشغيل اختبارات صغيرة، جمع السجلات، وتحليل سلوك الكود بسرعة.
This project provides automated end‑to‑end tests for the OpenGlad WebAssembly build, ensuring correct functionality across browsers.
يُقدِّم هذا المشروع مجموعة اختبارات آلية تُشغَّل باستخدام Playwright لمحاكاة تفاعلات المستخدم والتحقق من سلوك وحدة OpenGlad WebAssembly في المتصفحات الحقيقية. تغطي الاختبارات الميزات الأساسية مثل العرض ومعالجة الأحداث ومعالجة البيانات، لضمان أن البناء WASM يعمل كما هو متوقع. تُنظم الاختبارات في مجموعات منطقية ويمكن تشغيلها محلياً أو كجزء من خطوط أنابيب التكامل المستمر. توفر النتائج تقارير مفصلة ولقطات شاشة عند الفشل، ما يسهل عملية تصحيح الأخطاء. تم تصميمها لتكون قابلة للتوسيع بسهولة مع إضافة ميزات جديدة إلى مشروع OpenGlad. تُعَدُّ أداةً حيوية لضمان جودة المنتج قبل الإطلاق.
Automated end‑to‑end testing for a financial services web application using Selenium and Pytest.
يُقدِّم هذا الإطار مجموعة شاملة من اختبارات النهاية إلى النهاية لتطبيق خدمات مالية عبر الويب. يُبنى باستخدام لغة بايثون وSelenium WebDriver مع Pytest، ويعتمد على نمط تصميم Page Object Model لضمان صيانة الاختبارات وإعادة استخدامها بسهولة. تُولَّد بيانات الاختبار ديناميكيًا باستخدام Faker، وتُنفَّذ الاختبارات بالتوازي عبر pytest‑xdist لتقليل زمن التنفيذ. يُستخدم Allure لتوليد تقارير شاملة، ويُدمج الإطار مع خط أنابيب CI/CD لتشغيل الاختبارات تلقائيًا. يستهدف الإطار مهندسي ضمان الجودة والمطورين الذين يحتاجون إلى اختبارات موثوقة ومتكررة للكشف المبكر عن الانحرافات وضمان تجربة مستخدم سلسة. يميز هذا الحل بتركيبه النمطي، وإمكانيات توليد البيانات، وتكاملاته مع أدوات CI/CD، مما يقلل الجهد اليدوي ويزيد من كفاءة التحقق من جودة التطبيق.
A command‑line harness that evaluates the core capabilities of AI agents by running a suite of automated tasks.
يُشغّل هذا الإطار مجموعة من المهام المُعرفة مسبقاً التي تستهدف قدرات محددة للذكاء الاصطناعي مثل فهم الكود، توليده، إصلاح الأخطاء، إعادة هيكلته، وتحويل البيانات. تُقدّم كل مهمة نصاً طبيعيًا، ملفات بذرة، ومُحقّق آلي لتقييم الدقة ضمن حد زمني قابل للتكوين. يمكن للمستخدم تشغيل جميع المهام على جميع الوكلاء المدعومين أو اختيار مهام ووكلاء محددين عبر خيارات سطر الأوامر. تُخزّن النتائج كملفات JSON، موضحة حالة النجاح أو الفشل، زمن التنفيذ، والمخرجات لكل زوج مهام-وكيل. صُمم هذا الإطار للباحثين والمطورين الذين يحتاجون إلى معيار متكرر وآلي لأداء الوكلاء الذكاء الاصطناعي.
A testing framework for validating exchange protocols and transaction flows.
يقدّم هذا المشروع إطاراً منظماً لاختبار بروتوكولات وتدفقات المعاملات في أنظمة التبادل، مع التركيز على الدقة والموثوقية. يتضمن مجموعة من حالات الاختبار القابلة لإعادة الاستخدام تغطي سيناريوهات شائعة مثل وضع الأوامر، المطابقة، التسوية، والتعامل مع الأخطاء. يمكن دمج الإطار بسهولة في خطوط أنابيب التكامل المستمر، ما يتيح اختبار الانحدار الآلي عند حدوث تغييرات في منطق التبادل. يستهدف المطورين الخلفيين ومهندسي التكامل، ويساعد على ضمان عدم تعطيل الميزات الجديدة أو إصلاحات الأخطاء للوظائف القائمة. كما يتيح المحاكاة لظروف السوق الواقعية، ما يدعم اختبارات الأداء والتحميل على مكونات التبادل.
A testing harness that captures user-facing behavior from an RPG app and uses an LLM to judge scenario satisfaction.
يُعد هذا الأداة منصة لاختبار تطبيقات RPG على الويب، حيث تقوم بالتقاط سلوك المستخدم أثناء التفاعل مع التطبيق. تدعم الأداة وضعين للتقاط: تسجيل الشاشة يدويًا أو تشغيل السيناريوهات تلقائيًا عبر Playwright. بعد التقاط البيانات، تُنشئ الأداة ملخصًا للمتتالية ثم تُرسلها إلى نموذج لغة لتقييم ما إذا كانت السيناريوهات مستوفية. يُرجع النموذج تقريرًا منظمًا يوضح ما إذا كان السيناريو متوافقًا، غير متوافق، أو لا توجد أدلة كافية. تُستهدف هذه الأداة فرق التطوير والاختبار لضمان سير اللعب وفقًا للمتطلبات وتحديد الأنماط غير المرغوب فيها.
It evaluates whether a knowledge graph of metaphors improves large language model reasoning.
يقدم هذا المشروع مجموعة من أدوات التقييم التي تقيس تأثير قاعدة بيانات الرموز المجازية المنظمة على أداء نماذج اللغة الكبيرة. يتضمن ذلك قوالب للطلبات، وملفات تقييم، ومجموعات اختبارات تُقيّم مهام مثل تسمية المكونات، واكتشاف نقاط الفشل، وتحديد الرموز المجازية. تُستخدم أدوات التقييم خوادم OpenRouter لتقييم النتائج كـ "LLM-as‑judge"، وتدعم نهج الاستدعاء الوظيفي بالإضافة إلى التضمين السياقي. يستهدف المشروع الباحثين والمطورين الذين يرغبون في مقارنة قدرات نماذج اللغة على التفكير وتقييم فوائد استرجاع الرموز المجازية بشكل مستهدف. يوضح المشروع كيف يمكن لاستعلامات محددة أن تحسن دقة وفائدة النماذج مقارنة بالحقن السياقي الضخم.
A lightweight test harness designed to validate system behavior and performance for the 2026 release cycle.
يُقدِّم هذا المشروع إطارًا بسيطًا لتشغيل اختبارات آلية ومقاييس الأداء. يدعم مجموعة متنوعة من سيناريوهات الاختبار، بدءًا من فحوصات الوحدة وصولاً إلى محاكاة الأحمال، ويجمع بيانات مفصلة للتحليل. يُسهِّل دمج الأداة في خطوط أنابيب التكامل المستمر، ويمكن تكوينها عبر ملف JSON بسيط. يستهدف المهندسين المختصين بالتحقق من الجودة والمطورين الذين يحتاجون إلى التحقق السريع للإصدارات الجديدة. يساعد في كشف الانحرافات ومواطن الاختناق في الأداء قبل نشر النظام في بيئة الإنتاج. يقدِّم واجهة سهلة الاستخدام مع رسائل واضحة للخطأ، ما يُسهم في تقليل وقت استكشاف الأخطاء.
Automated unit tests for a Python morphological processing library.
يقدّم هذا المشروع مجموعة شاملة من اختبارات الوحدة المصممة للتحقق من صحة وظائف مكتبة معالجة التصريفات المكتوبة بلغة بايثون. تغطي الاختبارات مجموعة واسعة من السيناريوهات، بما في ذلك التجزئة، والتصريف، واستخراج السمات الصرفية، مما يضمن أن كل مكوّن يعمل كما هو متوقع. تم تنظيم الاختبارات لتسهيل دمجها في خطوط أنابيب التكامل المستمر، وتوفير ملاحظات سريعة حول تغييرات الكود. يستهدف المطورين الذين يعتنون أو يمدّون المكتبة، ويساعد على منع الانحدارات وضمان أداء ثابت عبر التحديثات. من خلال تشغيل هذه الاختبارات، يمكن للمساهمين تعديل الكود أو إضافة ميزات جديدة بثقة، مع العلم أن السلوك الأساسي يظل ثابتًا.
A static analysis tool that enforces the zero‑literal rule in Rust projects, ensuring no hardcoded values appear in function bodies.
يقوم RustScanners بفحص ملفات المصدر في مشاريع Rust أثناء عملية البناء لاكتشاف القيم الثابتة غير المسموح بها مثل الأرقام السحرية، والمدة الزمنية، وعناوين URL، ومسارات الملفات، ومقارنات السلاسل، والوحدات المضمنة ذات الحجم الكبير. يتم دمجه بسلاسة عبر استدعاء دالة من ملف بناء، مما يتيح للمطورين تطبيق القاعدة دون الحاجة إلى خطوات تدقيق يدوية. تُبلغ الانتهاكات كتحذيرات للمترجم، ويمكن تكوين البناء ليفشل عند اكتشاف أي مشكلة. يدعم الأداة استثناءات للثوابت، والاختبارات، والماكرو، ومحددات الأنواع، مما يوفر مرونة مع الحفاظ على جودة الكود الصارمة. يُعد هذا الحل مثالياً للفرق التي ترغب في إبقاء قيم التكوين خارج الكود والحفاظ على قاعدة شفافة وسهلة الصيانة.
Automated end‑to‑end testing framework for an e-commerce demo store.
يقدّم هذا المشروع مجموعة اختبارات شاملة تعتمد على Playwright لتأمين تجربة المستخدم الكاملة على متجر تجريبي للتجارة الإلكترونية. يستخدم نمط كائن الصفحة (Page Object Model) لتجميع تفاعلات الصفحات، مما يجعل الاختبارات سهلة القراءة والصيانة. تُنتج المجموعة تقارير HTML وJSON، يمكن استهلاكها في خطوط CI/CD وخدمات التقارير السحابية. صُمم هذا الإطار للمهندسين المختصين بالاختبار والمهندسين الأماميين الذين يحتاجون إلى اختبارات موثوقة ومتكررة تعمل عبر متصفحات متعددة. كما يتضمن خطوات تكامل لتحميل التقارير إلى منصة سحابية، مما يبسط رؤية نتائج الاختبار.
This project provides automated tests to validate the functionality and performance of the DataOrb data management system.
يُنفّذ المشروع مجموعة من الاختبارات الآلية التي تغطي وظائف أساسية لنظام إدارة البيانات DataOrb. يركز على التحقق من صحة البيانات، استجابة واجهة برمجة التطبيقات، وأداء العمليات في سيناريوهات متعددة. يستخدم إطار اختبار JavaScript لتشغيل اختبارات الوحدة والتكامل، مع توليد بيانات عشوائية لتغطية حالات الاستخدام المتنوعة. يهدف إلى كشف الأخطاء قبل الإطلاق، وتوفير وثائق واضحة للمتطلبات. يستهدف مطوري النظام ومهندسي ضمان الجودة الذين يحتاجون إلى أداة موثوقة لاختبار التغييرات. يحل مشكلة عدم الثقة في استقرار النظام عند إضافة ميزات جديدة. يميز المشروع بتركيزه على الأداء والاختبارات المتكاملة مع التكامل المستمر.
Axiom is an AI‑driven CLI that verifies code intent by running natural‑language behavioral tests against a codebase.
أكسيم يتيح للمطورين كتابة شروط بلغة إنجليزية بسيطة في ملفات YAML، ثم يستخدم نموذج لغة كبير يعمل كوكيل لاستكشاف الكود المصدر وتحديد ما إذا كانت تلك الشروط محققة. يركز على التحقق من نية الكود، مع ضمان بقاء القيود المعمارية، والقيود الثابتة، وحراس حالات السباق صالحة عبر التغييرات، بدلاً من التحقق من تنفيذ الوحدات. يدعم الأداة نظام ذاكرة مؤقتة يعتمد على أنماط الملفات، ما يتيح إعادة تشغيل الاختبارات فقط عند تغيّر الملفات ذات الصلة. صُممت لتناسب فرق التطوير التي ترغب في دمج اختبارات سلوكية في خطوط CI دون كتابة كود تكراري. كما يوفر إمكانية تصفية الاختبارات، عرض تفصيل للمنطق، وهيكل دليل واضح لتنظيم الاختبارات.
Generate and validate user-perspective scenarios for a PHP database query library, serving as a lightweight consumer-driven contract suite.
يُعد هذا المشروع مجموعة اختبارات تُنشئ سيناريوهات مستخدم مُحاكاة للواجهات التي تُقدّمها مكتبة ztd-query-php. يركز على اختبار محولات قاعدة البيانات مثل mysqli وPDO عبر منصات MySQL وPostgreSQL وSQLite. تُكتب السيناريوهات باستخدام PHPUnit وتُحفظ في دليل tests، ما يتيح تشغيلها تلقائياً عند كل تحديث للمتطلبات. كما يُحوّل النتائج إلى مواصفات EARS تُوثّق السلوك المتوقع للمستهلك. يتيح ذلك للفرق التي تعتمد على المكتبة فحص التغييرات السلوكية بسرعة، وتحديد الانحرافات قبل دمجها. يُعدّ هذا النهج مثالاً عملياً على اختبار المستهلك المُوجه بالاتفاقيات، ويُسهل مشاركة النتائج مع مطوري المكتبة الأصلية. يُستخدم المشروع كأداة خفيفة الوزن للتحقق من التوافق، مع إمكانية دمجه في خطوط CI/CD. يساهم في تحسين جودة الكود عبر كشف الأخطاء المتكررة وتوثيق السلوكيات المتوقعة.
A framework for testing and evaluating code generation from Claude AI models.
يُقدِّم هذا المشروع بيئة منظمة لتقييم جودة الكود المُنتَج من نماذج Claude AI. يعرِّف مجموعة من الأسئلة (prompts) والنتائج المتوقعة ومعايير التقييم لقياس الدقة والكفاءة وأسلوب الكود. يمكن للمستخدمين تشغيل مجموعة الاختبارات محلياً أو دمجها في خطوط التكامل المستمر لمراقبة أداء النموذج مع مرور الوقت. يدعم الإطار لغات برمجة متعددة ويتيح قواعد تقييم مخصصة. صُمِّم لتسهيل مقارنة نماذج الذكاء الاصطناعي وتحديد نقاط القوة والضعف في الكود المُنتَج.
Provide automated unit tests for the NaesinFit library to verify its functionality and reliability.
يحتوي هذا المشروع على مجموعة من اختبارات الوحدة الآلية المصممة للتحقق من وظائف مكتبة NaesinFit الأساسية. تغطي الاختبارات مجموعة واسعة من السيناريوهات، بما في ذلك الحالات الحافة وأنماط الاستخدام النموذجية، لضمان أن تتصرف المكتبة كما هو متوقع. يُقصد بها تشغيلها كجزء من خط أنابيب التكامل المستمر، مما يتيح اكتشاف الانحرافات في مرحلة مبكرة من دورة التطوير. الجمهور المستهدف هم المطورون الذين يدمجون NaesinFit في تطبيقاتهم ويحتاجون إلى ثقة في دقة عملها. من خلال توفير رسائل فشل واضحة وتقارير تغطية شاملة، تساعد هذه الاختبارات على الحفاظ على جودة الكود مع مرور الوقت.
This project is a testing classifier, intended for developers to evaluate and improve their code.
هذا المشروع هو مُصنف اختبار، مصمم لصانعي البرامج لتقييم وتحسين كودهم. يعتبر هذا المشروع من أدوات التطوير السريع التي تساعد على تسهيل عملية تحديد وترتيب الاختبارات.
Provide broken Python modules as test fixtures for validating an automated code‑repair system.
يقدم هذا المشروع مجموعة من الوحدات البرمجية المكتوبة بلغة بايثون والتي تحتوي على أخطاء مقصودة، وتُستخدم كأدوات اختبار لتجارب التكامل الشاملة لنظام إصلاح الأخطاء. يتضمن المشروع ثلاث سيناريوهات مختلفة تُظهر أخطاءً من أنواع متعددة: خطأ في النوع، خطأ في المنطق (خطأ في الإزاحة)، وفشل في الاتصال بواجهة برمجة تطبيقات خارجية. تُصمم الاختبارات للتحقق من قدرة النظام على اكتشاف الخطأ، اقتراح الإصلاح، وتطبيقه تلقائياً. يُستفيد منه مطورو البرمجيات ومهندسو ضمان الجودة عند اختبار دورة اكتشاف الأخطاء وإصلاحها قبل دمج محرك الإصلاح في سير العمل. كما يُظهر المشروع طريقة تنظيم بيانات الاختبار والنتائج المتوقعة لتسهيل الاختبار الآلي. يهدف المشروع إلى توفير بيئة تحاكي سيناريوهات حقيقية تساعد على تحسين كفاءة وأمان عمليات الصيانة.
An end‑to‑end testing suite for a Flutter ToDo application, built with Maestro and AI‑assisted test creation.
يُقدِّم هذا المشروع مجموعة اختبارات شاملة من النهاية إلى النهاية لتطبيق ToDo مبني على Flutter. يستخدم إطار عمل Maestro لبرمجة تفاعلات المستخدم مثل إضافة المهام، تعديلها، إكمالها، البحث عنها، وحذفها. تساعد الذكاء الاصطناعي في إنشاء مسارات الاختبار، مع تشجيع استخدام محددات الدلالية بدلاً من النقاط الثابتة. تُنظم الاختبارات في ملفات YAML منفصلة، كل منها يمثل سيناريو مستخدم محدد. تم تصميمها لتشغيلها من سطر الأوامر وتكاملها مع خطوط أنابيب التكامل المستمر. كما تُبرز أهمية استخدام محددات الدلالية لضمان صلابة الاختبارات عبر منصات مختلفة.
A sandbox environment for developers to test Symphony applications.
يُقدّم هذا المشروع مساحة اختبار مخصصة للمطورين لاختبار تطبيقات Symphony في بيئة مُتحكم فيها. يتضمن مساحة العمل كودًا تجريبيًا مُعدًا مسبقًا، واختبارات تكامل، ووثائق تساعد الفرق على التحقق من صحة الميزات الجديدة قبل نشرها. يتيح هذا الحيز تشغيل استدعاءات واجهة برمجة التطبيقات، وتدفقات الرسائل، وتفاعلات المكونات بأمان دون التأثير على الأنظمة الإنتاجية. يستهدف المطورين، ومهندسي ضمان الجودة، ومتكاملات الأنظمة، ويُسهم في تبسيط دورة الاختبار وتقليل مخاطر تسرب الأخطاء إلى البيئات الحية. بفضل توفير بيئة جاهزة للاستخدام، يُسرّع المشروع عملية التعلم ويُحسّن دورة التغذية الراجعة في مشاريع Symphony. كما يوفّر أدوات لتتبع الأداء، وتسجيل الأخطاء، وتحليل النتائج، مما يُسهّل اتخاذ قرارات مستنيرة. يدمج المشروع مع سير العمل الحالي، مع إمكانية توسيعه لتشمل سيناريوهات اختبار معقدة حسب الحاجة.
A benchmark framework that evaluates large language models on progressively generating graphs from natural language instructions.
يُقدِّم GraphInstruct إطاراً معيارياً منظماً لتقييم قدرة نماذج اللغة الكبيرة على توليد الرسوم البيانية استناداً إلى أوامر نصية. يتضمن مجموعة مختارة من المهام التدريجية التي تزداد تعقيداً تدريجياً، ما يتيح للباحثين تتبع أداء النماذج عبر مراحل مختلفة. يدمج الإطار مكتبات التصوير لتوليد الرسوم البيانية ويُقدِّم مقاييس دقيقة لدرجة الدقة، والوفاء بالمتطلبات، وسرعة التوليد. يستهدف الباحثين في مجال معالجة اللغة الطبيعية وتوليد الرسوم البيانية، ويُمكّنهم من إجراء مقارنات قابلة للتكرار بين النماذج المختلفة. يساهم في دفع تطوير أنظمة توليد أكثر قدرة على التعامل مع أوامر نصية معقدة، مع التركيز على تحسين جودة الرسوم البيانية المولَّدة. كما يتيح إمكانية توسيع نطاق التقييم ليشمل سيناريوهات تطبيقية متنوعة، مما يعزز من فاعلية النماذج في البيئات الواقعية.
Automate user acceptance testing to streamline QA workflows.
يُقدّم هذا المشروع أداة تُسهل عملية اختبار القبول من قبل المستخدم (UAT) عبر الأتمتة. يتيح للمختبرين إنشاء مجموعات اختبار تلقائيًا استنادًا إلى متطلبات المشروع أو سيناريوهات المستخدم. تُشغّل الأداة هذه الاختبارات في بيئات متعددة، وتجمع النتائج في تقارير مفصلة تُعرض بصيغة قابلة للقراءة. يدعم التكامل مع أنظمة التكامل المستمر، ما يضمن أن يتم اختبار القبول في كل مرحلة من مراحل التطوير. يهدف المشروع إلى تقليل الوقت اليدوي اللازم لإجراء اختبارات القبول، وتحسين دقة النتائج، وتوفير رؤية واضحة للجهات المعنية. يختلف عن الحلول التقليدية بتركيزه على التفاعل مع واجهات المستخدم الرسومية وتوليد سيناريوهات اختبار ديناميكية. يُستهدف به فرق التطوير والاختبار التي تسعى لتسريع دورة النشر مع الحفاظ على جودة المنتج.
A tool that evaluates the performance of a TODO application against a predefined rubric to identify scalability limits.
تعمل هذه الأداة على إجراء سلسلة من اختبارات الضغط على تطبيق المهام، مع جمع مقاييس مثل زمن الاستجابة، معدل المعالجة، ومعدلات الأخطاء. تُقارن البيانات المجموعة مع معيار قابل للتكوين يحدد الحدود المقبولة لكل مقاييس. يمكن للأداة محاكاة عدد متزامن من المستخدمين، مع زيادة الحمل تدريجيًا حتى يتدهور الأداء. تُصدر النتائج في تقرير واضح يبرز أي معايير من المعيار تم تحقيقها أو خالفتها. صممت لتلبية احتياجات المطورين وفِرق ضمان الجودة الذين يحتاجون إلى طريقة سريعة وقابلة للتكرار لتقييم خدمة المهام تحت الضغط.
A declarative unit testing framework for validating Spark Declarative Pipelines.
يقدم هذا الإطار نهجاً إعلانيًا لاختبار الوحدات لخطوط أنابيب Spark Declarative، مما يمكّن المطورين من تعريف سلوك الأنابيب المتوقع بطريقة موجزة وسهلة القراءة. يقوم تلقائيًا بمقارنة مخرجات الأنابيب مع التوقعات المحددة مسبقًا، مما يكتشف الانحرافات ومشكلات جودة البيانات مبكرًا في دورة التطوير. يتكامل المكتبة بسلاسة مع خطوط CI/CD الحالية، مما يتيح تشغيل الاختبارات كجزء من عمليات البناء والنشر الآلية. يستهدف مهندسي البيانات ومطوري الأنابيب، ويقلل الجهد اليدوي في الاختبار ويزيد الثقة في صحة الأنابيب. بتركيزه على المواصفات الإعلانية، يبسط صيانة الاختبارات ويعزز توثيق عقود الأنابيب بوضوح.
A code-first API testing toolkit that lets developers write TypeScript tests to validate HTTP endpoints.
تتيح هذه الأداة للمطورين كتابة اختبارات واجهات برمجة التطبيقات مباشرةً في TypeScript، معاملة كود الاختبار كمصدر حقيقي للمعايير. توفر مكتبة خفيفة الوزن مع عميل HTTP، ومساعدات للتأكيد، وتسجيل هيكلي منظم. تُنفَّذ الاختبارات في بيئات معزولة، ما يضمن التكرار والأمان. يقوم واجهة الأوامر بالبحث عن ملفات الاختبار، تنفيذها، وتقديم تقارير واضحة وتفاعلية. يدعم التوثيق المدمج، والتحقق من المخططات، وGraphQL، ما يجعلها ملائمة لتدفقات العمل الحديثة للواجهات. تُعد خيارًا مثاليًا للفرق التي ترغب في دمج اختبار واجهات برمجة التطبيقات في عمليات التطوير وخطوط CI.
A lightweight test suite that validates the functionality of taco-related APIs for developers and QA teams.
يُقدِّم هذا المشروع إطاراً مختصراً لاختبار واجهات برمجة التطبيقات المرتبطة بالـ "taco". يتضمن مجموعة من حالات الاختبار المُعدة مسبقاً للتحقق من رموز الحالة، وهيكل الحمولة، ومنطق الأعمال. يمكن دمج هذه المجموعة في خطوط أنابيب التكامل المستمر للكشف المبكر عن الانحرافات. يستهدف المطورين الخلفيين وفِرق ضمان الجودة، ويساعد على ضمان استقرار خدمة الـ "taco" مع إضافة ميزات جديدة. تُكتب الاختبارات بأسلوب واضح وسهل الصيانة، ويمكن توسيعها لتغطية سيناريوهات إضافية.
A test suite that verifies the functionality and stability of the Hendrix Flanger VST3 audio plugin.
يقدّم هذا المشروع مجموعة شاملة من الاختبارات الآلية لمكوّن فلاتر Hendrix Flanger VST3. تشمل الاختبارات وحدات اختبار للكتل المعالجة الفردية، واختبارات تكامل تُشغّل المكوّن داخل بيئات استضافة شائعة، واختبارات رجعية تقارن المخرجات مع ملفات صوتية مرجعية. تُكتب الاختبارات بلغة Python وC++ وتستفيد من مكتبات NumPy وSciPy لتحليل المقارنات الصوتية. يستهدف المشروع مطوري المكوّنات ومهندسي ضمان الجودة الذين يحتاجون إلى التأكد من سلوك موحد عبر التحديثات. من خلال تشغيل هذه الاختبارات، يمكن للمطورين اكتشاف الانحرافات بسرعة، والتحقق من معالجة المعلمات، وضمان التوافق عبر الأنظمة المختلفة.
Dubis is a lightweight testing library that enables developers to write and run unit tests for JavaScript and Python projects.
دبيس يوفر واجهة برمجية بسيطة ومعبرة لكتابة اختبارات وحدات في كل من جافاسكريبت وبايثون. يركز على سرعة التنفيذ والتكوين البسيط، مما يسهل دمجه في المشاريع القائمة أو خطوط أنابيب التكامل المستمر. تتضمن المكتبة مجموعة من المساعدات للمقارنات وتدعم وظائف الاختبار غير المتزامنة بشكل افتراضي. صممت لتلبية احتياجات المطورين الذين يبحثون عن بديل خفيف الوزن للأنظمة الأكبر، مع الحفاظ على الميزات الأساسية مثل اكتشاف الاختبارات وتوليد التقارير. من خلال دعم لغتين شائعتين، يساعد دبيس الفرق على الحفاظ على ممارسات اختبار موحدة عبر قواعد بيانات متعددة اللغات.
A benchmark tool that evaluates how accurately local small language models can generate SQL queries from natural language questions.
يُقدّم مشروع Semantic SQL Testing إطار عمل لتقييم قدرات نماذج اللغة الصغيرة على توليد استعلامات SQL بدقة من أسئلة مكتوبة باللغة الطبيعية. يتضمن المشروع تعريفًا تفصيليًا لنموذج معنوي يصف مخططًا نجميًا من نوع TPC‑DS، مع مجموعة من 20 سؤالًا تغطي عمليات تجميع بسيطة ومعقدة. يتم تشغيل النماذج محليًا عبر خادم استدلال خفيف الوزن، ويُعتمد نظام تقييم تلقائي يقارن النتائج التي تُخرجها النماذج مع استعلامات أساسية مُتحققة، مع مراعاة تحييد أسماء الأعمدة وتطبيق حدود تحمل رقمية. يُنتج البرنامج مخططات بيانية توضح العلاقة بين سرعة التنفيذ ودقة الاستعلام، ما يتيح للمستخدمين مقارنة أداء النماذج المختلفة بسهولة. يستهدف هذا المشروع الباحثين ومطوري نماذج اللغة الذين يسعون إلى اختبار وتحسين أداء نماذجهم في مهام تحليل البيانات، مع توفير بيئة تجريبية قابلة للتكرار وشفافة.
This project provides a benchmark framework for evaluating Vision Language Models on extracting structured game state from anime gacha game screenshots, enabling automated QA and analytics.
يُقيّم هذا الإطار ما إذا كانت نماذج اللغة البصرية المتقدمة قادرة على استخراج حالة اللعبة المهيكلة بدقة من لقطات شاشة ألعاب الجاكّا الأنمي، بما في ذلك نقاط الصحة، واللفات، ومؤشرات الجاكّا، وعناصر واجهة المستخدم، والنصوص باللغتين اليابانية والإنجليزية. يتضمن الإطار وكيلًا قائمًا على LangGraph يقوم بتصنيف نوع الشاشة، واستخراج الحقول، والتحقق من صحة البيانات وفقًا للمعايير، وتطبيق قواعد ضمان الجودة المخصصة للقطاع. كما يوفر إطارًا لتصنيف الأخطاء ومتابعة اقتصاد الجاكّا، مما يتيح تحليلات دقيقة للأداء. يُقيس الإطار التكلفة، والوقت المستغرق، ودقة الاستخراج، ويولد تقارير مع فترات ثقة bootstrap وتحليلات Pareto لكل نموذج. يهدف المشروع إلى تحديد ما إذا كان يمكن استخدام نماذج اللغة البصرية لتشغيل تحليلات الألعاب والاختبار الآلي على نطاق واسع وبكلفة معقولة.
A distributed, automated test harness for validating the Ames Stereo Pipeline across multiple machines.
يُقدّم هذا الأداة مجموعة شاملة من اختبارات التحقق من صحة Ames Stereo Pipeline، مُصمَّمة لتعمل على بيئات موزعة وتُنفَّذ تلقائياً عبر عدة أجهزة. تُستخدم إطار عمل pytest لتنسيق وتشغيل الاختبارات، مع إمكانية توزيع المهام عبر SSH وتحديد عدد المعالجات لكل جهاز. يُعتمد على ملف إعدادات يحدد مجلدات الاختبار، وأجهزة التنفيذ، وعدد العمليات، والمتغيرات البيئية، بالإضافة إلى حدود الأخطاء المقبولة لكل اختبار. كل اختبار يُنفَّذ عبر سكربت run.sh يُنتج مجلد run، ويُقارن الناتج مع مجلد gold المرجعي لتحديد النجاح أو الفشل. يتيح الأداة اختيار مجموعات الاختبارات عبر معايير مثل اسم الدليل أو تعبيرات wildcard، ما يسهّل اختبار وظائف محددة فقط. تُسجَّل تفاصيل التنفيذ، بما في ذلك الوقت المستغرق واستهلاك الذاكرة، في ملف output.txt، مع توفير سجلات تفصيلية لكل أداة ASP تُستخدم. تُعد هذه الأداة حلاً مثالياً للفرق التي تطور ASP لتأكيد استقرار التغييرات وتسهيل عمليات التكامل المستمر.
This project provides automated end‑to‑end tests for a web mapping interface, ensuring its functionality across browsers.
يُقدِّم هذا المشروع مجموعة اختبارات شاملة تُحاكي تفاعلات المستخدم مع واجهة خريطة الويب، مع التركيز على وظائف التحميل، وتبديل الطبقات، وأدوات الرسم. تُنفَّذ الاختبارات في بيئة غير مرئية، ما يتيح دمجها بسلاسة في خطوط أنابيب التكامل المستمر. يستهدف المشروع مهندسي ضمان الجودة ومطوري الواجهة الأمامية الذين يحتاجون إلى كشف الانحرافات قبل الإطلاق. يساهم في تقليل الأخطاء التي قد تظهر بعد تحديثات الكود، ويضمن استقرار تجربة المستخدم. يميز المشروع قدرته على التحقق من التوافق عبر المتصفحات الرئيسية، مما يضمن تجربة موحدة للمستخدمين النهائيين.