Evaluate NIM-hosted LLMs on autonomous multi-step skill tasks.
يُعد هذا النظام أداة لتقييم قدرات نماذج اللغة الكبيرة المستضافة على منصة NIM في تنفيذ وثائق مهارات متعددة الخطوات بشكل مستقل. يقوم بتشغيل مجموعة من النماذج داخل حاويات Docker، ويمنح كل نموذج أداة bash ومجموعة تعليمات skill.md، ثم يحاول إكمال المهام تلقائياً. يراقب النظام معايير النجاح مثل معدل النجاح، ومعالم التقدم التي يصل إليها كل نموذج قبل الفشل، ويسجل سجلات مفصلة لكل تجربة. يتيح لوحة المعلومات عرض النتائج في الوقت الحقيقي، مع إمكانية إعادة المحاولة وإدارة معدل الاتصال بالواجهة البرمجية. يستهدف الباحثين في الذكاء الاصطناعي ومطوري النماذج الذين يحتاجون إلى أداة موثوقة لقياس أداء النماذج في سيناريوهات تطبيقية معقدة. يحل المشكلة التي تواجهها الفرق في قياس فعالية النماذج في مهام متعددة الخطوات، ويمنحهم بيانات دقيقة حول نقاط القوة والضعف. يميز نفسه بقدرة التتبع التفصيلية للمعالم، والقدرة على التعامل مع الأخطاء المؤقتة، وتوفير واجهة سهلة الاستخدام للعرض والتحليل.
Automated UI testing framework for Porsche's web interface.
يُقدّم هذا المشروع إطار عمل لاختبار واجهة موقع Porsche عبر المتصفحات. يستخدم Playwright لمحاكاة تفاعلات المستخدم على مختلف المتصفحات، ما يضمن اتساق واجهة المستخدم ووظائفها. تم بناؤه باستخدام Vite لتوفير بيئة تطوير سريعة مع دعم التحديث الحي، ما يسرّع عملية كتابة واختبار السيناريوهات. يستهدف مهندسي ضمان الجودة ومطوري الواجهة الأمامية، ويسهّل اختبار الانحدار وإكتشاف الانحرافات البصرية مبكراً. يدعم المشروع كتابة نصوص اختبار مخصصة، التنفيذ المتوازي، وتوليد تقارير مفصلة. يتيح هذا الإطار فرق التطوير الحفاظ على جودة عالية في منصة Porsche المعقدة. يبرز المشروع بمرونته في تكامل مع أنظمة CI/CD وتوفير واجهة مستخدم رسومية لتشغيل الاختبارات.
A qualification suite that verifies forjar configurations work correctly on real infrastructure.
يُقدّم هذا المعيار مجموعة من الوصفات الحقيقية التي تُطبّق على أجهزة فعلية للتحقق من سلوك أداة forjar. كل وصفة تمثل تكويناً كاملاً للبنية التحتية، بدءاً من محطة عمل مطور إلى مجموعة مراقبة، وتُنفَّذ على مشغّل مخصص يتم استضافته ذاتياً. يراقب الإطار التكرار (idempotency) ويُسجِّل أوقات التنفيذ، ويُشير إلى أي فشل ليتم معالجته فوراً. يتكامل مع خطوط التكامل المستمر، مُنتجاً تقارير التغطية، والتحقّق من القواعد، ولوحة قيادة ديناميكية للمعايير. يهدف هذا المعيار إلى كشف الأخطاء أو الميزات الناقصة في forjar قبل أن تصل إلى بيئات الإنتاج، مما يضمن موثوقية عالية في نشر البنية التحتية.
A lightweight test harness for debugging code snippets.
يقدم هذا المشروع إطار عمل بسيط لتشغيل حالات اختبار معزولة وتسجيل مخرجاتها. يوفر واجهة سطر أوامر تقبل نصوص الاختبار، وتنفذها في بيئة مُتحكم فيها، وتسجيل النتائج للتحليل السريع. صُمم هذا الأداة لمساعدة المطورين على تحديد وإصلاح الأخطاء مبكرًا في دورة التطوير. يدعم التحقق الأساسي من القيم وتقرير الأخطاء، مما يجعله مناسبًا للعمليات السريعة للتحقق من الصحة. يركز على سهولة الاستخدام، مما يتيح للفرق دمجه في سير العمل الحالي دون منحنى تعلم حاد. يتيح للمستخدمين تشغيل اختبارات صغيرة، جمع السجلات، وتحليل سلوك الكود بسرعة.
This project provides automated end‑to‑end tests for the OpenGlad WebAssembly build, ensuring correct functionality across browsers.
يُقدِّم هذا المشروع مجموعة اختبارات آلية تُشغَّل باستخدام Playwright لمحاكاة تفاعلات المستخدم والتحقق من سلوك وحدة OpenGlad WebAssembly في المتصفحات الحقيقية. تغطي الاختبارات الميزات الأساسية مثل العرض ومعالجة الأحداث ومعالجة البيانات، لضمان أن البناء WASM يعمل كما هو متوقع. تُنظم الاختبارات في مجموعات منطقية ويمكن تشغيلها محلياً أو كجزء من خطوط أنابيب التكامل المستمر. توفر النتائج تقارير مفصلة ولقطات شاشة عند الفشل، ما يسهل عملية تصحيح الأخطاء. تم تصميمها لتكون قابلة للتوسيع بسهولة مع إضافة ميزات جديدة إلى مشروع OpenGlad. تُعَدُّ أداةً حيوية لضمان جودة المنتج قبل الإطلاق.
Automated end‑to‑end testing for a financial services web application using Selenium and Pytest.
يُقدِّم هذا الإطار مجموعة شاملة من اختبارات النهاية إلى النهاية لتطبيق خدمات مالية عبر الويب. يُبنى باستخدام لغة بايثون وSelenium WebDriver مع Pytest، ويعتمد على نمط تصميم Page Object Model لضمان صيانة الاختبارات وإعادة استخدامها بسهولة. تُولَّد بيانات الاختبار ديناميكيًا باستخدام Faker، وتُنفَّذ الاختبارات بالتوازي عبر pytest‑xdist لتقليل زمن التنفيذ. يُستخدم Allure لتوليد تقارير شاملة، ويُدمج الإطار مع خط أنابيب CI/CD لتشغيل الاختبارات تلقائيًا. يستهدف الإطار مهندسي ضمان الجودة والمطورين الذين يحتاجون إلى اختبارات موثوقة ومتكررة للكشف المبكر عن الانحرافات وضمان تجربة مستخدم سلسة. يميز هذا الحل بتركيبه النمطي، وإمكانيات توليد البيانات، وتكاملاته مع أدوات CI/CD، مما يقلل الجهد اليدوي ويزيد من كفاءة التحقق من جودة التطبيق.
A command‑line harness that evaluates the core capabilities of AI agents by running a suite of automated tasks.
يُشغّل هذا الإطار مجموعة من المهام المُعرفة مسبقاً التي تستهدف قدرات محددة للذكاء الاصطناعي مثل فهم الكود، توليده، إصلاح الأخطاء، إعادة هيكلته، وتحويل البيانات. تُقدّم كل مهمة نصاً طبيعيًا، ملفات بذرة، ومُحقّق آلي لتقييم الدقة ضمن حد زمني قابل للتكوين. يمكن للمستخدم تشغيل جميع المهام على جميع الوكلاء المدعومين أو اختيار مهام ووكلاء محددين عبر خيارات سطر الأوامر. تُخزّن النتائج كملفات JSON، موضحة حالة النجاح أو الفشل، زمن التنفيذ، والمخرجات لكل زوج مهام-وكيل. صُمم هذا الإطار للباحثين والمطورين الذين يحتاجون إلى معيار متكرر وآلي لأداء الوكلاء الذكاء الاصطناعي.
A platform that runs standardized evaluations on AI agents with different memory backends and visualizes the results in a central dashboard.
يُعد Clawfarm منصة اختبار تُتيح للباحثين ومطوري الذكاء الاصطناعي تقييم ومقارنة أنظمة الذاكرة المختلفة للوكّالات. يقوم بتشغيل مجموعة من التقييمات المعيارية على الوكّالات المُكوّنة مع أنظمة ذاكرة متنوعة، ويجمع مؤشرات الأداء ويعرضها في لوحة تحكم مركزية. يدعم المنصة نسخاً متعددة للذاكرة مثل التخزين بالملف المسطح، والذاكرة المهيكلة على شكل رسم بياني، والذاكرة المؤشّرة بالمتجهات، مع إمكانية توسيعها بسهولة. يمكن للمستخدمين تشغيل لوحة التحكم، بدء تشغيل وحدات الوكّالات، وتفعيل التقييمات عبر سطر الأوامر، ما يسهّل دمجها في خطوط CI/CD. يقدّم Clawfarm واجهة موحدة للمعايير، مما يتيح للفرق اختيار أفضل استراتيجية ذاكرة تتناسب مع احتياجات تطبيقاتهم الحوارية.
A testing framework for validating exchange protocols and transaction flows.
يقدّم هذا المشروع إطاراً منظماً لاختبار بروتوكولات وتدفقات المعاملات في أنظمة التبادل، مع التركيز على الدقة والموثوقية. يتضمن مجموعة من حالات الاختبار القابلة لإعادة الاستخدام تغطي سيناريوهات شائعة مثل وضع الأوامر، المطابقة، التسوية، والتعامل مع الأخطاء. يمكن دمج الإطار بسهولة في خطوط أنابيب التكامل المستمر، ما يتيح اختبار الانحدار الآلي عند حدوث تغييرات في منطق التبادل. يستهدف المطورين الخلفيين ومهندسي التكامل، ويساعد على ضمان عدم تعطيل الميزات الجديدة أو إصلاحات الأخطاء للوظائف القائمة. كما يتيح المحاكاة لظروف السوق الواقعية، ما يدعم اختبارات الأداء والتحميل على مكونات التبادل.
This project provides end-to-end tests for the Pharmacy Sales Tracker application.
هذا المشروع يوفّر اختبارات نهاية إلى نهاية لبرنامج متابعة مبيعات الصيدليات. هذه الاختبارات الآلية مصممة لتحقق صحة وظيفة تطبيق متابعة مبيعات الصيدليات. تغطي هذه الاختبارات مختلف النماذج الحاسوبية وتضمن أن التطبيق يتصرف كما هو متوقع.
A testing harness that captures user-facing behavior from an RPG app and uses an LLM to judge scenario satisfaction.
يُعد هذا الأداة منصة لاختبار تطبيقات RPG على الويب، حيث تقوم بالتقاط سلوك المستخدم أثناء التفاعل مع التطبيق. تدعم الأداة وضعين للتقاط: تسجيل الشاشة يدويًا أو تشغيل السيناريوهات تلقائيًا عبر Playwright. بعد التقاط البيانات، تُنشئ الأداة ملخصًا للمتتالية ثم تُرسلها إلى نموذج لغة لتقييم ما إذا كانت السيناريوهات مستوفية. يُرجع النموذج تقريرًا منظمًا يوضح ما إذا كان السيناريو متوافقًا، غير متوافق، أو لا توجد أدلة كافية. تُستهدف هذه الأداة فرق التطوير والاختبار لضمان سير اللعب وفقًا للمتطلبات وتحديد الأنماط غير المرغوب فيها.
A test harness that runs unit and integration tests for the Leyi codebase, helping developers verify functionality before deployment.
يُقدِّم هذا المشروع حزمة اختبارات خفيفة الوزن مصممة لتشغيل اختبارات الوحدة والتكامل على قاعدة كود ليدي. يتضمن مجموعة من السكربتات المكتوبة بلغة بايثون التي تُكتشف وتنفّذ وحدات الاختبار، بالإضافة إلى أدوات باش تُسهل تنسيق تشغيل الاختبارات في بيئات مختلفة. يلتقط الحزمة نتائج الاختبارات ويولد تقارير مختصرة، ويمكن دمجه بسهولة في خطوط أنابيب التكامل المستمر. يستهدف المطورين ومهندسي ضمان الجودة، مما يُسهل عملية التحقق من تغييرات الكود ويضمن عدم إدخال أخطاء جديدة. من خلال أتمتة سير العمل الاختباري، يقلل المشروع الجهد اليدوي ويُسرّع دورة الإطلاق.
It evaluates whether a knowledge graph of metaphors improves large language model reasoning.
يقدم هذا المشروع مجموعة من أدوات التقييم التي تقيس تأثير قاعدة بيانات الرموز المجازية المنظمة على أداء نماذج اللغة الكبيرة. يتضمن ذلك قوالب للطلبات، وملفات تقييم، ومجموعات اختبارات تُقيّم مهام مثل تسمية المكونات، واكتشاف نقاط الفشل، وتحديد الرموز المجازية. تُستخدم أدوات التقييم خوادم OpenRouter لتقييم النتائج كـ "LLM-as‑judge"، وتدعم نهج الاستدعاء الوظيفي بالإضافة إلى التضمين السياقي. يستهدف المشروع الباحثين والمطورين الذين يرغبون في مقارنة قدرات نماذج اللغة على التفكير وتقييم فوائد استرجاع الرموز المجازية بشكل مستهدف. يوضح المشروع كيف يمكن لاستعلامات محددة أن تحسن دقة وفائدة النماذج مقارنة بالحقن السياقي الضخم.
A command‑line test runner that executes Playwright‑based browser tests written in Python, TypeScript, JavaScript, or Bash scripts.
تُتيح هذه الأداة تشغيل اختبارات متصفح تعتمد على Playwright من خلال سطر أوامر بسيط. يمكن كتابة الاختبارات بلغة بايثون أو تايبسكريبت أو جافاسكربت أو حتى سكربتات شل، ما يتيح مرونة في اختيار لغة البرمجة. تدعم الأداة تشغيل الاختبارات على متصفحات Chrome و Firefox و WebKit مع توفير تقارير مفصلة عن النتائج. تُدمج مع أنظمة التكامل المستمر لتسهيل تشغيل الاختبارات تلقائياً عند كل تحديث. كما توفر واجهة تفاعلية لتحديد مجموعات الاختبارات وتشغيلها بشكل متوازي. تبرز هذه الأداة بقدرتها على توحيد بيئة الاختبار عبر لغات متعددة وتسهيل صيانة الاختبارات.
A testing framework that uses semantic snapshot testing to validate AI model outputs without explicit assertions.
توفر هذه الأداة إطاراً لاختبار نماذج الذكاء الاصطناعي باستخدام اختبار اللقطة الدلالية، ما يتيح للمطورين التحقق من مخرجات النماذج دون الحاجة إلى تأكيدات صريحة. تعتمد الأداة على استنتاج سلوك النموذج المتوقع من بيانات مرجعية، مما يقلل الحاجة إلى كتابة حالات اختبار يدوية. تتكامل بسلاسة مع أدوات تشغيل الاختبارات الحالية، وتسمح بدمجها في خطوط التكامل المستمر للكشف عن الانحرافات في ردود الذكاء الاصطناعي. تستهدف المطورين المهتمين بالذكاء الاصطناعي ومهندسي التعلم الآلي، وتلبي الحاجة إلى التحقق من المخرجات المعقدة والمتغيرة التي يصعب اختبارها بالطرق التقليدية. كما توفر استدلالاً مجانيًا وواجهة سطر أوامر بسيطة، ما يقلل من عوائق اعتماد ممارسات اختبار الذكاء الاصطناعي الصارمة.
A lightweight test harness designed to validate system behavior and performance for the 2026 release cycle.
يُقدِّم هذا المشروع إطارًا بسيطًا لتشغيل اختبارات آلية ومقاييس الأداء. يدعم مجموعة متنوعة من سيناريوهات الاختبار، بدءًا من فحوصات الوحدة وصولاً إلى محاكاة الأحمال، ويجمع بيانات مفصلة للتحليل. يُسهِّل دمج الأداة في خطوط أنابيب التكامل المستمر، ويمكن تكوينها عبر ملف JSON بسيط. يستهدف المهندسين المختصين بالتحقق من الجودة والمطورين الذين يحتاجون إلى التحقق السريع للإصدارات الجديدة. يساعد في كشف الانحرافات ومواطن الاختناق في الأداء قبل نشر النظام في بيئة الإنتاج. يقدِّم واجهة سهلة الاستخدام مع رسائل واضحة للخطأ، ما يُسهم في تقليل وقت استكشاف الأخطاء.
Automated unit tests for a Python morphological processing library.
يقدّم هذا المشروع مجموعة شاملة من اختبارات الوحدة المصممة للتحقق من صحة وظائف مكتبة معالجة التصريفات المكتوبة بلغة بايثون. تغطي الاختبارات مجموعة واسعة من السيناريوهات، بما في ذلك التجزئة، والتصريف، واستخراج السمات الصرفية، مما يضمن أن كل مكوّن يعمل كما هو متوقع. تم تنظيم الاختبارات لتسهيل دمجها في خطوط أنابيب التكامل المستمر، وتوفير ملاحظات سريعة حول تغييرات الكود. يستهدف المطورين الذين يعتنون أو يمدّون المكتبة، ويساعد على منع الانحدارات وضمان أداء ثابت عبر التحديثات. من خلال تشغيل هذه الاختبارات، يمكن للمساهمين تعديل الكود أو إضافة ميزات جديدة بثقة، مع العلم أن السلوك الأساسي يظل ثابتًا.
An automated testing platform that evaluates Azure services across two environments to ensure quality and consistency.
تُسهم هذه المنصة في أتمتة تقييم خدمات Azure عبر تنفيذ مجموعة شاملة من الاختبارات على بيئتين متميزتين: بيئة Microsoft Azure العامة كخط أساس، وبيئة Azure المستهدفة المسماة "Bleu". تقوم بجمع بيانات مفصلة حول الأداء والسجلات لكل خدمة، ثم تقارن النتائج لتحديد الانحرافات أو الانحدارات. تُنتج المنصة تقارير واضحة وقابلة للتنفيذ يمكن دمجها في خطوط أنابيب CI/CD أو مراجعتها من قبل فرق ضمان الجودة. صممت لتلبية احتياجات مهندسي السحابة، وأخصائيي ضمان الجودة، ومهندسي DevOps الذين يحتاجون إلى التحقق المتكرر والموثوق من خدمات Azure في بيئتين مرجعية ومستهدفة. من خلال توفير مقارنة جنبًا إلى جنب، تساعد المنصة الفرق على الحفاظ على اتساق الخدمات واكتشاف المشكلات بسرعة قبل وصولها إلى الإنتاج. تُعزز هذه الأداة الكفاءة التشغيلية وتقلل من مخاطر الأخطاء في البيئات السحابية. كما تدعم عمليات التحقق المستمرة وتُسهل اتخاذ قرارات مستنيرة بشأن نشر الخدمات.
A static analysis tool that enforces the zero‑literal rule in Rust projects, ensuring no hardcoded values appear in function bodies.
يقوم RustScanners بفحص ملفات المصدر في مشاريع Rust أثناء عملية البناء لاكتشاف القيم الثابتة غير المسموح بها مثل الأرقام السحرية، والمدة الزمنية، وعناوين URL، ومسارات الملفات، ومقارنات السلاسل، والوحدات المضمنة ذات الحجم الكبير. يتم دمجه بسلاسة عبر استدعاء دالة من ملف بناء، مما يتيح للمطورين تطبيق القاعدة دون الحاجة إلى خطوات تدقيق يدوية. تُبلغ الانتهاكات كتحذيرات للمترجم، ويمكن تكوين البناء ليفشل عند اكتشاف أي مشكلة. يدعم الأداة استثناءات للثوابت، والاختبارات، والماكرو، ومحددات الأنواع، مما يوفر مرونة مع الحفاظ على جودة الكود الصارمة. يُعد هذا الحل مثالياً للفرق التي ترغب في إبقاء قيم التكوين خارج الكود والحفاظ على قاعدة شفافة وسهلة الصيانة.
Automated end‑to‑end testing framework for an e-commerce demo store.
يقدّم هذا المشروع مجموعة اختبارات شاملة تعتمد على Playwright لتأمين تجربة المستخدم الكاملة على متجر تجريبي للتجارة الإلكترونية. يستخدم نمط كائن الصفحة (Page Object Model) لتجميع تفاعلات الصفحات، مما يجعل الاختبارات سهلة القراءة والصيانة. تُنتج المجموعة تقارير HTML وJSON، يمكن استهلاكها في خطوط CI/CD وخدمات التقارير السحابية. صُمم هذا الإطار للمهندسين المختصين بالاختبار والمهندسين الأماميين الذين يحتاجون إلى اختبارات موثوقة ومتكررة تعمل عبر متصفحات متعددة. كما يتضمن خطوات تكامل لتحميل التقارير إلى منصة سحابية، مما يبسط رؤية نتائج الاختبار.
This project provides automated tests to validate the functionality and performance of the DataOrb data management system.
يُنفّذ المشروع مجموعة من الاختبارات الآلية التي تغطي وظائف أساسية لنظام إدارة البيانات DataOrb. يركز على التحقق من صحة البيانات، استجابة واجهة برمجة التطبيقات، وأداء العمليات في سيناريوهات متعددة. يستخدم إطار اختبار JavaScript لتشغيل اختبارات الوحدة والتكامل، مع توليد بيانات عشوائية لتغطية حالات الاستخدام المتنوعة. يهدف إلى كشف الأخطاء قبل الإطلاق، وتوفير وثائق واضحة للمتطلبات. يستهدف مطوري النظام ومهندسي ضمان الجودة الذين يحتاجون إلى أداة موثوقة لاختبار التغييرات. يحل مشكلة عدم الثقة في استقرار النظام عند إضافة ميزات جديدة. يميز المشروع بتركيزه على الأداء والاختبارات المتكاملة مع التكامل المستمر.
Axiom is an AI‑driven CLI that verifies code intent by running natural‑language behavioral tests against a codebase.
أكسيم يتيح للمطورين كتابة شروط بلغة إنجليزية بسيطة في ملفات YAML، ثم يستخدم نموذج لغة كبير يعمل كوكيل لاستكشاف الكود المصدر وتحديد ما إذا كانت تلك الشروط محققة. يركز على التحقق من نية الكود، مع ضمان بقاء القيود المعمارية، والقيود الثابتة، وحراس حالات السباق صالحة عبر التغييرات، بدلاً من التحقق من تنفيذ الوحدات. يدعم الأداة نظام ذاكرة مؤقتة يعتمد على أنماط الملفات، ما يتيح إعادة تشغيل الاختبارات فقط عند تغيّر الملفات ذات الصلة. صُممت لتناسب فرق التطوير التي ترغب في دمج اختبارات سلوكية في خطوط CI دون كتابة كود تكراري. كما يوفر إمكانية تصفية الاختبارات، عرض تفصيل للمنطق، وهيكل دليل واضح لتنظيم الاختبارات.
Generate and validate user-perspective scenarios for a PHP database query library, serving as a lightweight consumer-driven contract suite.
يُعد هذا المشروع مجموعة اختبارات تُنشئ سيناريوهات مستخدم مُحاكاة للواجهات التي تُقدّمها مكتبة ztd-query-php. يركز على اختبار محولات قاعدة البيانات مثل mysqli وPDO عبر منصات MySQL وPostgreSQL وSQLite. تُكتب السيناريوهات باستخدام PHPUnit وتُحفظ في دليل tests، ما يتيح تشغيلها تلقائياً عند كل تحديث للمتطلبات. كما يُحوّل النتائج إلى مواصفات EARS تُوثّق السلوك المتوقع للمستهلك. يتيح ذلك للفرق التي تعتمد على المكتبة فحص التغييرات السلوكية بسرعة، وتحديد الانحرافات قبل دمجها. يُعدّ هذا النهج مثالاً عملياً على اختبار المستهلك المُوجه بالاتفاقيات، ويُسهل مشاركة النتائج مع مطوري المكتبة الأصلية. يُستخدم المشروع كأداة خفيفة الوزن للتحقق من التوافق، مع إمكانية دمجه في خطوط CI/CD. يساهم في تحسين جودة الكود عبر كشف الأخطاء المتكررة وتوثيق السلوكيات المتوقعة.
A JavaScript test suite for validating the FDK library's functionality.
يُقدّم هذا المشروع مجموعة من الاختبارات التي تُستخدم للتحقق من صحة وظائف مكتبة FDK. تُنفّذ الاختبارات في بيئة JavaScript وتُظهر النتائج في سطر الأوامر. يتيح للمطورين التأكد من أن التغييرات في الكود لا تُعطل الوظائف الأساسية للمكتبة. تُغطي الاختبارات سيناريوهات شائعة مثل استدعاء الدوال، معالجة الأخطاء، والتكامل مع مكونات أخرى. يُسهل المشروع عملية دمج التحديثات الجديدة في خطوط الإنتاج. يساهم في تقليل الأخطاء غير المتوقعة وتحسين جودة الكود.
A framework for testing and evaluating code generation from Claude AI models.
يُقدِّم هذا المشروع بيئة منظمة لتقييم جودة الكود المُنتَج من نماذج Claude AI. يعرِّف مجموعة من الأسئلة (prompts) والنتائج المتوقعة ومعايير التقييم لقياس الدقة والكفاءة وأسلوب الكود. يمكن للمستخدمين تشغيل مجموعة الاختبارات محلياً أو دمجها في خطوط التكامل المستمر لمراقبة أداء النموذج مع مرور الوقت. يدعم الإطار لغات برمجة متعددة ويتيح قواعد تقييم مخصصة. صُمِّم لتسهيل مقارنة نماذج الذكاء الاصطناعي وتحديد نقاط القوة والضعف في الكود المُنتَج.
Provide automated unit tests for the NaesinFit library to verify its functionality and reliability.
يحتوي هذا المشروع على مجموعة من اختبارات الوحدة الآلية المصممة للتحقق من وظائف مكتبة NaesinFit الأساسية. تغطي الاختبارات مجموعة واسعة من السيناريوهات، بما في ذلك الحالات الحافة وأنماط الاستخدام النموذجية، لضمان أن تتصرف المكتبة كما هو متوقع. يُقصد بها تشغيلها كجزء من خط أنابيب التكامل المستمر، مما يتيح اكتشاف الانحرافات في مرحلة مبكرة من دورة التطوير. الجمهور المستهدف هم المطورون الذين يدمجون NaesinFit في تطبيقاتهم ويحتاجون إلى ثقة في دقة عملها. من خلال توفير رسائل فشل واضحة وتقارير تغطية شاملة، تساعد هذه الاختبارات على الحفاظ على جودة الكود مع مرور الوقت.
This project is a testing classifier, intended for developers to evaluate and improve their code.
هذا المشروع هو مُصنف اختبار، مصمم لصانعي البرامج لتقييم وتحسين كودهم. يعتبر هذا المشروع من أدوات التطوير السريع التي تساعد على تسهيل عملية تحديد وترتيب الاختبارات.
Provide broken Python modules as test fixtures for validating an automated code‑repair system.
يقدم هذا المشروع مجموعة من الوحدات البرمجية المكتوبة بلغة بايثون والتي تحتوي على أخطاء مقصودة، وتُستخدم كأدوات اختبار لتجارب التكامل الشاملة لنظام إصلاح الأخطاء. يتضمن المشروع ثلاث سيناريوهات مختلفة تُظهر أخطاءً من أنواع متعددة: خطأ في النوع، خطأ في المنطق (خطأ في الإزاحة)، وفشل في الاتصال بواجهة برمجة تطبيقات خارجية. تُصمم الاختبارات للتحقق من قدرة النظام على اكتشاف الخطأ، اقتراح الإصلاح، وتطبيقه تلقائياً. يُستفيد منه مطورو البرمجيات ومهندسو ضمان الجودة عند اختبار دورة اكتشاف الأخطاء وإصلاحها قبل دمج محرك الإصلاح في سير العمل. كما يُظهر المشروع طريقة تنظيم بيانات الاختبار والنتائج المتوقعة لتسهيل الاختبار الآلي. يهدف المشروع إلى توفير بيئة تحاكي سيناريوهات حقيقية تساعد على تحسين كفاءة وأمان عمليات الصيانة.
An end‑to‑end testing suite for a Flutter ToDo application, built with Maestro and AI‑assisted test creation.
يُقدِّم هذا المشروع مجموعة اختبارات شاملة من النهاية إلى النهاية لتطبيق ToDo مبني على Flutter. يستخدم إطار عمل Maestro لبرمجة تفاعلات المستخدم مثل إضافة المهام، تعديلها، إكمالها، البحث عنها، وحذفها. تساعد الذكاء الاصطناعي في إنشاء مسارات الاختبار، مع تشجيع استخدام محددات الدلالية بدلاً من النقاط الثابتة. تُنظم الاختبارات في ملفات YAML منفصلة، كل منها يمثل سيناريو مستخدم محدد. تم تصميمها لتشغيلها من سطر الأوامر وتكاملها مع خطوط أنابيب التكامل المستمر. كما تُبرز أهمية استخدام محددات الدلالية لضمان صلابة الاختبارات عبر منصات مختلفة.
A sandbox environment for developers to test Symphony applications.
يُقدّم هذا المشروع مساحة اختبار مخصصة للمطورين لاختبار تطبيقات Symphony في بيئة مُتحكم فيها. يتضمن مساحة العمل كودًا تجريبيًا مُعدًا مسبقًا، واختبارات تكامل، ووثائق تساعد الفرق على التحقق من صحة الميزات الجديدة قبل نشرها. يتيح هذا الحيز تشغيل استدعاءات واجهة برمجة التطبيقات، وتدفقات الرسائل، وتفاعلات المكونات بأمان دون التأثير على الأنظمة الإنتاجية. يستهدف المطورين، ومهندسي ضمان الجودة، ومتكاملات الأنظمة، ويُسهم في تبسيط دورة الاختبار وتقليل مخاطر تسرب الأخطاء إلى البيئات الحية. بفضل توفير بيئة جاهزة للاستخدام، يُسرّع المشروع عملية التعلم ويُحسّن دورة التغذية الراجعة في مشاريع Symphony. كما يوفّر أدوات لتتبع الأداء، وتسجيل الأخطاء، وتحليل النتائج، مما يُسهّل اتخاذ قرارات مستنيرة. يدمج المشروع مع سير العمل الحالي، مع إمكانية توسيعه لتشمل سيناريوهات اختبار معقدة حسب الحاجة.
A benchmark framework that evaluates large language models on progressively generating graphs from natural language instructions.
يُقدِّم GraphInstruct إطاراً معيارياً منظماً لتقييم قدرة نماذج اللغة الكبيرة على توليد الرسوم البيانية استناداً إلى أوامر نصية. يتضمن مجموعة مختارة من المهام التدريجية التي تزداد تعقيداً تدريجياً، ما يتيح للباحثين تتبع أداء النماذج عبر مراحل مختلفة. يدمج الإطار مكتبات التصوير لتوليد الرسوم البيانية ويُقدِّم مقاييس دقيقة لدرجة الدقة، والوفاء بالمتطلبات، وسرعة التوليد. يستهدف الباحثين في مجال معالجة اللغة الطبيعية وتوليد الرسوم البيانية، ويُمكّنهم من إجراء مقارنات قابلة للتكرار بين النماذج المختلفة. يساهم في دفع تطوير أنظمة توليد أكثر قدرة على التعامل مع أوامر نصية معقدة، مع التركيز على تحسين جودة الرسوم البيانية المولَّدة. كما يتيح إمكانية توسيع نطاق التقييم ليشمل سيناريوهات تطبيقية متنوعة، مما يعزز من فاعلية النماذج في البيئات الواقعية.
Automate user acceptance testing to streamline QA workflows.
يُقدّم هذا المشروع أداة تُسهل عملية اختبار القبول من قبل المستخدم (UAT) عبر الأتمتة. يتيح للمختبرين إنشاء مجموعات اختبار تلقائيًا استنادًا إلى متطلبات المشروع أو سيناريوهات المستخدم. تُشغّل الأداة هذه الاختبارات في بيئات متعددة، وتجمع النتائج في تقارير مفصلة تُعرض بصيغة قابلة للقراءة. يدعم التكامل مع أنظمة التكامل المستمر، ما يضمن أن يتم اختبار القبول في كل مرحلة من مراحل التطوير. يهدف المشروع إلى تقليل الوقت اليدوي اللازم لإجراء اختبارات القبول، وتحسين دقة النتائج، وتوفير رؤية واضحة للجهات المعنية. يختلف عن الحلول التقليدية بتركيزه على التفاعل مع واجهات المستخدم الرسومية وتوليد سيناريوهات اختبار ديناميكية. يُستهدف به فرق التطوير والاختبار التي تسعى لتسريع دورة النشر مع الحفاظ على جودة المنتج.
A tool that evaluates the performance of a TODO application against a predefined rubric to identify scalability limits.
تعمل هذه الأداة على إجراء سلسلة من اختبارات الضغط على تطبيق المهام، مع جمع مقاييس مثل زمن الاستجابة، معدل المعالجة، ومعدلات الأخطاء. تُقارن البيانات المجموعة مع معيار قابل للتكوين يحدد الحدود المقبولة لكل مقاييس. يمكن للأداة محاكاة عدد متزامن من المستخدمين، مع زيادة الحمل تدريجيًا حتى يتدهور الأداء. تُصدر النتائج في تقرير واضح يبرز أي معايير من المعيار تم تحقيقها أو خالفتها. صممت لتلبية احتياجات المطورين وفِرق ضمان الجودة الذين يحتاجون إلى طريقة سريعة وقابلة للتكرار لتقييم خدمة المهام تحت الضغط.
A Python test suite that verifies data handling processes for developers and QA teams.
يقدّم هذا المشروع مجموعة شاملة من الاختبارات الآلية مكتوبة بلغة بايثون للتحقق من صحة وموثوقية عمليات معالجة البيانات. تتضمن الاختبارات وحدات، تكامل، واختبارات رجعية تغطي سيناريوهات تحويل البيانات الشائعة، معالجة الأخطاء، والحدود. صُممت هذه المجموعة لتتكامل بسهولة مع خطوط أنابيب التكامل المستمر، مما يمكّن الفرق من اكتشاف الانحرافات في مرحلة مبكرة من دورة التطوير. يستهدف المشروع المطورين وفِرق ضمان الجودة الذين يحتاجون إلى التأكد من أن خطوط أنابيب البيانات وخدماتها تلبي المتطلبات الوظيفية وأداء النظام. من خلال تشغيل هذه الاختبارات، يمكن للفرق تقليل الجهد اليدوي في الاختبار وزيادة الثقة في منطق معالجة البيانات.
A declarative unit testing framework for validating Spark Declarative Pipelines.
يقدم هذا الإطار نهجاً إعلانيًا لاختبار الوحدات لخطوط أنابيب Spark Declarative، مما يمكّن المطورين من تعريف سلوك الأنابيب المتوقع بطريقة موجزة وسهلة القراءة. يقوم تلقائيًا بمقارنة مخرجات الأنابيب مع التوقعات المحددة مسبقًا، مما يكتشف الانحرافات ومشكلات جودة البيانات مبكرًا في دورة التطوير. يتكامل المكتبة بسلاسة مع خطوط CI/CD الحالية، مما يتيح تشغيل الاختبارات كجزء من عمليات البناء والنشر الآلية. يستهدف مهندسي البيانات ومطوري الأنابيب، ويقلل الجهد اليدوي في الاختبار ويزيد الثقة في صحة الأنابيب. بتركيزه على المواصفات الإعلانية، يبسط صيانة الاختبارات ويعزز توثيق عقود الأنابيب بوضوح.
A code-first API testing toolkit that lets developers write TypeScript tests to validate HTTP endpoints.
تتيح هذه الأداة للمطورين كتابة اختبارات واجهات برمجة التطبيقات مباشرةً في TypeScript، معاملة كود الاختبار كمصدر حقيقي للمعايير. توفر مكتبة خفيفة الوزن مع عميل HTTP، ومساعدات للتأكيد، وتسجيل هيكلي منظم. تُنفَّذ الاختبارات في بيئات معزولة، ما يضمن التكرار والأمان. يقوم واجهة الأوامر بالبحث عن ملفات الاختبار، تنفيذها، وتقديم تقارير واضحة وتفاعلية. يدعم التوثيق المدمج، والتحقق من المخططات، وGraphQL، ما يجعلها ملائمة لتدفقات العمل الحديثة للواجهات. تُعد خيارًا مثاليًا للفرق التي ترغب في دمج اختبار واجهات برمجة التطبيقات في عمليات التطوير وخطوط CI.
A lightweight test suite that validates the functionality of taco-related APIs for developers and QA teams.
يُقدِّم هذا المشروع إطاراً مختصراً لاختبار واجهات برمجة التطبيقات المرتبطة بالـ "taco". يتضمن مجموعة من حالات الاختبار المُعدة مسبقاً للتحقق من رموز الحالة، وهيكل الحمولة، ومنطق الأعمال. يمكن دمج هذه المجموعة في خطوط أنابيب التكامل المستمر للكشف المبكر عن الانحرافات. يستهدف المطورين الخلفيين وفِرق ضمان الجودة، ويساعد على ضمان استقرار خدمة الـ "taco" مع إضافة ميزات جديدة. تُكتب الاختبارات بأسلوب واضح وسهل الصيانة، ويمكن توسيعها لتغطية سيناريوهات إضافية.
A test suite that verifies the functionality and stability of the Hendrix Flanger VST3 audio plugin.
يقدّم هذا المشروع مجموعة شاملة من الاختبارات الآلية لمكوّن فلاتر Hendrix Flanger VST3. تشمل الاختبارات وحدات اختبار للكتل المعالجة الفردية، واختبارات تكامل تُشغّل المكوّن داخل بيئات استضافة شائعة، واختبارات رجعية تقارن المخرجات مع ملفات صوتية مرجعية. تُكتب الاختبارات بلغة Python وC++ وتستفيد من مكتبات NumPy وSciPy لتحليل المقارنات الصوتية. يستهدف المشروع مطوري المكوّنات ومهندسي ضمان الجودة الذين يحتاجون إلى التأكد من سلوك موحد عبر التحديثات. من خلال تشغيل هذه الاختبارات، يمكن للمطورين اكتشاف الانحرافات بسرعة، والتحقق من معالجة المعلمات، وضمان التوافق عبر الأنظمة المختلفة.
A command-line tool that runs end‑to‑end tests against Katalon's Kai chatbot agent, collects performance metrics, and generates analytics dashboards.
توفر الأداة واجهة سطر أوامر بسيطة لتشغيل سيناريوهات اختبار آلية على وكيل Kai. تتواصل مع بروتوكول الوكيل عبر نقطتي نهاية، وتتابع حالة التنفيذ وتستخرج تاريخ المحادثة. تشمل سيناريوهات الاختبار مسارات النجاح، وحالات الحافة، وتفاعلات متعددة الجولات، وحالات الضغط. تحلل الوحدة التحليلية زمن الاستجابة، واستخدام الأدوات، ومعدلات الأخطاء، وتنتج تقارير JSON ولوحات عرض مرئية. تستهدف المهندسين المختصين بالاختبار الآلي والضمان الجودة الذين يحتاجون إلى التحقق من سلوك وكيل المحادثة وأدائه.
Dubis is a lightweight testing library that enables developers to write and run unit tests for JavaScript and Python projects.
دبيس يوفر واجهة برمجية بسيطة ومعبرة لكتابة اختبارات وحدات في كل من جافاسكريبت وبايثون. يركز على سرعة التنفيذ والتكوين البسيط، مما يسهل دمجه في المشاريع القائمة أو خطوط أنابيب التكامل المستمر. تتضمن المكتبة مجموعة من المساعدات للمقارنات وتدعم وظائف الاختبار غير المتزامنة بشكل افتراضي. صممت لتلبية احتياجات المطورين الذين يبحثون عن بديل خفيف الوزن للأنظمة الأكبر، مع الحفاظ على الميزات الأساسية مثل اكتشاف الاختبارات وتوليد التقارير. من خلال دعم لغتين شائعتين، يساعد دبيس الفرق على الحفاظ على ممارسات اختبار موحدة عبر قواعد بيانات متعددة اللغات.
A benchmark tool that evaluates how accurately local small language models can generate SQL queries from natural language questions.
يُقدّم مشروع Semantic SQL Testing إطار عمل لتقييم قدرات نماذج اللغة الصغيرة على توليد استعلامات SQL بدقة من أسئلة مكتوبة باللغة الطبيعية. يتضمن المشروع تعريفًا تفصيليًا لنموذج معنوي يصف مخططًا نجميًا من نوع TPC‑DS، مع مجموعة من 20 سؤالًا تغطي عمليات تجميع بسيطة ومعقدة. يتم تشغيل النماذج محليًا عبر خادم استدلال خفيف الوزن، ويُعتمد نظام تقييم تلقائي يقارن النتائج التي تُخرجها النماذج مع استعلامات أساسية مُتحققة، مع مراعاة تحييد أسماء الأعمدة وتطبيق حدود تحمل رقمية. يُنتج البرنامج مخططات بيانية توضح العلاقة بين سرعة التنفيذ ودقة الاستعلام، ما يتيح للمستخدمين مقارنة أداء النماذج المختلفة بسهولة. يستهدف هذا المشروع الباحثين ومطوري نماذج اللغة الذين يسعون إلى اختبار وتحسين أداء نماذجهم في مهام تحليل البيانات، مع توفير بيئة تجريبية قابلة للتكرار وشفافة.
A benchmark suite that evaluates the effectiveness of agent skills by performing A/B tests against raw LLM outputs.
يقدم هذا الأداة إطار عمل منظم لقياس مدى فاعلية مهارات الوكيل مقارنةً بمخرجات النموذج اللغوي الكبير غير المعدل. يقوم بتشغيل تقييمات جنباً إلى جنب، مع جمع مقاييس مثل الدقة، والملاءمة، ووقت الاستجابة. يدعم مجموعة الاختبار إعدادات قابلة للتكوين للعبارات ويمكن توسيعه بوظائف تقييم مخصصة. صُممت لتلبية احتياجات المطورين الذين يبنون مهارات الوكيل المعيارية ويحتاجون إلى أدلة موضوعية على التحسين. من خلال أتمتة عملية المقارنة، يساعد الفرق على التكرار بسرعة واتخاذ قرارات مستندة إلى البيانات.
This project provides a benchmark framework for evaluating Vision Language Models on extracting structured game state from anime gacha game screenshots, enabling automated QA and analytics.
يُقيّم هذا الإطار ما إذا كانت نماذج اللغة البصرية المتقدمة قادرة على استخراج حالة اللعبة المهيكلة بدقة من لقطات شاشة ألعاب الجاكّا الأنمي، بما في ذلك نقاط الصحة، واللفات، ومؤشرات الجاكّا، وعناصر واجهة المستخدم، والنصوص باللغتين اليابانية والإنجليزية. يتضمن الإطار وكيلًا قائمًا على LangGraph يقوم بتصنيف نوع الشاشة، واستخراج الحقول، والتحقق من صحة البيانات وفقًا للمعايير، وتطبيق قواعد ضمان الجودة المخصصة للقطاع. كما يوفر إطارًا لتصنيف الأخطاء ومتابعة اقتصاد الجاكّا، مما يتيح تحليلات دقيقة للأداء. يُقيس الإطار التكلفة، والوقت المستغرق، ودقة الاستخراج، ويولد تقارير مع فترات ثقة bootstrap وتحليلات Pareto لكل نموذج. يهدف المشروع إلى تحديد ما إذا كان يمكن استخدام نماذج اللغة البصرية لتشغيل تحليلات الألعاب والاختبار الآلي على نطاق واسع وبكلفة معقولة.
A distributed, automated test harness for validating the Ames Stereo Pipeline across multiple machines.
يُقدّم هذا الأداة مجموعة شاملة من اختبارات التحقق من صحة Ames Stereo Pipeline، مُصمَّمة لتعمل على بيئات موزعة وتُنفَّذ تلقائياً عبر عدة أجهزة. تُستخدم إطار عمل pytest لتنسيق وتشغيل الاختبارات، مع إمكانية توزيع المهام عبر SSH وتحديد عدد المعالجات لكل جهاز. يُعتمد على ملف إعدادات يحدد مجلدات الاختبار، وأجهزة التنفيذ، وعدد العمليات، والمتغيرات البيئية، بالإضافة إلى حدود الأخطاء المقبولة لكل اختبار. كل اختبار يُنفَّذ عبر سكربت run.sh يُنتج مجلد run، ويُقارن الناتج مع مجلد gold المرجعي لتحديد النجاح أو الفشل. يتيح الأداة اختيار مجموعات الاختبارات عبر معايير مثل اسم الدليل أو تعبيرات wildcard، ما يسهّل اختبار وظائف محددة فقط. تُسجَّل تفاصيل التنفيذ، بما في ذلك الوقت المستغرق واستهلاك الذاكرة، في ملف output.txt، مع توفير سجلات تفصيلية لكل أداة ASP تُستخدم. تُعد هذه الأداة حلاً مثالياً للفرق التي تطور ASP لتأكيد استقرار التغييرات وتسهيل عمليات التكامل المستمر.
This project provides automated end‑to‑end tests for a web mapping interface, ensuring its functionality across browsers.
يُقدِّم هذا المشروع مجموعة اختبارات شاملة تُحاكي تفاعلات المستخدم مع واجهة خريطة الويب، مع التركيز على وظائف التحميل، وتبديل الطبقات، وأدوات الرسم. تُنفَّذ الاختبارات في بيئة غير مرئية، ما يتيح دمجها بسلاسة في خطوط أنابيب التكامل المستمر. يستهدف المشروع مهندسي ضمان الجودة ومطوري الواجهة الأمامية الذين يحتاجون إلى كشف الانحرافات قبل الإطلاق. يساهم في تقليل الأخطاء التي قد تظهر بعد تحديثات الكود، ويضمن استقرار تجربة المستخدم. يميز المشروع قدرته على التحقق من التوافق عبر المتصفحات الرئيسية، مما يضمن تجربة موحدة للمستخدمين النهائيين.
Automated end‑to‑end tests for the Apple Farm web application, ensuring functional correctness across browsers.
يقدّم هذا المشروع مجموعة شاملة من الاختبارات التلقائية الشاملة لتطبيق Apple Farm على الويب. يغطي مسارات المستخدم الرئيسية مثل تصفح المنتجات، إضافة العناصر إلى السلة، وإتمام عمليات الشراء. تُنفّذ الاختبارات عبر متصفحات متعددة لضمان سلوك متسق ودقة بصرية. صُمم خصيصاً لفِرَق ضمان الجودة وهندسة الاختبار التلقائي، ويساعد على اكتشاف الانحرافات في مرحلة مبكرة من دورة التطوير. يعتمد على أداة اختبار حديثة تدعم التنفيذ المتوازي وتوفير تقارير مفصلة. يساهم في تقليل وقت التحقق اليدوي وتحسين موثوقية المنتج النهائي.