Evaluate NIM-hosted LLMs on autonomous multi-step skill tasks.
يُعد هذا النظام أداة لتقييم قدرات نماذج اللغة الكبيرة المستضافة على منصة NIM في تنفيذ وثائق مهارات متعددة الخطوات بشكل مستقل. يقوم بتشغيل مجموعة من النماذج داخل حاويات Docker، ويمنح كل نموذج أداة bash ومجموعة تعليمات skill.md، ثم يحاول إكمال المهام تلقائياً. يراقب النظام معايير النجاح مثل معدل النجاح، ومعالم التقدم التي يصل إليها كل نموذج قبل الفشل، ويسجل سجلات مفصلة لكل تجربة. يتيح لوحة المعلومات عرض النتائج في الوقت الحقيقي، مع إمكانية إعادة المحاولة وإدارة معدل الاتصال بالواجهة البرمجية. يستهدف الباحثين في الذكاء الاصطناعي ومطوري النماذج الذين يحتاجون إلى أداة موثوقة لقياس أداء النماذج في سيناريوهات تطبيقية معقدة. يحل المشكلة التي تواجهها الفرق في قياس فعالية النماذج في مهام متعددة الخطوات، ويمنحهم بيانات دقيقة حول نقاط القوة والضعف. يميز نفسه بقدرة التتبع التفصيلية للمعالم، والقدرة على التعامل مع الأخطاء المؤقتة، وتوفير واجهة سهلة الاستخدام للعرض والتحليل.
This project provides automated end‑to‑end tests for the OpenGlad WebAssembly build, ensuring correct functionality across browsers.
يُقدِّم هذا المشروع مجموعة اختبارات آلية تُشغَّل باستخدام Playwright لمحاكاة تفاعلات المستخدم والتحقق من سلوك وحدة OpenGlad WebAssembly في المتصفحات الحقيقية. تغطي الاختبارات الميزات الأساسية مثل العرض ومعالجة الأحداث ومعالجة البيانات، لضمان أن البناء WASM يعمل كما هو متوقع. تُنظم الاختبارات في مجموعات منطقية ويمكن تشغيلها محلياً أو كجزء من خطوط أنابيب التكامل المستمر. توفر النتائج تقارير مفصلة ولقطات شاشة عند الفشل، ما يسهل عملية تصحيح الأخطاء. تم تصميمها لتكون قابلة للتوسيع بسهولة مع إضافة ميزات جديدة إلى مشروع OpenGlad. تُعَدُّ أداةً حيوية لضمان جودة المنتج قبل الإطلاق.
A platform that runs standardized evaluations on AI agents with different memory backends and visualizes the results in a central dashboard.
يُعد Clawfarm منصة اختبار تُتيح للباحثين ومطوري الذكاء الاصطناعي تقييم ومقارنة أنظمة الذاكرة المختلفة للوكّالات. يقوم بتشغيل مجموعة من التقييمات المعيارية على الوكّالات المُكوّنة مع أنظمة ذاكرة متنوعة، ويجمع مؤشرات الأداء ويعرضها في لوحة تحكم مركزية. يدعم المنصة نسخاً متعددة للذاكرة مثل التخزين بالملف المسطح، والذاكرة المهيكلة على شكل رسم بياني، والذاكرة المؤشّرة بالمتجهات، مع إمكانية توسيعها بسهولة. يمكن للمستخدمين تشغيل لوحة التحكم، بدء تشغيل وحدات الوكّالات، وتفعيل التقييمات عبر سطر الأوامر، ما يسهّل دمجها في خطوط CI/CD. يقدّم Clawfarm واجهة موحدة للمعايير، مما يتيح للفرق اختيار أفضل استراتيجية ذاكرة تتناسب مع احتياجات تطبيقاتهم الحوارية.
A command‑line test runner that executes Playwright‑based browser tests written in Python, TypeScript, JavaScript, or Bash scripts.
تُتيح هذه الأداة تشغيل اختبارات متصفح تعتمد على Playwright من خلال سطر أوامر بسيط. يمكن كتابة الاختبارات بلغة بايثون أو تايبسكريبت أو جافاسكربت أو حتى سكربتات شل، ما يتيح مرونة في اختيار لغة البرمجة. تدعم الأداة تشغيل الاختبارات على متصفحات Chrome و Firefox و WebKit مع توفير تقارير مفصلة عن النتائج. تُدمج مع أنظمة التكامل المستمر لتسهيل تشغيل الاختبارات تلقائياً عند كل تحديث. كما توفر واجهة تفاعلية لتحديد مجموعات الاختبارات وتشغيلها بشكل متوازي. تبرز هذه الأداة بقدرتها على توحيد بيئة الاختبار عبر لغات متعددة وتسهيل صيانة الاختبارات.
A tool that evaluates the performance of a TODO application against a predefined rubric to identify scalability limits.
تعمل هذه الأداة على إجراء سلسلة من اختبارات الضغط على تطبيق المهام، مع جمع مقاييس مثل زمن الاستجابة، معدل المعالجة، ومعدلات الأخطاء. تُقارن البيانات المجموعة مع معيار قابل للتكوين يحدد الحدود المقبولة لكل مقاييس. يمكن للأداة محاكاة عدد متزامن من المستخدمين، مع زيادة الحمل تدريجيًا حتى يتدهور الأداء. تُصدر النتائج في تقرير واضح يبرز أي معايير من المعيار تم تحقيقها أو خالفتها. صممت لتلبية احتياجات المطورين وفِرق ضمان الجودة الذين يحتاجون إلى طريقة سريعة وقابلة للتكرار لتقييم خدمة المهام تحت الضغط.
A code-first API testing toolkit that lets developers write TypeScript tests to validate HTTP endpoints.
تتيح هذه الأداة للمطورين كتابة اختبارات واجهات برمجة التطبيقات مباشرةً في TypeScript، معاملة كود الاختبار كمصدر حقيقي للمعايير. توفر مكتبة خفيفة الوزن مع عميل HTTP، ومساعدات للتأكيد، وتسجيل هيكلي منظم. تُنفَّذ الاختبارات في بيئات معزولة، ما يضمن التكرار والأمان. يقوم واجهة الأوامر بالبحث عن ملفات الاختبار، تنفيذها، وتقديم تقارير واضحة وتفاعلية. يدعم التوثيق المدمج، والتحقق من المخططات، وGraphQL، ما يجعلها ملائمة لتدفقات العمل الحديثة للواجهات. تُعد خيارًا مثاليًا للفرق التي ترغب في دمج اختبار واجهات برمجة التطبيقات في عمليات التطوير وخطوط CI.
Automated end‑to‑end tests for the Apple Farm web application, ensuring functional correctness across browsers.
يقدّم هذا المشروع مجموعة شاملة من الاختبارات التلقائية الشاملة لتطبيق Apple Farm على الويب. يغطي مسارات المستخدم الرئيسية مثل تصفح المنتجات، إضافة العناصر إلى السلة، وإتمام عمليات الشراء. تُنفّذ الاختبارات عبر متصفحات متعددة لضمان سلوك متسق ودقة بصرية. صُمم خصيصاً لفِرَق ضمان الجودة وهندسة الاختبار التلقائي، ويساعد على اكتشاف الانحرافات في مرحلة مبكرة من دورة التطوير. يعتمد على أداة اختبار حديثة تدعم التنفيذ المتوازي وتوفير تقارير مفصلة. يساهم في تقليل وقت التحقق اليدوي وتحسين موثوقية المنتج النهائي.