A qualification suite that verifies forjar configurations work correctly on real infrastructure.
يُقدّم هذا المعيار مجموعة من الوصفات الحقيقية التي تُطبّق على أجهزة فعلية للتحقق من سلوك أداة forjar. كل وصفة تمثل تكويناً كاملاً للبنية التحتية، بدءاً من محطة عمل مطور إلى مجموعة مراقبة، وتُنفَّذ على مشغّل مخصص يتم استضافته ذاتياً. يراقب الإطار التكرار (idempotency) ويُسجِّل أوقات التنفيذ، ويُشير إلى أي فشل ليتم معالجته فوراً. يتكامل مع خطوط التكامل المستمر، مُنتجاً تقارير التغطية، والتحقّق من القواعد، ولوحة قيادة ديناميكية للمعايير. يهدف هذا المعيار إلى كشف الأخطاء أو الميزات الناقصة في forjar قبل أن تصل إلى بيئات الإنتاج، مما يضمن موثوقية عالية في نشر البنية التحتية.
A platform that runs standardized evaluations on AI agents with different memory backends and visualizes the results in a central dashboard.
يُعد Clawfarm منصة اختبار تُتيح للباحثين ومطوري الذكاء الاصطناعي تقييم ومقارنة أنظمة الذاكرة المختلفة للوكّالات. يقوم بتشغيل مجموعة من التقييمات المعيارية على الوكّالات المُكوّنة مع أنظمة ذاكرة متنوعة، ويجمع مؤشرات الأداء ويعرضها في لوحة تحكم مركزية. يدعم المنصة نسخاً متعددة للذاكرة مثل التخزين بالملف المسطح، والذاكرة المهيكلة على شكل رسم بياني، والذاكرة المؤشّرة بالمتجهات، مع إمكانية توسيعها بسهولة. يمكن للمستخدمين تشغيل لوحة التحكم، بدء تشغيل وحدات الوكّالات، وتفعيل التقييمات عبر سطر الأوامر، ما يسهّل دمجها في خطوط CI/CD. يقدّم Clawfarm واجهة موحدة للمعايير، مما يتيح للفرق اختيار أفضل استراتيجية ذاكرة تتناسب مع احتياجات تطبيقاتهم الحوارية.
A JavaScript test suite for validating the FDK library's functionality.
يُقدّم هذا المشروع مجموعة من الاختبارات التي تُستخدم للتحقق من صحة وظائف مكتبة FDK. تُنفّذ الاختبارات في بيئة JavaScript وتُظهر النتائج في سطر الأوامر. يتيح للمطورين التأكد من أن التغييرات في الكود لا تُعطل الوظائف الأساسية للمكتبة. تُغطي الاختبارات سيناريوهات شائعة مثل استدعاء الدوال، معالجة الأخطاء، والتكامل مع مكونات أخرى. يُسهل المشروع عملية دمج التحديثات الجديدة في خطوط الإنتاج. يساهم في تقليل الأخطاء غير المتوقعة وتحسين جودة الكود.