Nim Skill Test
D 52 completedPipeline State
completedPipeline Metadata
AI Prompt
Catalog Information
Evaluate NIM-hosted LLMs on autonomous multi-step skill tasks.
Description
This tool evaluates NIM-hosted large language models on autonomous execution of multi-step skill documents. It launches dozens of models in isolated Docker containers, equips each with a bash interface and a skill.md instruction set, and lets them attempt tasks such as registering on GitLab or posting on Moltbook. The system tracks progress milestones, pass rates, and logs detailed experiment data, providing a real‑time dashboard for visualizing results. It supports retry logic, concurrency control, and false‑positive filtering to ensure reliable metrics. Targeted at AI researchers and LLM developers, it offers a reproducible benchmark for measuring model autonomy and problem‑solving capabilities.
الوصف
يُعد هذا النظام أداة لتقييم قدرات نماذج اللغة الكبيرة المستضافة على منصة NIM في تنفيذ وثائق مهارات متعددة الخطوات بشكل مستقل. يقوم بتشغيل مجموعة من النماذج داخل حاويات Docker، ويمنح كل نموذج أداة bash ومجموعة تعليمات skill.md، ثم يحاول إكمال المهام تلقائياً. يراقب النظام معايير النجاح مثل معدل النجاح، ومعالم التقدم التي يصل إليها كل نموذج قبل الفشل، ويسجل سجلات مفصلة لكل تجربة. يتيح لوحة المعلومات عرض النتائج في الوقت الحقيقي، مع إمكانية إعادة المحاولة وإدارة معدل الاتصال بالواجهة البرمجية. يستهدف الباحثين في الذكاء الاصطناعي ومطوري النماذج الذين يحتاجون إلى أداة موثوقة لقياس أداء النماذج في سيناريوهات تطبيقية معقدة. يحل المشكلة التي تواجهها الفرق في قياس فعالية النماذج في مهام متعددة الخطوات، ويمنحهم بيانات دقيقة حول نقاط القوة والضعف. يميز نفسه بقدرة التتبع التفصيلية للمعالم، والقدرة على التعامل مع الأخطاء المؤقتة، وتوفير واجهة سهلة الاستخدام للعرض والتحليل.
Novelty
7/10Tags
Claude Models
Quality Score
Strengths
- Good security practices \u2014 no major issues detected
Weaknesses
- No LICENSE file \u2014 legal ambiguity for contributors
- No tests found \u2014 high risk of regressions
- No CI/CD configuration \u2014 manual testing and deployment
- 177 duplicate lines detected \u2014 consider DRY refactoring
- 1 'god files' with >500 LOC need decomposition
Recommendations
- Add a test suite \u2014 start with critical path integration tests
- Set up CI/CD (GitHub Actions recommended) to automate testing and deployment
- Add a linter configuration to enforce code style consistency
- Add a LICENSE file (MIT recommended for open source)
Security & Health
Languages
Frameworks
Concepts (1)
| Category | Name | Description | Confidence | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Citation: Repobility (2026). State of AI-Generated Code. https://repobility.com/research/ | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| auto_description | Project Description | Test how well NIM-hosted LLMs can autonomously follow a multi-step skill document — using only bash, curl, python3, and ssh-keygen in a fresh Docker container. | 80% | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Embed Badge
Add to your README:
