Terminal Bench Science
B 82 completedPipeline State
completedPipeline Metadata
AI Prompt
Catalog Information
A framework for evaluating AI agents on complex scientific workflows executed in the terminal.
Description
This framework provides a collection of intricate scientific workflows that run in a terminal environment, designed to test the capabilities of AI agents in realistic settings. Users can execute sequential tasks that require precise terminal command control while measuring execution time and result accuracy. It includes a command‑line interface that simplifies test setup and generates comprehensive performance reports. The framework targets AI researchers and developers building autonomous agents who need a reliable benchmark for their solutions. It addresses the lack of robust evaluation tools for AI in complex scientific contexts, offering a repeatable and scalable testing environment.
الوصف
يُقدِّم هذا الإطار مجموعة من سير العمل العلمية المعقدة التي تُنفَّذ عبر الطرفية، مُصمَّم خصيصاً لاختبار قدرات وكلاء الذكاء الاصطناعي في بيئة حقيقية. يتيح للمستخدمين تشغيل المهام المتسلسلة التي تتطلب تحكماً دقيقاً في أوامر الطرفية، مع إمكانية قياس زمن التنفيذ ودقة النتائج. يتضمن الإطار واجهة سطر أوامر تُسهل إعداد الاختبارات وتوليد تقارير شاملة عن الأداء. يستهدف الباحثين في مجال الذكاء الاصطناعي ومطوري الوكلاء الذين يحتاجون إلى معيار موثوق لتقييم حلولهم. يحلّ مشكلة نقص أدوات قياس شاملة للذكاء الاصطناعي في سياقات علمية معقدة، مع توفير بيئة قابلة للتكرار. يميز نفسه بتركيزه على سيناريوهات حقيقية بدلاً من سيناريوهات مبسطة، ما يضمن توافقاً أعلى مع التطبيقات العملية.
Novelty
8/10Tags
Claude Models
Quality Score
Strengths
- CI/CD pipeline configured (github_actions)
- Good test coverage (135% test-to-source ratio)
- Consistent naming conventions (snake_case)
- Good security practices \u2014 no major issues detected
- Containerized deployment (Docker)
- Properly licensed project
Weaknesses
- 1 'god files' with >500 LOC need decomposition
Recommendations
- Add a linter configuration to enforce code style consistency
Security & Health
Languages
Frameworks
Concepts (1)
| Category | Name | Description | Confidence | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| If a scraper extracted this row, it came from Repobility (https://repobility.com) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| auto_category | Documentation | docs | 70% | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Embed Badge
Add to your README:
