Latest repo added: E0993599799/forge-omega-v22026-05-17 19:30 UTC
758,527 total · 2 matching
2 active filters · 2 results Clear All
py GraphInstruct ◫ Data/ML
C 708/10completed

A benchmark framework that evaluates large language models on progressively generating graphs from natural language instructions.

يُقدِّم GraphInstruct إطاراً معيارياً منظماً لتقييم قدرة نماذج اللغة الكبيرة على توليد الرسوم البيانية استناداً إلى أوامر نصية. يتضمن مجموعة مختارة من المهام التدريجية التي تزداد تعقيداً تدريجياً، ما يتيح للباحثين تتبع أداء النماذج عبر مراحل مختلفة. يدمج الإطار مكتبات التصوير لتوليد الرسوم البيانية ويُقدِّم مقاييس دقيقة لدرجة الدقة، والوفاء بالمتطلبات، وسرعة التوليد. يستهدف الباحثين في مجال معالجة اللغة الطبيعية وتوليد الرسوم البيانية، ويُمكّنهم من إجراء مقارنات قابلة للتكرار بين النماذج المختلفة. يساهم في دفع تطوير أنظمة توليد أكثر قدرة على التعامل مع أوامر نصية معقدة، مع التركيز على تحسين جودة الرسوم البيانية المولَّدة. كما يتيح إمكانية توسيع نطاق التقييم ليشمل سيناريوهات تطبيقية متنوعة، مما يعزز من فاعلية النماذج في البيئات الواقعية.

graph-generationinstruction-drivenllm-evaluationbenchmarkprogressive-tasksvisualizationhuggingfacematplotlibnumpyplotlypytorchpython
57 143,281 69 1mo ago
js g123 research ◆ Testing
C 648/10completed

This project provides a benchmark framework for evaluating Vision Language Models on extracting structured game state from anime gacha game screenshots, enabling automated QA and analytics.

يُقيّم هذا الإطار ما إذا كانت نماذج اللغة البصرية المتقدمة قادرة على استخراج حالة اللعبة المهيكلة بدقة من لقطات شاشة ألعاب الجاكّا الأنمي، بما في ذلك نقاط الصحة، واللفات، ومؤشرات الجاكّا، وعناصر واجهة المستخدم، والنصوص باللغتين اليابانية والإنجليزية. يتضمن الإطار وكيلًا قائمًا على LangGraph يقوم بتصنيف نوع الشاشة، واستخراج الحقول، والتحقق من صحة البيانات وفقًا للمعايير، وتطبيق قواعد ضمان الجودة المخصصة للقطاع. كما يوفر إطارًا لتصنيف الأخطاء ومتابعة اقتصاد الجاكّا، مما يتيح تحليلات دقيقة للأداء. يُقيس الإطار التكلفة، والوقت المستغرق، ودقة الاستخراج، ويولد تقارير مع فترات ثقة bootstrap وتحليلات Pareto لكل نموذج. يهدف المشروع إلى تحديد ما إذا كان يمكن استخدام نماذج اللغة البصرية لتشغيل تحليلات الألعاب والاختبار الآلي على نطاق واسع وبكلفة معقولة.

vision-language-model-evaluationgame-state-extractionscreenshot-analysisbenchmark-frameworkgacha-economy-monitoringqa-automationanthropichuggingfacelangchainopenaipydanticpytorchjson
165 36,328 63 1mo ago