Latest repo added: agendaautomatizada/landing-teacher-project-mx-v22026-05-17 20:30 UTC
758,573 total · 2 matching
2 active filters · 2 results Clear All
py eval ◆ Testing
MITB 827/10completed

It evaluates whether a knowledge graph of metaphors improves large language model reasoning.

يقدم هذا المشروع مجموعة من أدوات التقييم التي تقيس تأثير قاعدة بيانات الرموز المجازية المنظمة على أداء نماذج اللغة الكبيرة. يتضمن ذلك قوالب للطلبات، وملفات تقييم، ومجموعات اختبارات تُقيّم مهام مثل تسمية المكونات، واكتشاف نقاط الفشل، وتحديد الرموز المجازية. تُستخدم أدوات التقييم خوادم OpenRouter لتقييم النتائج كـ "LLM-as‑judge"، وتدعم نهج الاستدعاء الوظيفي بالإضافة إلى التضمين السياقي. يستهدف المشروع الباحثين والمطورين الذين يرغبون في مقارنة قدرات نماذج اللغة على التفكير وتقييم فوائد استرجاع الرموز المجازية بشكل مستهدف. يوضح المشروع كيف يمكن لاستعلامات محددة أن تحسن دقة وفائدة النماذج مقارنة بالحقن السياقي الضخم.

evaluationllmmetaphorknowledge-graphprompt-engineeringperformance-measurementopenairichpython
53 3,094 82 1mo ago
py GraphInstruct ◫ Data/ML
C 708/10completed

A benchmark framework that evaluates large language models on progressively generating graphs from natural language instructions.

يُقدِّم GraphInstruct إطاراً معيارياً منظماً لتقييم قدرة نماذج اللغة الكبيرة على توليد الرسوم البيانية استناداً إلى أوامر نصية. يتضمن مجموعة مختارة من المهام التدريجية التي تزداد تعقيداً تدريجياً، ما يتيح للباحثين تتبع أداء النماذج عبر مراحل مختلفة. يدمج الإطار مكتبات التصوير لتوليد الرسوم البيانية ويُقدِّم مقاييس دقيقة لدرجة الدقة، والوفاء بالمتطلبات، وسرعة التوليد. يستهدف الباحثين في مجال معالجة اللغة الطبيعية وتوليد الرسوم البيانية، ويُمكّنهم من إجراء مقارنات قابلة للتكرار بين النماذج المختلفة. يساهم في دفع تطوير أنظمة توليد أكثر قدرة على التعامل مع أوامر نصية معقدة، مع التركيز على تحسين جودة الرسوم البيانية المولَّدة. كما يتيح إمكانية توسيع نطاق التقييم ليشمل سيناريوهات تطبيقية متنوعة، مما يعزز من فاعلية النماذج في البيئات الواقعية.

graph-generationinstruction-drivenllm-evaluationbenchmarkprogressive-tasksvisualizationhuggingfacematplotlibnumpyplotlypytorchpython
57 143,281 69 1mo ago