It evaluates whether a knowledge graph of metaphors improves large language model reasoning.
يقدم هذا المشروع مجموعة من أدوات التقييم التي تقيس تأثير قاعدة بيانات الرموز المجازية المنظمة على أداء نماذج اللغة الكبيرة. يتضمن ذلك قوالب للطلبات، وملفات تقييم، ومجموعات اختبارات تُقيّم مهام مثل تسمية المكونات، واكتشاف نقاط الفشل، وتحديد الرموز المجازية. تُستخدم أدوات التقييم خوادم OpenRouter لتقييم النتائج كـ "LLM-as‑judge"، وتدعم نهج الاستدعاء الوظيفي بالإضافة إلى التضمين السياقي. يستهدف المشروع الباحثين والمطورين الذين يرغبون في مقارنة قدرات نماذج اللغة على التفكير وتقييم فوائد استرجاع الرموز المجازية بشكل مستهدف. يوضح المشروع كيف يمكن لاستعلامات محددة أن تحسن دقة وفائدة النماذج مقارنة بالحقن السياقي الضخم.
A benchmark framework that evaluates large language models on progressively generating graphs from natural language instructions.
يُقدِّم GraphInstruct إطاراً معيارياً منظماً لتقييم قدرة نماذج اللغة الكبيرة على توليد الرسوم البيانية استناداً إلى أوامر نصية. يتضمن مجموعة مختارة من المهام التدريجية التي تزداد تعقيداً تدريجياً، ما يتيح للباحثين تتبع أداء النماذج عبر مراحل مختلفة. يدمج الإطار مكتبات التصوير لتوليد الرسوم البيانية ويُقدِّم مقاييس دقيقة لدرجة الدقة، والوفاء بالمتطلبات، وسرعة التوليد. يستهدف الباحثين في مجال معالجة اللغة الطبيعية وتوليد الرسوم البيانية، ويُمكّنهم من إجراء مقارنات قابلة للتكرار بين النماذج المختلفة. يساهم في دفع تطوير أنظمة توليد أكثر قدرة على التعامل مع أوامر نصية معقدة، مع التركيز على تحسين جودة الرسوم البيانية المولَّدة. كما يتيح إمكانية توسيع نطاق التقييم ليشمل سيناريوهات تطبيقية متنوعة، مما يعزز من فاعلية النماذج في البيئات الواقعية.