The nous project is a nano transformer LLM built from scratch, designed for natural language processing tasks.
هذا المشروع هو نموذج لغة متكامل من الصفر، يستخدم لتحليل اللغة الطبيعية والتعلم الآلي. يتم بناؤه باستخدام بيرتوش وله محرك تشغيل C99 للتنفيذ الفعال. يتم تدريبه على dataset WikiText-103 ويحتوي على عدد قليل من المعلمات حوالي 15,000.
jore is a nano transformer LLM built from scratch, designed for natural language processing tasks.
يور هو نموذج معالجة اللغة الطبيعية من الدرجة النانوية، مصمم لتحليل اللغة الطبيعية. يعتمد على بيرش ويتش (PyTorch) ويعمل على تشغيل المعالجات المحلية (C99). يحتوي على واجهة ويب باستخدام فلاسك (Flask)، وتدعم التكامل بالحروف. يتضمن المشروع حلقة تدريب، إدارة نقاط التحقق، وتسريع الليل باستخدام الكرون.
A lightweight, character-level language model that runs entirely in the browser for real‑time text generation.
يقدم هذا المشروع نموذجًا لغويًا صغيرًا تم تدريبه من الصفر، ويعمل على توليد النصوص على مستوى الحرف. يتميز بحجمه الصغير (3.5 مليون معلمة) مما يتيح تشغيله بالكامل في المتصفح عبر ONNX Runtime وWebAssembly، دون الحاجة إلى خادم خلفي. يتيح واجهة المستخدم الرسومية التفاعلية إمكانية إدخال الأسئلة وتلقي الإجابات في الوقت الحقيقي مع إمكانية ضبط درجة الحرارة وطول النص. يستهدف المطورين ومهتمي الذكاء الاصطناعي الذين يحتاجون إلى نموذج خفيف الوزن لتجارب سريعة أو دمج في تطبيقات الويب أو الأجهزة المحمولة. يحل مشكلة الاعتماد على خدمات سحابية مكلفة أو تأخير الشبكة، ويمنح المستخدمين تحكمًا كاملاً في البيانات والنموذج. يميز المشروع بتركيزه على توليد النصوص على مستوى الحرف، ما يتيح دقة أكبر في التعامل مع لغات أو نصوص غير معروفة مسبقًا.
A lightweight transformer-based language model designed for local inference and educational experimentation.
يقدّم هذا المشروع نموذج لغة خفيف الوزن يعتمد على بنية المحول، ويضم 3.5 مليون معلمة، تم تدريبه على مزيج من النصوص الرياضية والإنكليزية. يوفّر واجهة ويب للتشغيل المحلي بالإضافة إلى محرك سطر أوامر يتيح توليد نص بسرعة مع استهلاك منخفض للموارد. يستخدم النموذج مُحَوِّلًا على مستوى الحرف ويحتوي على ثلاث طبقات محول، ما يجعله مثالياً لدراسة تأثير اختيارات البنية على الأداء. يستهدف الباحثين والطلاب والهواة الذين يرغبون في تجربة نماذج اللغة دون الحاجة إلى موارد حوسبة ضخمة. يبرز النموذج إمكانات بناء نموذج عملي من الصفر مع إظهار التحديات مثل الاعتماد على التذكير وعدم التعميم.
A Python library that streamlines rapid prototyping of machine learning experiments by integrating data handling, model training, and visualization tools.
تقدم مكتبة Sandbox إطار عمل موحد لمهندسي التعلم الآلي وعلماء البيانات لتجربة النماذج بسرعة. تجمع المكتبة بين مكتبات علمية شائعة مثل NumPy وPandas وSciPy لمعالجة البيانات، مع توفير واجهات سلسة إلى Hugging Face وPyTorch وscikit‑learn لتدريب النماذج. توفر أدوات التصوير المدمجة التي تعتمد على Matplotlib إمكانية رسم مؤشرات الأداء وتوزيعات البيانات بأقل قدر من الكود. تركز المكتبة على إمكانية إعادة الإنتاج من خلال نماذج Pydantic التي تتحقق من صحة الإعدادات ومخططات البيانات. صممت لتسهيل البحث والتكرار السريع، وتقلل من الكود المكرر لتتيح للمستخدمين التركيز على الابتكار الخوارزمي.
Evaluate and compare activation oracles with sparse autoencoders for anomaly detection and representation learning.
يقدّم هذا المشروع إطار عمل منهجي لتقييم فعالية أوكلاسات التفعيل مقابل المشفرات التلقائية النادرة في كشف الشذوذ وتعلم تمثيلات مضغوطة. يتم تنفيذ مجموعة من التجارب التي تقوم بتدريب كلا النوعين من النماذج على مجموعات بيانات معيارية، ثم يتم تقييمهما باستخدام مجموعة متنوعة من المقاييس مثل خطأ الإعادة، ومستوى النادرة، ودقة الكشف. يُنظم الكود في دفاتر ملاحظات وملفات نصية معيارية تسهل إعادة الإنتاج وتوسيع نطاق الاستخدام إلى مجموعات بيانات أو نماذج جديدة. يمكن للباحثين والممارسين استخدام الإطار المقارن لاختبار تصاميم أوكلاسات جديدة أو هياكل مشفرات تلقائية، والحصول على رؤى حول التوازن بين القابلية للتفسير والأداء.
An AI tool that analyzes redacted PDFs to assess and reconstruct hidden content using computer vision, constraint solving, and large language model reasoning.
يُقدّم هذا المشروع أداة تحليل مستندات PDF التي تحتوي على مناطق محذوفة، باستخدام تقنيات الرؤية الحاسوبية لتحديد المناطق المحذوفة، وحل قيود رياضية لتقدير المحتوى المحتمل، وتوظيف نماذج اللغة الكبيرة لتفسير النص المسترجع. يتيح للمستخدمين فحص مدى كفاءة عمليات الحذف والتأكد من عدم وجود معلومات حساسة غير محذوفة. كما يُمكنه توليد تقارير تفصيلية تُظهر نقاط الضعف في الحذف وتوصيات لتحسينه. تُستهدف هذه الأداة فرق الامتثال، والفرق القانونية، ومحللي الأدلة الجنائية الذين يحتاجون إلى تقييم دقيق للوثائق المحذوفة. يحل المشروع مشكلة صعوبة التحقق اليدوي من جودة الحذف في المستندات الكبيرة، ويقلل من الأخطاء البشرية. يميز نفسه بدمج نهج متعدد التخصصات يجمع بين الذكاء الاصطناعي، وحل القيود، ومعالجة اللغة الطبيعية لتقديم تحليل شامل.
This project reproduces controlled experiments to study how training data properties affect parametric and in-context knowledge usage in language models.
يُقدّم المشروع مساراً كاملاً لإنشاء مجموعات بيانات اصطناعية، تدريب نموذج GPT‑2، واختبار تمثيلاته المعرفية. يركز على ثلاث خصائص للبيانات—التكرار داخل المستند، عدم التناسق داخل المستند، وتوزيع تردد المعرفة غير المتوازن—لتقييم مدى تمكينها من استخدام المعرفة البرامترية (PK) والمعرفة داخل السياق (ICK) بصورة قوية. تُنشئ سكربتات إنشاء البيانات ملفات تعريفية مع سمات مثل مدينة الميلاد، الجامعة، والتخصص، ثم تُبنى مجموعات نصية منظمة مع تكرار ومجموعة ضوضاء مُتحكم فيها. يُدرّب سكربت التدريب نموذج GPT‑2 مكوّن من ثمانية طبقات باستخدام SFTTrainer وتقنية التجميع (packing). أخيراً، يُقيس سكربت الاختبار دقة PK وICK ومقاييس التفضيل. يمكن للباحثين في معالجة اللغة الطبيعية وتعلم الآلة استخدام الكود لتكرار تجارب الورقة أو لاستكشاف فرضيات جديدة مستندة إلى البيانات.
This project implements and evaluates interpretable and black‑box machine‑learning models for predicting hypertension, hyperglycemia, and dyslipidemia risk.
يُركّز العمل على مقارنة نماذج القابلة للتفسير مثل الانحدار اللوجستي وأشجار القرار مع أساليب الصندوق الأسود مثل الغابات العشوائية، آلات الدعم الناقل، والشبكات العصبية لتوقع ثلاث اضطرابات متعلقة بالمتابوليزم الشائعة. يتضمن ذلك سلسلة معالجة بيانات شاملة تقوم بتنظيف، تطبيع، واختيار الخصائص من مجموعات بيانات صحية حقيقية ومصطنعة. يتم تقييم أداء النماذج باستخدام التحقق المتقاطع، ROC‑AUC، الدقة‑الاستدعاء، ومصفوفات الالتباس، بينما يُقدّم التفسير عبر قيم SHAP والرسوم التوضيحية للانتباه. يهدف البحث إلى تحديد أيّ استراتيجيات نمذجة توفر أفضل توازن بين الدقة التنبؤية وقابلية التفسير في دعم اتخاذ القرار الطبي. تُوثّق النتائج في تنسيق منظم يسهل تكرارها وتوسيعها في أبحاث التحليلات التنبؤية الصحية.
An API that recommends university courses to students based on their preferences, constraints, and academic requirements.
يُقدِّم هذا المشروع واجهة برمجة تطبيقات REST تسمح للطلاب وأعضاء هيئة التدريس بإرسال ملفات تعريف الطالب، ومخططات الدورات، والقيود الزمنية، ثم يُرجِع قائمة مخصصة بالمواد التي تتوافق مع معاييرهم. يعتمد على خوارزميات تحسين عددية لتوزيع المتطلبات المسبقة، وحجم العمل، وتفضيلات الطالب، مع توليد خطط فصلية قابلة للتنفيذ. يُشغَّل الخادم باستخدام إطار FastAPI مع Uvicorn، ويُخزَّن البيانات في قاعدة SQLite لتسهيل التطوير والاختبار. يستهدف المستخدمين الطلاب الذين يخططون لجدولهم الدراسي وأعضاء هيئة التدريس الذين يحتاجون إلى رؤى مبنية على البيانات. يحل مشكلة اختيار الدورات يدويًا، ويقلل من الوقت المستغرق ويزيد من رضا الطلاب. يميز المشروع بقدرته على دمج معايير متعددة في توصية واحدة، مع توفير واجهة بسيطة للدمج مع أنظمة إدارة التعلم الحالية.
Fine‑tuned Whisper Medium for Bengali speech recognition with optimized inference using CTranslate2, offering command‑line, API, and live streaming ASR.
يقدّم هذا المشروع نموذج Whisper Medium مُحسَّن للتعرف على الكلام باللغة البنغالية، وقد تم تحويله إلى صيغة CTranslate2 لتسريع الاستدلال. يتضمن أداة سطر أوامر للتفريغ الدفعي، واجهة برمجة تطبيقات خفيفة الوزن للدمج في تطبيقات أخرى، وخادم FastAPI يدعم ASR في الوقت الحقيقي. يستفيد التنفيذ من تقنيات التكميم، والتجميع، وتصفية VAD الاختياري لتحقيق أداء فوري على وحدات معالجة الرسوميات المتوسطة. يستهدف المستخدمين المطورين والباحثين الذين يحتاجون إلى التعرف على الكلام البنغالي بكفاءة للحوارات، والاجتماعات، وأدوات الوصول. يوضح المشروع تسريعاً ملحوظاً مقارنة بسلسلة Hugging Face التقليدية مع الحفاظ على دقة عالية.
A Python library that automates data scraping, preprocessing, and experimentation with classic machine learning algorithms for educational and research purposes.
يُقدّم هذا المكتبة حلاً متكاملاً لتجميع البيانات من مصادر الإنترنت، معالجتها، وتطبيق خوارزميات التعلم الآلي الكلاسيكية عليها. يتم استخراج البيانات باستخدام أدوات تحليل النصوص، ثم يُحوَّل النص إلى جداول قابلة للتحليل باستخدام مكتبات معالجة البيانات. تُشغّل المكتبة مجموعة من التجارب على نماذج مثل الانحدار الخطي، شجرة القرار، وغيرها، مع حساب مؤشرات الأداء وتخزين النتائج. تُعرض النتائج عبر رسومات بيانية تفاعلية تُسهل فهم مقارنة الأداء بين النماذج. يستهدف المطورين والباحثين والطلاب الذين يرغبون في تجربة خوارزميات التعلم الآلي دون الحاجة إلى إعداد بيئة معقدة. يحل المشكلة المتعلقة بوقت إعداد البيانات وتجربة النماذج، ويُسرّع عملية البحث والتعليم. يميز المشروع بتركيزه على الكود القابل لإعادة الاستخدام، وتوفير واجهة برمجية بسيطة تسمح بتشغيل تجارب متعددة بنقرة واحدة.
A Python library that enables backtesting of trading strategies on historical financial data.
توفر هذه المكتبة إطار عمل لمحاكاة استراتيجيات التداول باستخدام بيانات السوق التاريخية. تتكامل مع أدوات تحليل البيانات الشائعة مثل pandas للتعامل مع البيانات، وnumpy للعمليات العددية، وscipy للتحليل الإحصائي، وmatplotlib لتصوير النتائج. يتيح للمستخدمين تعريف استراتيجيات مخصصة، وتحديد قواعد الدخول والخروج، وتشغيل المحاكاة عبر أصول أو أطر زمنية متعددة. تُخرج المكتبة مؤشرات أداء مفصلة، بما في ذلك العوائد، والتقلب، والانخفاضات القصوى، ونسبة شارب، وتوفر مخططات بصرية لتسهيل التحليل. صممت لتناسب المحللين الكميين، والمتداولين الآليين، والباحثين في مجال المالية الذين يحتاجون إلى بيئة اختبار خلفية قابلة للتكرار وقابلة للتوسيع.
The RadarPillars project is an implementation of the RadarPillars architecture for radar-only 3D object detection, built on top of OpenPCDet.
هذا المشروع يimplement architecture RadarPillars لاكتشاف الأجسام الثلاثية الأبعاد فقط عن طريق الرادار، ويعزز الميزات الفيزيائية الخاصة بالرادار مثل تحليل سرعة دوبلر وتعديل معامل التأثير. يدعم المشروع datasets اثنين: View-of-Delft (VoD) وأستيكس HiRes2019.
The llava-shot project enables zero-shot image classification for Sentinel-2 multispectral satellite imagery using the LLaVA model.
يستخدم هذا المشروع نموذج LLaVA لتصنيف الصور بدون تدريب مسبق على صورة صور الأقمار الصناعية Sentinel-2 المультيسبيكتروم. الهدف هو تصنيف الصور دون الحاجة إلى بيانات التدريب الكبيرة أو التصنيف اليدوي.
Airstreams Training Flashcards is a multi-module flashcard system for all Airstreams Renewables training courses, allowing users to study on any device and share with their cohort.
هذا المشروع يقدم نظام كروت دراسية شامل لجميع دورات تدريبية أيرستريمز رينيوابلز، يخلق كروت دراسية من الفيديوهات باستخدام الذكاء الاصطناعي، ويزود المستخدمين على أي جهاز ويسمح لهم بتبادل الكروت مع زملائهم.