Repositories | Aljefra Mapper, by Repobility

te nous ◆ Web Backend

Apache-2.0C 687/10completed

The nous project is a nano transformer LLM built from scratch, designed for natural language processing tasks.

هذا المشروع هو نموذج لغة متكامل من الصفر، يستخدم لتحليل اللغة الطبيعية والتعلم الآلي. يتم بناؤه باستخدام بيرتوش وله محرك تشغيل C99 للتنفيذ الفعال. يتم تدريبه على dataset WikiText-103 ويحتوي على عدد قليل من المعلمات حوالي 15,000.

natural-language-processingtransformer-modellanguage-modelingtext-classificationsentiment-analysismachine-translationflaskmatplotlibnumpypytorchtext

95 18,865 68 1mo ago

te jore ◆ Web Backend

Apache-2.0C 687/10completed

jore is a nano transformer LLM built from scratch, designed for natural language processing tasks.

يور هو نموذج معالجة اللغة الطبيعية من الدرجة النانوية، مصمم لتحليل اللغة الطبيعية. يعتمد على بيرش ويتش (PyTorch) ويعمل على تشغيل المعالجات المحلية (C99). يحتوي على واجهة ويب باستخدام فلاسك (Flask)، وتدعم التكامل بالحروف. يتضمن المشروع حلقة تدريب، إدارة نقاط التحقق، وتسريع الليل باستخدام الكرون.

natural-language-processingtransformer-modelchar-level-tokenizationovernight-automationcronflask-web-uiflaskmatplotlibnumpypytorchtext

94 18,712 68 1mo ago

Open data scored by Repobility · https://repobility.com

te arthur ◆ Web Backend

Apache-2.0C 706/10completed

A lightweight, character-level language model that runs entirely in the browser for real‑time text generation.

يقدم هذا المشروع نموذجًا لغويًا صغيرًا تم تدريبه من الصفر، ويعمل على توليد النصوص على مستوى الحرف. يتميز بحجمه الصغير (3.5 مليون معلمة) مما يتيح تشغيله بالكامل في المتصفح عبر ONNX Runtime وWebAssembly، دون الحاجة إلى خادم خلفي. يتيح واجهة المستخدم الرسومية التفاعلية إمكانية إدخال الأسئلة وتلقي الإجابات في الوقت الحقيقي مع إمكانية ضبط درجة الحرارة وطول النص. يستهدف المطورين ومهتمي الذكاء الاصطناعي الذين يحتاجون إلى نموذج خفيف الوزن لتجارب سريعة أو دمج في تطبيقات الويب أو الأجهزة المحمولة. يحل مشكلة الاعتماد على خدمات سحابية مكلفة أو تأخير الشبكة، ويمنح المستخدمين تحكمًا كاملاً في البيانات والنموذج. يميز المشروع بتركيزه على توليد النصوص على مستوى الحرف، ما يتيح دقة أكبر في التعامل مع لغات أو نصوص غير معروفة مسبقًا.

language-modelcharacter-level-generationclient-side-inferenceinteractive-chatsmall-modeltext-generationflaskmatplotlibnumpypytorchtext

93 22,124 69 1mo ago

te albert ◆ Web Backend

Apache-2.0C 685/10completed

A lightweight transformer-based language model designed for local inference and educational experimentation.

يقدّم هذا المشروع نموذج لغة خفيف الوزن يعتمد على بنية المحول، ويضم 3.5 مليون معلمة، تم تدريبه على مزيج من النصوص الرياضية والإنكليزية. يوفّر واجهة ويب للتشغيل المحلي بالإضافة إلى محرك سطر أوامر يتيح توليد نص بسرعة مع استهلاك منخفض للموارد. يستخدم النموذج مُحَوِّلًا على مستوى الحرف ويحتوي على ثلاث طبقات محول، ما يجعله مثالياً لدراسة تأثير اختيارات البنية على الأداء. يستهدف الباحثين والطلاب والهواة الذين يرغبون في تجربة نماذج اللغة دون الحاجة إلى موارد حوسبة ضخمة. يبرز النموذج إمكانات بناء نموذج عملي من الصفر مع إظهار التحديات مثل الاعتماد على التذكير وعدم التعميم.

language-modeltransformereducational-prototypemath-trainingknowledge-baseinference-engineflaskmatplotlibnumpypytorchtext

90 21,730 68 1mo ago

te claude feedback 2026 03 04T00 57 45 Library

AI FixesD 536/10completed

A Python library that streamlines rapid prototyping of machine learning experiments by integrating data handling, model training, and visualization tools.

تقدم مكتبة Sandbox إطار عمل موحد لمهندسي التعلم الآلي وعلماء البيانات لتجربة النماذج بسرعة. تجمع المكتبة بين مكتبات علمية شائعة مثل NumPy وPandas وSciPy لمعالجة البيانات، مع توفير واجهات سلسة إلى Hugging Face وPyTorch وscikit‑learn لتدريب النماذج. توفر أدوات التصوير المدمجة التي تعتمد على Matplotlib إمكانية رسم مؤشرات الأداء وتوزيعات البيانات بأقل قدر من الكود. تركز المكتبة على إمكانية إعادة الإنتاج من خلال نماذج Pydantic التي تتحقق من صحة الإعدادات ومخططات البيانات. صممت لتسهيل البحث والتكرار السريع، وتقلل من الكود المكرر لتتيح للمستخدمين التركيز على الابتكار الخوارزمي.

machine-learningexperiment-prototypingdata-analysismodel-trainingvisualizationreproducibilityhuggingfacematplotlibnumpyopenaipandaspydanticpytorchscikit-learntext

Repobility · code-quality intelligence · https://repobility.com

39 22,257 53 1mo ago

te claude feedback 2026 03 02T09 54 31 Ai Ml

AI FixesD 587/10completed

Evaluate and compare activation oracles with sparse autoencoders for anomaly detection and representation learning.

يقدّم هذا المشروع إطار عمل منهجي لتقييم فعالية أوكلاسات التفعيل مقابل المشفرات التلقائية النادرة في كشف الشذوذ وتعلم تمثيلات مضغوطة. يتم تنفيذ مجموعة من التجارب التي تقوم بتدريب كلا النوعين من النماذج على مجموعات بيانات معيارية، ثم يتم تقييمهما باستخدام مجموعة متنوعة من المقاييس مثل خطأ الإعادة، ومستوى النادرة، ودقة الكشف. يُنظم الكود في دفاتر ملاحظات وملفات نصية معيارية تسهل إعادة الإنتاج وتوسيع نطاق الاستخدام إلى مجموعات بيانات أو نماذج جديدة. يمكن للباحثين والممارسين استخدام الإطار المقارن لاختبار تصاميم أوكلاسات جديدة أو هياكل مشفرات تلقائية، والحصول على رؤى حول التوازن بين القابلية للتفسير والأداء.

activation-oraclessparse-autoencodersanomaly-detectionrepresentation-learningmodel-evaluationresearch-frameworkhuggingfacematplotlibnumpyopenaipandaspytorchscikit-learntext

24 18,865 58 1mo ago

te how training data shapes pk ick ◫ Data/ML

AI FixesD 538/10completed

This project reproduces controlled experiments to study how training data properties affect parametric and in-context knowledge usage in language models.

يُقدّم المشروع مساراً كاملاً لإنشاء مجموعات بيانات اصطناعية، تدريب نموذج GPT‑2، واختبار تمثيلاته المعرفية. يركز على ثلاث خصائص للبيانات—التكرار داخل المستند، عدم التناسق داخل المستند، وتوزيع تردد المعرفة غير المتوازن—لتقييم مدى تمكينها من استخدام المعرفة البرامترية (PK) والمعرفة داخل السياق (ICK) بصورة قوية. تُنشئ سكربتات إنشاء البيانات ملفات تعريفية مع سمات مثل مدينة الميلاد، الجامعة، والتخصص، ثم تُبنى مجموعات نصية منظمة مع تكرار ومجموعة ضوضاء مُتحكم فيها. يُدرّب سكربت التدريب نموذج GPT‑2 مكوّن من ثمانية طبقات باستخدام SFTTrainer وتقنية التجميع (packing). أخيراً، يُقيس سكربت الاختبار دقة PK وICK ومقاييس التفضيل. يمكن للباحثين في معالجة اللغة الطبيعية وتعلم الآلة استخدام الكود لتكرار تجارب الورقة أو لاستكشاف فرضيات جديدة مستندة إلى البيانات.

dataset-generationsynthetic-datacontrolled-experimentsknowledge-probinglanguage-modelshuggingfacematplotlibnumpypandaspytorchtext

15 7,217 53 1mo ago

te RiskPrediction 3H ◆ Testing

AI FixesD 567/10completed

About: code-quality intelligence by Repobility · https://repobility.com

This project implements and evaluates interpretable and black‑box machine‑learning models for predicting hypertension, hyperglycemia, and dyslipidemia risk.

يُركّز العمل على مقارنة نماذج القابلة للتفسير مثل الانحدار اللوجستي وأشجار القرار مع أساليب الصندوق الأسود مثل الغابات العشوائية، آلات الدعم الناقل، والشبكات العصبية لتوقع ثلاث اضطرابات متعلقة بالمتابوليزم الشائعة. يتضمن ذلك سلسلة معالجة بيانات شاملة تقوم بتنظيف، تطبيع، واختيار الخصائص من مجموعات بيانات صحية حقيقية ومصطنعة. يتم تقييم أداء النماذج باستخدام التحقق المتقاطع، ROC‑AUC، الدقة‑الاستدعاء، ومصفوفات الالتباس، بينما يُقدّم التفسير عبر قيم SHAP والرسوم التوضيحية للانتباه. يهدف البحث إلى تحديد أيّ استراتيجيات نمذجة توفر أفضل توازن بين الدقة التنبؤية وقابلية التفسير في دعم اتخاذ القرار الطبي. تُوثّق النتائج في تنسيق منظم يسهل تكرارها وتوسيعها في أبحاث التحليلات التنبؤية الصحية.

risk-predictionmedical-diagnosismodel-comparisonexplainable-aiclinical-decision-supportdata-preprocessingmatplotlibnumpypandasplotlyscikit-learnscipytensorflowtext

296 145,492 56 1mo ago

te ll experiments ◫ Data/ML

AI FixesD 596/10completed

A Python library that automates data scraping, preprocessing, and experimentation with classic machine learning algorithms for educational and research purposes.

يُقدّم هذا المكتبة حلاً متكاملاً لتجميع البيانات من مصادر الإنترنت، معالجتها، وتطبيق خوارزميات التعلم الآلي الكلاسيكية عليها. يتم استخراج البيانات باستخدام أدوات تحليل النصوص، ثم يُحوَّل النص إلى جداول قابلة للتحليل باستخدام مكتبات معالجة البيانات. تُشغّل المكتبة مجموعة من التجارب على نماذج مثل الانحدار الخطي، شجرة القرار، وغيرها، مع حساب مؤشرات الأداء وتخزين النتائج. تُعرض النتائج عبر رسومات بيانية تفاعلية تُسهل فهم مقارنة الأداء بين النماذج. يستهدف المطورين والباحثين والطلاب الذين يرغبون في تجربة خوارزميات التعلم الآلي دون الحاجة إلى إعداد بيئة معقدة. يحل المشكلة المتعلقة بوقت إعداد البيانات وتجربة النماذج، ويُسرّع عملية البحث والتعليم. يميز المشروع بتركيزه على الكود القابل لإعادة الاستخدام، وتوفير واجهة برمجية بسيطة تسمح بتشغيل تجارب متعددة بنقرة واحدة.

data-scrapingmachine-learning-experimentsvisualizationeducationaldataset-preprocessingmodel-evaluationbeautifulsoupmatplotlibnumpypandasscikit-learnscipytext

47 55,476 58 1mo ago

te 08 backtesting ◫ Data/ML

AI FixesD 526/10completed

A Python library that enables backtesting of trading strategies on historical financial data.

توفر هذه المكتبة إطار عمل لمحاكاة استراتيجيات التداول باستخدام بيانات السوق التاريخية. تتكامل مع أدوات تحليل البيانات الشائعة مثل pandas للتعامل مع البيانات، وnumpy للعمليات العددية، وscipy للتحليل الإحصائي، وmatplotlib لتصوير النتائج. يتيح للمستخدمين تعريف استراتيجيات مخصصة، وتحديد قواعد الدخول والخروج، وتشغيل المحاكاة عبر أصول أو أطر زمنية متعددة. تُخرج المكتبة مؤشرات أداء مفصلة، بما في ذلك العوائد، والتقلب، والانخفاضات القصوى، ونسبة شارب، وتوفر مخططات بصرية لتسهيل التحليل. صممت لتناسب المحللين الكميين، والمتداولين الآليين، والباحثين في مجال المالية الذين يحتاجون إلى بيئة اختبار خلفية قابلة للتكرار وقابلة للتوسيع.

backtestingfinancial-analysisalgorithmic-tradingtime-seriesportfolio-simulationrisk-managementmatplotlibnumpypandasscipytext

5 4,616 51 1mo ago

Repobility · severity-and-effort ranking · https://repobility.com

te sri lanka court decisions ◫ Data/ML

C 615/10completed

caoac is a tool for creating animated plots using Python.

caoac هي أداة لإنشاء مخططات متحركة باستخدام Python. تعتمد caoac على مكتبة matplotlib لإنشاء التمثيلات والبيانات pandas للتعامل مع البيانات. تصميم caoac للمحللين البيانيين والعلماء والمبحوثين الذين يريدون إبراز الفهم المعمق من البيانات عن طريق التفاعلات المتحركة. تسمح caoac للمستخدمين بتعديل إعدادات الرسم وتضمين التعليقات وتصدير التمثيلات المتحركة كفيديو أو GIF.

data-visualizationanimationplottinginteractive-toolsscientific-computingresearchmatplotlibpandastext

42 11,399 60 2mo ago

te llava shot Ai Ml

C 617/10completed

The llava-shot project enables zero-shot image classification for Sentinel-2 multispectral satellite imagery using the LLaVA model.

يستخدم هذا المشروع نموذج LLaVA لتصنيف الصور بدون تدريب مسبق على صورة صور الأقمار الصناعية Sentinel-2 المультيسبيكتروم. الهدف هو تصنيف الصور دون الحاجة إلى بيانات التدريب الكبيرة أو التصنيف اليدوي.

zero-shot-classificationimage-classificationsatellite-imagerymultispectral-imagingllava-modelmatplotlibnumpypandasscipytext

115 44,520 61 2mo ago