The Whisper-App project is a system tray application that utilizes OpenAI's Whisper model for voice recording, leveraging GPU acceleration.
يعد مشروع Whisper-App أداة مفتوحة المصدر تدمج نموذج OpenAI Whisper لتحويل الصوت إلى نص مع دقة عالية. يحتوي التطبيق على واجهة مستخدم نظام لوحة التحكم سهلة الاستخدام وتستفيد من تسريع البطاقة الграフィكية لتحسين الأداء. هذا المشروع يهدف إلى تقديم تجربة سلسة للمستخدمين الذين يتطلبون خدمات تحويل الصوت إلى نص دقيقة.
A tool that performs zero‑shot text classification using a BiEncoder model.
تُعدّ أداة ZeroShotClassifier برنامجاً بلغة بايثون يُصنِّف النصوص إلى فئات يحدِّدها المستخدم دون الحاجة إلى بيانات مُعلَّمة مسبقاً. تعتمد على بنية BiEncoder من مكتبة Hugging Face، ما يتيح ترميزاً مزدوجاً فعالاً للنصوص والملصقات المحتملة. تُقدِّم واجهة سطر أوامر بسيطة عبر Typer، بالإضافة إلى واجهة ويب تفاعلية مبنية على Gradio لتسهيل التجربة والاختبار السريع. تستهدف المطورين وعلماء البيانات الذين يحتاجون إلى تصنيف مستمر للوثائق أو رسائل الدعم أو المقالات دون إعداد مجموعات تدريب. تُحلّ هذه الأداة مشكلة نقص البيانات المُعلَّمة وتقلل من زمن التحضير والتكلفة. تبرز بقدرتها على التعميم عبر مجالات متعددة وتوفير واجهة سهلة الاستخدام مقارنةً بالحلول التقليدية التي تتطلب تدريباً مكثفاً.
This project automatically converts Cantonese meeting audio recordings into formal Hong Kong written Chinese meeting minutes.
يستقبل هذا النظام ملف صوتي يُسجّل اجتماعاً باللغة الكانتونية ويحول محتواه إلى محضر مكتوب رسمي باللغة الصينية التقليدية في هونغ كونغ. يبدأ بالتحويل الصوتي إلى نص باستخدام نموذج مخصص للغة الكانتونية. ثم يُحوَّل النص من الصيغة المبسطة إلى الصيغة التقليدية وفقاً للمعايير المحلية. في المرحلة الأخيرة، يُعيد نموذج ذكاء اصطناعي صياغة النص إلى محضر رسمي، مُنظمًا وفقًا لعناصر جدول الأعمال. يتيح هذا النهج إنتاج وثيقة جاهزة للمشاركة دون الحاجة إلى تحرير يدوي مكثف. يركز النظام على الدقة في الترجمة والالتزام بالأسلوب الرسمي المتبع في الاجتماعات الرسمية. كما يوفر مرونة في تخصيص العناوين والتنسيق وفقًا لاحتياجات المستخدم.
Transcribe Cantonese meeting recordings into formatted Hong Kong‑style minutes.
يستقبل البرنامج تسجيلات الاجتماعات باللغة الكانتونية ويحولها إلى نصوص دقيقة باستخدام محرك OmniLingual‑ASR. ثم يطبق معالجة اللغة الطبيعية لترتيب النص في صيغة محاضر رسمية بأسلوب هونغ كونغ، مع تسميات المتحدثين، وأوقات التسجيل، ونقاط العمل الرئيسية. تُخرج النتيجة جاهزة للتوزيع على المشاركين أو للاحتفاظ بها في الأرشيف. يهدف البرنامج إلى توفير الوقت على تدوين الملاحظات يدويًا وضمان اتساق المحاضر عبر الاجتماعات. البرنامج خفيف الوزن مكتوب بلغة بايثون ويمكن تشغيله من سطر الأوامر، ما يجعله مناسبًا للفرق الإدارية والمهنيين في الشركات.
The audioreader project converts Markdown books into high-quality audiobooks using the Kokoro TTS engine.
هذا البرنامج يتحول الكتب المكتوبة في صيغة ماركดาวن إلى مسارودية عالية الجودة باستخدام محرك كوكورو لتسجيل الصوت. يهدف هذا المشروع إلى توفير طريقة فعالة لإنشاء مسارات صوتية من المحتوى المكتوب، مما يجعلها متاحة للقراء الذين يعانون من ضعف البصر أو أولئك الذين يفضلون الاستماع على القراءة.
regscope is a production-grade CLI tool designed to download, structure, and analyze public comments on federal rulemakings from Regulations.gov.
هو أداة CLI مُتطورة لتحميل وتشكيل وتحليل التعليقات العامة على القواعد الفيدرالية من Regulations.gov
Create interactive onboarding experiences from training videos for employees and new hires.
يحول ai-onboarding-agent مقاطع الفيديو التدريبية الثابتة إلى وحدات تفاعلية ديناميكية للانضمام والتعلم. يستخدم الذكاء الاصطناعي لاستخراج المفاهيم الرئيسية، وإنشاء اختبارات، وإدراج فحوصات معرفة على طول مسار الفيديو. يمكن تشغيل الأداة من سطر الأوامر أو دمجها كـ مكتبة في منصات التعلم الأكبر. يستهدف المستخدمون فرق الموارد البشرية، ومديري التدريب، ومتخصصي الانضمام للمنتجات الذين يحتاجون إلى تسريع تعلم الموظفين الجدد. يحل المشكلة التي تواجهها استهلاك الفيديو السلبي من خلال تحويل المحتوى إلى مسارات تعلم جذابة وقابلة للقياس. يميز المشروع قدرته على تخصيص المحتوى بناءً على احتياجات كل موظف، مع توفير تقارير تحليلية عن التقدم والفعالية.
A real‑time voice translation tool that captures microphone audio, transcribes it, translates it into a chosen language, and speaks the translation back to the user.
يُلتقط هذا البرنامج الصوت الحي من الميكروفون، ثم يُحوِّل الكلام إلى نص في الوقت الفعلي، ويُترجمه إلى اللغة المستهدفة، وأخيراً يُنطق الترجمة للمستخدم. يتيح واجهة سطر أوامر بسيطة للبدء وإيقاف جلسات الترجمة، ما يجعله مناسباً للمتحدثين في الحقل. يعتمد على خدمات سحابية للخطاب إلى نص، والترجمة، والنص إلى كلام، لتوفير جودة عالية وانخفاض في زمن الاستجابة. يهدف إلى مساعدة المذيعين الرياضيين ومنتجي الأحداث الحية على تقديم تعليق متعدد اللغات فوراً، مما يوسع الوصول إلى جمهور دولي ويُسرّع سير العمل الإنتاجي. يزيل الحاجة إلى الترجمة اليدوية أو الترجمة المتأخرة، ويُحسّن تجربة المشاهدين الذين لا يتقنون اللغة الأصلية. يميز نفسه بواجهة تفاعلية سريعة وسهلة الاستخدام، مع دعم فوري للغات متعددة، ما يجعله أداة لا غنى عنها في البث الرياضي العالمي.
A command‑line tool that steers the personality of large language models during inference.
توفر الأداة واجهة سطر أوامر بسيطة تسمح بضبط سمات شخصية نماذج اللغة الكبيرة أثناء التنبؤ. من خلال تقديم مجموعة من الوصف الشخصي أو شخصية مستهدفة، يمكن للمستخدمين التأثير على النبرة والأسلوب والسلوك دون الحاجة لإعادة تدريب النموذج. تتكامل الأداة مع أطر نماذج اللغة الشائعة وتدعم معالجة الدُفعات، وتسجيل الأحداث، وتنسيق الإخراج المتميز. صممت لتلبية احتياجات المطورين والباحثين الذين يحتاجون إلى تحكم دقيق في استجابات النماذج للروبوتات الحوارية، وتوليد المحتوى، أو تجارب البحث. تحل المشكلة التي تواجهها النماذج ذات المخرجات الثابتة من خلال تمكين التكيّف الديناميكي للشخصية في الوقت الفعلي.
A command-line tool that cleans and enhances scanned book PDFs using deskewing, color correction, AI upscaling, and OCR to produce high-quality, searchable documents.
تُعدّ أداة Superbook‑PDF برنامجاً سطر أوامر مبنيًا بلغة بايثون يهدف إلى تحويل ملفات PDF للكتب الممسوحة ضوئياً إلى مستندات عالية الجودة وقابلة للقراءة. تقوم الأداة بالكشف التلقائي عن انحراف الصفحات وتصحيحه، مع تعديل توازن الألوان لتحسين وضوح النص. ثم تُطبّق تقنية الترقية بالذكاء الاصطناعي لتكبير الصور منخفضة الدقة، ما يرفع من وضوح التفاصيل. بعد ذلك، تُنفّذ عملية OCR لإضافة طبقة نص قابلة للبحث، ما يسهل فهرسة المحتوى. تستهدف هذه الأداة الطلاب والباحثين وأخصائيي الأرشفة، وتُسرّع سير عمل الرقمنة للمواد الكبيرة. بدمج معالجة الصور مع OCR في مسار واحد، تقلل الأداة من الوقت المطلوب للتعديل اليدوي وتُحسّن من إمكانية الوصول إلى المحتوى.
This project is an AI-powered voice soundboard that allows users to control it using natural language via the Microphone Control Protocol (MCP).
هذا المشروع هو صوتي-لوحة الصوت التي تعتمد على الذكاء الاصطناعي وتتيح التحكم بالصوت باستخدام اللغة الطبيعية عبر بروتوكول الميكروفون للتحكم (MCP).
A toolkit for analyzing and steering AI assistant behavior along a conceptual axis.
يُقدّم هذا الأداة مجموعة من الوظائف التي تسمح للمطورين بتحليل سلوك المساعد الذكي عبر محور مفهومي محدد. يتم حساب تمثيلات النصوص باستخدام نماذج التعلم العميق، ثم يُستخرج محورًا يُظهر التباين بين الخصائص المختلفة للمخرجات. تُعرض النتائج بصيغة رسومية باستخدام مكتبات مثل matplotlib و plotly، ما يتيح للمستخدم رؤية توزيع الردود على المحور. يمكن تعديل معلمات النموذج أو إدخال استراتيجيات جديدة لتوجيه المخرجات نحو الاتجاه المطلوب. يستهدف الأداة الباحثين في الذكاء الاصطناعي ومهندسي التفاعل الذين يحتاجون إلى فهم أعمق لكيفية تأثير التغييرات على سلوك المساعد. يميز المشروع قدرته على دمج تحليلات البيانات مع واجهة سطر أوامر سهلة الاستخدام، مما يسهل دمجه في سير العمل اليومي. كما يوفر أدوات لتقييم الأداء وتوليد تقارير مفصلة تساعد في اتخاذ قرارات مستنيرة. يُعدّ هذا الحل مفيدًا في تحسين تجربة المستخدم وضمان توافق المخرجات مع المتطلبات المحددة.
The decoder project is designed to provide a tool for decoding and processing data.
هذا المشروع هو أداة تعمل على فك تشفير وتحليل البيانات المختلفة. تم بناؤها باستخدام لغات البرمجة Python، C++ و Bash، وتستفيد من قدرات مكتبات NumPy و PyTorch. يهدف هذا المشروع إلى تسهيل مهمة فك تشفير وتحليل البيانات للبرمجيين والمختصين في مجال البحث.
A command‑line tool that streamlines data preparation, model training, and result visualization for machine‑learning projects.
تُقدِّم الأداة سير عمل موحد لتحميل مجموعات البيانات، إجراء المعالجة المسبقة، تدريب النماذج باستخدام خوارزميات شائعة، وعرض النتائج. تدعم الأداة كلًا من مكتبات التعلم الآلي الكلاسيكية وإطارات التعلم العميق، مما يتيح للمستخدمين تجربة أساليب مختلفة. تُساعد المخططات التفاعلية والقياسات المفصلة المستخدمين على تقييم أداء النماذج واتخاذ قرارات مستنيرة. صممت للأبحاث والممارسين، وتقلل من الكود المكرر المطلوب لإعداد التجارب. يدمج واجهة سطر الأوامر مع سكربتات بايثون الحالية ويمكن توسيعه عبر ملحقات.
A command-line pipeline that generates data, trains, and evaluates a distilled ChessGPT model using Stockfish.
يُقدّم هذا المشروع خطًا متكاملًا لتوليد البيانات، تدريب، وتقييم نموذج ChessGPT المُستخلص من Stockfish. يتيح توليد مجموعات بيانات ضخمة من حركات الشطرنج عبر محرك Stockfish، ثم يُستخدم هذا البيانات لتدريب نموذج ذكي يُقلل حجم النموذج مع الحفاظ على الأداء. يشتمل على أدوات لتقييم النموذج مقابل معايير الأداء القياسية، مع إمكانية ضبط معلمات التدريب لتحسين الدقة. يستهدف الباحثين ومطوري الذكاء الاصطناعي الذين يعملون على تحسين نماذج الشطرنج. يميز المشروع بتركيزه على عملية الاستخلص (distillation) التي تُسهم في إنتاج نماذج أخف وأسرع دون فقدان الجودة.
Convert a PyTorch speech recognition model to a CoreML package optimized for Apple Neural Engine and run inference with low latency.
يحول نموذج التعرف على الكلام SenseVoice‑Small المكتوب بـ PyTorch إلى حزمة CoreML مُحسّنة للمعالج العصبي Apple Neural Engine (ANE). يتضمن التحويل استخدام أنماط PyTorch مُحسّنة للـ ANE مثل تحويل الطبقات الخطية إلى Conv2d، وتغيير تنسيق الأبعاد إلى (B, C, 1, S)، واستخدام نمط الانتباه einsum لكل رأس. يتيح النموذج FP16 مع دقة تشابه كوساين تفوق 0.998 مقارنةً بنموذج ONNX الأصلي، مع دعم فترات صوتية تتراوح من ثانية واحدة إلى ثلاثين ثانية عبر EnumeratedShapes. يتضمن البنية معالجة الصوت على وحدة المعالجة المركزية (CPU) مع تحويل WAV إلى فوريه، ثم LFR، CMVN، ثم تمريرها إلى الـ ANE للطبقات الترميزية، وأخيراً فك تشفير CTC إلى نص. يستهدف المطورين الذين يبنون تطبيقات iOS أو أي تطبيقات تعمل على Apple Silicon، ويحل مشكلة الحاجة إلى نماذج ذات دقة عالية وسرعة استجابة منخفضة في بيئة الأجهزة المحمولة. يقدّم أداة سطر أوامر سهلة الاستخدام لتحويل النموذج، تشغيل الاستدلال، والتحقق من الأداء مقابل ONNX. يميز المشروع بدمجه بين كفاءة الأداء على ANE ودقة عالية، مع توفير حزمة CoreML بحجم 448 ميغابايت جاهزة للتكامل.
YAAMT is a music information system for viewing, editing, and analyzing metadata of various audio file formats.
ياءمت هو أداة قوية لتعديل وتحليل البيانات المتعلقة بالملفات الصوتية، مصممة للمذيعين والموسيقيين والفنيين. يدعم ياءمت تنسيقات صوتية شائعة مثل MP3 و FLAC و WAV، ويسمح المستخدمين بقراءة وتعديل وتحليل البيانات المتعلقة بالعنوان الفنان، الألبوم، رقم المسار، النوع، وغيرها من الملامح. كما يحتوي ياءمت على ميزات مثل معالجة الملفات بالBatch، تحليل البيانات، وممارسة الصوت.
A Python command‑line tool that extracts and analyzes Overwatch 2 gameplay data from screenshots using OCR.
تقوم هذه الأداة بالتقاط لقطات شاشة من لعبة Overwatch 2 وتطبيق تقنية التعرف الضوئي على الحروف (OCR) لتحديد النصوص داخل اللعبة مثل أسماء اللاعبين، النقاط، وإحصائيات المباراة. ثم تقوم بتحليل النص المستخرج، تطبيع البيانات، وتوليد نتائج منظمة يمكن استخدامها لتتبع الأداء أو التحليل المتقدم. التطبيق خفيف الوزن ويعتمد فقط على بايثون وبعض المكتبات العلمية، ويمكن تشغيله على أي جهاز مع بطاقة رسومات متوافقة. صُممت هذه الأداة لللاعبين، المذيعين، ومحللي الرياضات الإلكترونية الذين يحتاجون إلى رؤى سريعة ومؤتمتة دون إدخال يدوي للبيانات. كما تدعم الأداة معالجة دفعات متعددة من الصور، ما يجعلها مفيدة لمراجعة ما بعد المباراة وتخزين السجلات.
An AI-powered terminal assistant that interprets natural language commands and executes them by calling predefined tools.
يُقدّم هذا المساعد الذكي واجهة طرفية تسمح للمستخدمين بإصدار أوامر باللغة الطبيعية تُفهم وتُترجم إلى إجراءات محددة. يستند إلى نماذج لغوية متقدمة لفهم السياق وتحديد الأداة أو الأمر المناسب للتنفيذ. يمكنه التفاعل مع خدمات خارجية، تشغيل السكربتات، والتعامل مع البيانات المخزنة في قاعدة PostgreSQL. صُمم خصيصاً للمطورين والمستخدمين المتقدمين لتبسيط المهام المتكررة وتقليل الحاجة لإدخال الأوامر يدويًا. بفضل تكامله مع أطر الذكاء الاصطناعي الشائعة، يوفر منصة مرنة وقابلة للتوسيع لبناء سير عمل مخصص.
A unified simulation framework for Dense Plasma Focus experiments, enabling researchers to model plasma dynamics and related physics.
يُقدِّم المشروع بيئة محاكاة شاملة لتجارب تركيز البلازما الكثيفة، مع دمج نماذج فيزيائية متعددة ضمن قاعدة شفرة موحدة. يدعم ديناميكيات البلازما وتطور الحقول المغناطيسية وحسابات نقل الطاقة باستخدام أساليب عددية متقدمة. يمكن للمستخدمين تكوين المحاكاة عبر واجهة سطر أوامر أو واجهة ويب خفيفة، وتُعرض النتائج عبر مخططات تفاعلية. صُمم الإطار للباحثين والمهندسين الذين يحتاجون نمذجة دقيقة وقابلة للتكرار لسلوك البلازما. يلبي الحاجة إلى أداة مرنة ومفتوحة المصدر يمكن تعديلها لتتناسب مع إعدادات تجريبية متطورة. يتيح للمستخدمين استكشاف تأثيرات المعلمات المختلفة على النتائج، مما يسهم في تحسين تصميم التجارب. يدمج المشروع بين الأداء العلمي والدقة في العرض البصري، ما يجعله خياراً مفضلاً للبحوث التطبيقية في مجال الفيزياء البلازمية.
A toolkit that transcribes long audio recordings using GPU acceleration, generates structured meeting minutes, detects language and speaker emotions, and enriches transcripts with AI insights.
يُقدّم هذا الأداة حلاً متكاملاً لتحويل التسجيلات الصوتية الطويلة إلى نصوص دقيقة باستخدام تسريع GPU، مما يتيح معالجة ملفات تمتد لعدة ساعات في ثوانٍ معدودة. تتضمن الأداة ميزة اكتشاف اللغة تلقائياً وتوجيهها إلى النموذج الأمثل، مع دعم أكثر من 90 لغة عبر Whisper. كما توفر تحليل المشاعر الصوتية لتحديد حالات الغضب والفرح والحزن، ما يساعد في فهم ديناميكيات الاجتماع. بالإضافة إلى ذلك، تُضيف الأداة ملخصات، نوايا، ومصطلحات مُستخرجة باستخدام نماذج AI المتقدمة. تُدمج هذه المميزات في واجهة سطر أوامر سهلة الاستخدام، مع أمثلة عملية لمعالجة اجتماعات طويلة. تُعد الأداة خياراً مثالياً للفرق التي تحتاج إلى استخراج رؤى فورية من محاضر الاجتماعات دون انتظار طويلة.
A command‑line tool that detects, localizes, and tracks objects across video frames using a multi‑model vision‑language pipeline.
يقدّم هذا المشروع نظاماً متكاملاً لتتبع الكائنات داخل مقاطع الفيديو عبر سلسلة من النماذج المتعددة. يبدأ كل إطار بعملية فحص سريعة باستخدام نموذج FastVLM لتحديد وجود كائن، ثم يُستخرج موقع الكائن بدقة باستخدام نموذج Florence‑2 القابل للتعرف على أي فئة. بعد ذلك يُستخرج التمثيل البصري للكائنات المُكتشفة بواسطة DINOv2، ويُقارن هذا التمثيل مع مرجع مستمر لتحديد ما إذا كان الكائن مستمراً في المشهد أم أنه بداية لجزء جديد. يتم تجميع الإطارات التي تحمل نفس الكائن في “segments”، مع دمج القطاعات القصيرة التي تُعتبر ضوضاء تلقائياً مع الجيران. يضيف النظام أيضاً إجابات إضافية من نماذج VLM حول استخدام اليد، نوع القبضة، ووجود يد البالغ، ما يتيح تحليلاً أكثر تفصيلاً للسلوك البشري. يُحسّن الأداء عبر استدعاء الخلفية لتفريغ الإطارات، وكتابة JPEG في الخلفية، وإعادة رسم الإطارات فقط عند الحاجة، ما يحقق معالجة شبه في الوقت الحقيقي مع حفظ جودة الفيديو.
An AI-powered CLI tool that extracts, verifies, and structures investment insights from podcast audio for analysts.
أداة Podcast Juicer هي تطبيق سطر أوامر يحول ملفات صوتية البودكاست الخام إلى ملاحظات بحثية استثمارية قابلة للتنفيذ. تبدأ العملية بعملية تحويل الصوت إلى نص، ثم يحدد المتحدثين، ويُحسّن النص، ويستخرج قائمة بالشركات والإشارات الاستثمارية، ويتحقق من صحة هذه المعلومات، وأخيراً يُنتج ملاحظة منظمة. تدعم الأداة معالجة حقل واحد أو معالجة دفعات عبر خلايا RSS، ما يتيح للمستخدمين تحليل سلسلة كاملة من الحلقات بسرعة. الجمهور المستهدف هو محللو الاستثمار ورجال رأس المال المخاطر والباحثون الماليون الذين يحتاجون إلى رؤى سريعة وموثوقة من البودكاست. تعتمد الأداة على نماذج اللغة الكبيرة للقيام بالتحليل والتحقق، ما يجعلها مساعداً فعالاً للفرق البحثية.
Generate AI‑generated sound effects for creative projects.
يُستخدم هذا البرنامج لتوليد مؤثرات صوتية عالية الجودة باستخدام نموذج AudioCraft AudioGen. يتيح للمستخدمين تحديد معايير مثل المدة، الأسلوب، والمزاج، ثم ينتج النموذج مقاطع صوتية متوافقة في الوقت الحقيقي. يتميز بواجهة بسيطة تتطلب فقط بيئة Python مع مكتبات PyTorch وHugging Face. يُعد خياراً مثالياً لمطوري الألعاب، منشئي البودكاست، ومحرري الفيديو الذين يحتاجون إلى موارد صوتية مخصصة بسرعة ودون خبرة متخصصة في تصميم الصوت. بفضل نماذج الانتشار المتقدمة، يوفر أصواتاً متنوعة وواقعية يمكن دمجها مباشرة في المشاريع الإعلامية. يساهم في تسريع عمليات الإنتاج الصوتي ويقلل الحاجة إلى مكتبات صوتية جاهزة أو تسجيلات ميدانية. كما يدعم التخصيص عبر معلمات سهلة الاستخدام، ما يتيح للمستخدمين التحكم الكامل في النتيجة النهائية.
A CLI tool that records meetings, transcribes voice memos, and structures the output into an Oracle database and Obsidian-compatible notes.
يُسجِّل هذا البرنامج الاجتماعات وتسجيل الملاحظات الصوتية، ثم يحوِّلها إلى نصوص دقيقة باستخدام تقنيات الذكاء الاصطناعي. يُنظم المحتوى الناتج في قاعدة بيانات Oracle، مع إنشاء ملفات Markdown متوافقة مع تطبيق Obsidian لتسهيل تصفّح المعرفة. يتيح للمستخدمين البحث السريع عبر التاريخ والموضوعات بفضل هيكلية القاعدة المنظمة. يستهدف المهنيين الذين يحتاجون إلى حفظ سجلات دقيقة للاجتماعات، ويحل مشكلة فقدان التفاصيل أو صعوبة الرجوع إلى الملاحظات الصوتية. يدمج بين واجهة سطر الأوامر البسيطة والقدرات المتقدمة للمعالجة الصوتية، ما يجعله أداة فريدة تجمع بين الإنتاجية والتقنية الحديثة.
A terminal-based voice-first conversational AI that listens, transcribes, processes with Claude, and speaks back using local TTS.
يعمل هذا البرنامج كمساعد ذكاء اصطناعي يعتمد على الصوت ويشغل بالكامل من الطرفية. يبدأ بالاستماع عبر الميكروفون، ثم يكتشف بداية ونهاية الكلام باستخدام تقنية VAD. يُحوَّل الكلام إلى نص محليًا باستخدام نموذج Whisper، ثم يُرسل النص إلى نموذج Claude لتوليد الرد. يُعاد تحويل الرد إلى كلام بصوت محلي عبر نموذج Piper، ويُعرض الصوت مباشرة على مكبر الصوت. يتيح البرنامج اختيار نماذج مختلفة للردود السريعة أو المعقدة، مع إمكانية التبديل بين واجهة برمجة التطبيقات أو واجهة سطر الأوامر للـ Claude. يمكن تكوين إعدادات مثل صوت TTS، سرعة الاستجابة، ونوع النموذج عبر ملف YAML بسيط. يُعد مثالًا عمليًا لتجربة الذكاء الاصطناعي الصوتي في بيئة سطر الأوامر، مع دعم للمحادثات الثنائية عبر الأجهزة الصوتية.
A command‑line tool that converts spoken audio into text using the Qwen3‑ASR model on Apple Silicon.
تُعدّ أداة simple-asr تطبيقًا خفيفًا يعمل عبر سطر أوامر لتحويل ملفات الصوت إلى نص مكتوب. تستند إلى نموذج Qwen3‑ASR، مُحسّن خصيصًا لمعالجات Apple Silicon، لتقديم تحويل سريع ودقيق من الكلام إلى نص. يتيح للمستخدم تحديد ملفات الصوت المدخلة وتلقي النص الناتج مباشرة في الطرفية أو إعادة توجيهه إلى ملف. صُممت الأداة لتلبية احتياجات المطورين والباحثين ومنشئي المحتوى الذين يحتاجون إلى نسخ صوتية سريعة دون واجهة رسومية. تحل المشكلة المرتبطة بالنسخ اليدوي، وتوفر سير عمل قابل للتكرار والبرمجة لمعالجة الدُفعات.
A command‑line tool that detects flood extents from Sentinel‑1 satellite imagery using the Prithvi‑EO‑2.0‑300M‑TL‑Sen1Floods11 dataset.
يُعد هذا المشروع أداة تحليلية تُستعمل لتحديد مناطق الفيضانات باستخدام صور Sentinel‑1 من مجموعة بيانات Prithvi‑EO‑2.0‑300M‑TL‑Sen1Floods11. يشتمل على سلسلة من السكربتات التي تُحمل البيانات، تُحمّل النموذج المدرب، وتنفذ عملية الكشف، ثم تُنتج ملفات GeoTIFF وGeoJSON قابلة للاستخدام في نظم المعلومات الجغرافية. يتيح للمستخدمين تشغيل الأوامر عبر سطر الأوامر لتوليد توقعات فورية أو معالجة دفعات كبيرة من الصور. كما يوفر وظائف للتحقق من دقة النموذج مقابل بيانات التسمية الأصلية، مع إمكانية إنشاء تقارير إحصائية ومرئيات. يستهدف محللي البيانات الجغرافية والفرق المتخصصة في الاستجابة للكوارث، ما يسهّل دمج النتائج في عمليات التخطيط والإنقاذ. يبرز مشروعه بقدرة التخصيص عبر ملفات الإعداد وتكامل مع أدوات GIS الشائعة، ما يجعله خياراً مرناً مقارنةً بالحلول الجاهزة.
A command‑line tool that fuses multiple diffusion models to generate hybrid images.
DiffusionFusion هو أداة سطر أوامر مكتوبة بلغة بايثون تُتيح للمستخدمين دمج قدرات عدة نماذج انتشار في مسار استنتاج واحد. تُحمّل الأداة النماذج المدربة مسبقاً، ثم تُدمج تمثيلاتها الكامنة، ما ينتج صوراً تحمل خصائص كل نموذج من أصلها. تدعم الأداة أطر انتشار شائعة، وتوفر نسب دمج قابلة للتكوين، وتُخرج صوراً عالية الدقة. تم بناء الواجهة باستخدام مكتبات click وtyper لتسهيل الاستخدام، بينما يتولى PyTorch معالجة الحسابات الثقيلة. تُعد أداة مثالية للباحثين والفنانين الذين يرغبون في تجربة مجموعات النماذج دون كتابة كود مخصص.
A benchmarking framework for evaluating multiple object tracking algorithms, providing fast, reproducible metrics across datasets.
يُعد mot‑benchmark‑rs أداة تقييم سطر أوامر مخصصة للباحثين والمطورين في مجال تتبع الكائنات المتعددة. يضمّ مجموعة شاملة من المقاييس القياسية مثل MOTA وMOTP وIDF1 وIDR، ويُدعم مجموعة واسعة من مجموعات البيانات الشائعة. يعتمد المحرك الأساسي على لغة Rust لضمان سرعة عالية، بينما يوفر واجهة Python لتسهيل دمج الأداة في خطوط العمل الحالية. يتيح للمستخدمين تشغيل المقارنات على نماذج مُسرّعة بالـ GPU، مقارنة النتائج جنباً إلى جنب، وتوليد تقارير مفصلة بصيغة CSV أو JSON. تتميز الأداة بخفة الوزن، ولا تتطلب قاعدة بيانات خارجية، مع تركيز قوي على التكرار والسرعة.
An AI-driven music performance tool that separates audio sources and generates dynamic performances.
يتيح البرنامج فصل مصادر الصوت من مسار موسيقي واحد باستخدام نموذج HTDemucs المتقدم. بعد الفصل، يتم معالجة كل مصدر باستخدام نماذج ذكاء اصطناعي مستضافة على منصة Hugging Face لتوليد أداء موسيقي ديناميكي. يدعم البرنامج واجهة سطر أوامر مبنية على مكتبتين Click و Typer، مما يتيح للمستخدمين تشغيل العمليات بسهولة عبر الطرفية. يوفر البرنامج رسومات بيانية باستخدام Matplotlib لعرض توزيع الطاقة وتفاصيل الفصل، مع إمكانية تصدير النتائج إلى ملفات CSV أو PNG. يهدف إلى مساعدة الموسيقيين والمهندسين الصوتيين على إنشاء عروض موسيقية جديدة أو تحسين إنتاجاتهم الحالية. يختلف عن الحلول التقليدية بدمجه بين فصل المصادر الذكي وتوليد الأداء الآلي في واجهة واحدة قابلة للتخصيص.
A command‑line tool that unifies quantization of large language models into GGUF, AWQ, and GPTQ formats.
تُسهّل هذه الأداة سطر أوامر عملية تقليل حجم نماذج اللغة الكبيرة، وتتيح للمستخدمين تحويل النماذج إلى صيغ GGUF أو AWQ أو GPTQ باستخدام أمر واحد فقط. تدعم الأداة مجموعة واسعة من معماريات نماذج اللغة الشائعة، وتوفر مخرجات تقدم مفصلة عبر واجهة طرفية غنية. تقوم الأداة تلقائياً بتحميل النموذج، وتكوين عملية التقليل، وتحويل الملفات، مما يجعلها سهلة الدمج في سير العمل الحالي. تستهدف المهندسين والباحثين في مجال تعلم الآلة، وتساعد على تقليل حجم النموذج، وخفض استهلاك الذاكرة، وتسريع الاستدلال على الأجهزة الطرفية. بدمج خطوط أنابيب التقليل المتعددة في واجهة موحدة، تُزيل الحاجة إلى التعامل مع سكربتات أو أدوات منفصلة، وتوفر تجربة أكثر بساطة وفعالية.
A command‑line platform that prunes large language models to reduce size and improve inference speed.
يُقدِّم هذا البرنامج واجهة موحدة لتقليم نماذج اللغة الكبيرة، مع دعم تسعة خوارزميات مختلفة للبرمجة وأنواع هيكلية متعددة. يتيح للمستخدمين اختيار استراتيجية التقليم في وقت التشغيل، وتحديد مستويات النحافة، وتحويل النموذج المقلم إلى صيغة ثنائية خفيفة الوزن لتسهيل النشر. يتكامل البرنامج مع محرك استدلال شائع، ما يتيح استخدام النماذج المضغوطة بسلاسة في بيئات الإنتاج. صُمم للباحثين والمهندسين، ويشمل تقنيات تقليم أساسية ومتقدمة، بدءاً من تقليم الحجم إلى أساليب تعتمد على نظرية الألعاب. يسهِّل سير عمل التقليم، مما يتيح للفرق تجربة التوازن بين الدقة وحجم النموذج ووقت الاستجابة.
An AI-powered command-line tool that assists film directors in generating scripts, storyboards, shot lists, and production plans.
تُعدّ أداة Directors Chair أداة سطر أوامر تعتمد على نماذج الذكاء الاصطناعي لتسهيل سير العمل قبل الإنتاج للمخرجين. يمكنها تحويل ملخص بسيط إلى نص كامل، وإنشاء مخططات تصويرية من أوصاف المشاهد، وإنتاج قوائم لقطات مفصلة مع تفاصيل الزوايا والإضاءة. كما توفر ميزات تخطيط الإنتاج مثل جدولة المواعيد، وتقديم اقتراحات للميزانية، وتوزيع الموارد. تستهدف المخرجين، والكتاب السينمائيين، ومصممي الإنتاج، وتقلل من الوقت المستغرق في إعداد المخططات اليدوية، مما يفتح المجال للتجريب الإبداعي. بفضل تكاملها مع أطر الذكاء الاصطناعي الشهيرة، تُنتج نتائج عالية الجودة مع الحفاظ على خفة الوزن وسهولة التثبيت.
A command‑line pipeline that transcribes two‑channel telephone audio, summarizes the conversation, evaluates operator quality, and extracts structured data using ASR and LLM models.
يقوم هذا المشروع بمعالجة تسجيلات الهاتف ثنائية القناة باللغة الروسية عبر تقسيم الصوت إلى قناتين منفصلتين، واحدة للمشغل والأخرى للعميل. ثم يُجرى تحويل كل قناة إلى نص باستخدام نموذج التعرف على الكلام عالي الدقة، ويُجمع النصوص في حوار زمني متسلسل. يُمرر الحوار إلى نموذج ذكاء اصطناعي لإجراء تلخيص، تقييم جودة المشغل، واستخراج بيانات منظمة، مع إنتاج ملف JSON يحتوي على النص الكامل، والملخص، والنتيجة التقييمية، والبيانات المستخرجة. يهدف المشروع إلى تسهيل عمل محللي جودة المكالمات في مراكز الاتصال، مما يقلل الحاجة إلى الاستماع اليدوي وتدوين الملاحظات. يشتغل على جهاز محلي مزود ببطاقة رسومات، ويُشغَّل عبر سطر أوامر بسيط، ما يجعله مناسباً للفرق التي تحتاج إلى أتمتة تحليل المكالمات بسرعة وفعالية. يميز المشروع بدمج تقنيات التعرف على الكلام والذكاء الاصطناعي في مسار واحد متكامل، مع دعم للبيانات المهيكلة التي تُسهم في تحسين عمليات اتخاذ القرار.
Meeting Transcriber converts audio files into text with automatic speaker identification, allowing for searchable and speaker-labeled transcripts to be created locally without the need for cloud storage.
هذا المشروع هو محرر اجتماعات يمكنه تحويل الملفات الصوتية إلى نص مع تحديد المتحدثين تلقائيًا. يسمح للمستخدمين بإنشاء مستندات قابلة للبحث ومتعلقة بالمتحدثين من اجتمالاتهم، ومقابلاتهم، والدروس والمحاضرات، وتسجيلات الويب، وتسجيلات الواتساب، والبودكاست. يعمل هذا الأداة دون الحاجة إلى تخزين السحابي ويعمل على مجموعة من صيغ الصوت، بما في ذلك MP3، WAV، M4A، Opus، FLAC، OGG، WebM، AAC.
Fine‑tune a lightweight text‑to‑speech model on Apple Silicon to create custom voice outputs.
يُقدِّم هذا المشروع سير عمل مبسَّط لتكييف نموذج Qwen3‑TTS 0.6B المُدرَّب مسبقاً مع أصوات أو لهجات جديدة على معالجات Apple Silicon. يستخدم إطار عمل PyTorch مع بيئة Hugging Face لإجراء عملية تحسين دقيقة، ما يتيح للمستخدمين تدريب النموذج على مجموعات بيانات صغيرة دون الحاجة إلى مجموعة GPU كبيرة. تشمل الميزات الرئيسية معالجة البيانات تلقائياً، وتدريب بدقة مختلطة، وواجهة سطر أوامر مبسَّطة تُخفِّف عن المستخدم إعدادات المعلمات المعقدة. يستهدف المشروع الباحثين والمطورين والهواة الذين يرغبون في تجربة توليد الأصوات على أجهزة macOS. يحل المشكلة المتعلقة بتشغيل نماذج تحويل النص إلى كلام عالية الجودة على أجهزة الحافة من خلال تقليل استهلاك الموارد. يميز المشروع نفسه بدمجه بين سرعة معالجات Apple Silicon ومرونة إطار عمل التعلم العميق الحديث.
A command-line tool that transcribes piano audio recordings into sheet music for musicians and educators.
يُحوّل هذا البرنامج تسجيلات صوتية للبيانو إلى نوتة موسيقية مكتوبة، مما يتيح للموسيقيين والباحثين الحصول على تمثيل بصري للقطع الموسيقية دون الحاجة إلى التدوين اليدوي. يعتمد على معالجة الإشارة الصوتية وتقنيات التعلم العميق لاستخراج النغمات وتحديد توقيتها بدقة عالية. يُخرج النتيجة في صيغة قابلة للتصدير إلى ملفات MIDI أو صور PDF للملفات الموسيقية. يتيح للمستخدمين ضبط معلمات مثل حساسية الكشف وسرعة التردد لتحسين الدقة في البيئات المختلفة. يُحلّ مشكلة التدوين اليدوي المكلفة والوقت الضائع في تحويل التسجيلات إلى نوتة موسيقية، ويُسهل على المعلمين عرض المقاطع للطلاب. يبرز بفضل دمج خوارزميات تحليل الصوت مع نماذج التعلم العميق، ما يحقق دقة تفوق الحلول التقليدية.
Generate images from text prompts using the Flux diffusion model via a command‑line interface.
يُعد Flux‑Gen أداة سطر أوامر خفيفة الوزن تُستَخدم لتحويل الأوصاف النصية إلى صور عالية الجودة باستخدام نموذج Flux التشتت. تعتمد الأداة على مكتبة Hugging Face وPyTorch لتوفير أداء فعّال في عمليات الاستدلال، ما يتيح للمستخدمين إنتاج الصور بسرعة دون الحاجة إلى خادم مخصص. يمكن للمستخدم إدخال الوصف النصي مع معلمات اختيارية مثل حجم الصورة ومقياس التوجيه، وتُخرج الأداة ملف PNG جاهز للاستخدام. تستهدف الأداة الفنانين والمصممين والمطورين الذين يرغبون في تسريع عملية إنشاء الأعمال الفنية أو الرسوم التوضيحية أو الأصول الإبداعية. بفضل واجهتها البسيطة وإعداداتها الافتراضية القوية، تُقلل Flux‑Gen من عوائق الدخول لتجربة نماذج التشتت المتقدمة.
A security scanner that analyzes AI agent skill files for hidden malicious behavior and visualizes potential risks.
يُعد SkillGraph أداة فحص أمان للمهارات الخاصة بالذكاء الاصطناعي، حيث يتيح للمستخدم تحليل ملفات المهارات المكتوبة بالـ Markdown قبل استخدامها. تقوم الأداة بتحليل بنية الملف واستخراج العناصر الأساسية مثل الأوامر والوظائف. ثم تُطبق مجموعة من القواعد النمطية لاكتشاف مخاطر محتملة مثل استخراج البيانات أو تنفيذ أوامر تدمير النظام. تُبنى شبكة رسومية توضح العلاقات بين المكونات المختلفة للمهارة، ما يسهل على المستخدم رؤية نقاط الضعف المحتملة. تُعرض النتائج عبر واجهة سطر أوامر لتوليد تقارير سريعة، كما يمكن تشغيل تطبيق ويب لتصور الرسوم البيانية بشكل تفاعلي. تُستهدف هذه الأداة مطوري الذكاء الاصطناعي ومحللي الأمان الذين يحتاجون إلى ضمان سلامة المهارات قبل نشرها.
Generate concise weekly reports summarizing key insights from a collection of letters or posts using advanced language models.
يستقبل هذا البرنامج مجموعة من الرسائل أو المنشورات النصية، مثل البريد الإلكتروني أو الرسائل المكتوبة، ثم ينتج تقريرًا أسبوعيًا منظمًا. يستخدم نماذج لغوية متقدمة لاستخراج ملخصات، وتقييمات للمشاعر، والمواضيع المتكررة، ويضع النتائج في تنسيق يسهل قراءته. يتضمن سير العمل تحويل النص إلى تمثيلات رقمية، وتجميع المحتوى المشابه، ثم توليد إبرازات باللغة الطبيعية. يستهدف هذا الحل مديري المنتجات وقادة الفرق، مما يتيح لهم فهم الاتجاهات في التواصل بسرعة ودون الحاجة لقراءة كل رسالة يدويًا. يساهم الأتمتة في توفير الوقت وتقليل خطر إغفال رؤى حيوية. يتيح تشغيله من سطر الأوامر دمجه بسهولة مع خطوط الأنابيب الحالية في المؤسسات.
A tool that compares the performance of C and Python speech decoders for Qwen3‑TTS.
توفر هذه الأداة واجهة سطر أوامر تقوم بتشغيل كل من تنفيذات مُفكِّد الصوت بلغة C وباللغة Python لنظام Qwen3‑TTS على نفس مجموعة البيانات الصوتية، ثم تسجل المقاييس الرئيسية للأداء. تقيس الأداة زمن الاستجابة، معدل المعالجة، استهلاك وحدة المعالجة المركزية، واستهلاك الذاكرة، ثم تعرض مقارنة جنباً إلى جنب في جدول واضح. صُممت الأداة للمطورين والباحثين الذين يحتاجون إلى تقييم التنازلات بين تنفيذات المُفكِّد المجمّعة والمفسرة. من خلال أتمتة عملية القياس، توفر الوقت وتقلل الجهد اليدوي عند ضبط أو اختيار مُفكِّد للبيئة الإنتاجية. تتطلب الأداة فقط بيئة تشغيل C القياسية ومفسّر Python، وتخرج النتائج بنص عادي لتسهيل دمجها في خطوط CI.
Synchronizes OpenBCI EEG recordings with GoPro video streams for precise multimodal analysis.
يُزود الباحثون بأداة سريعة تُزامن بيانات EEG المُسجلة عبر OpenBCI مع مقاطع الفيديو الملتقطة بواسطة GoPro، مع الحفاظ على دقة التوقيت حتى في سيناريوهات التسجيل الطويلة. تعتمد الأداة على تحليل الإشارات الزمنية واستخدام خوارزميات مطابقة متقدمة تُسهم في تقليل الأخطاء البشرية في تحديد نقاط التزامن. تُتيح واجهة سطر الأوامر إمكانية تحميل ملفات CSV أو ملفات بيانات OpenBCI مباشرةً، مع إمكانية تحديد فواصل زمنية أو أحداث محددة لتسهيل عملية التزامن. تُنتج النتائج ملفات CSV موحدة تُشمل أطر زمنية موحدة لكل القنوات، ما يسهل دمجها مع أدوات تحليل أخرى. تستهدف الأداة الباحثين في علم الأعصاب، والمهتمين بالتحليل المتعدد الوسائط، وأي مطور يحتاج إلى دمج إشارات حيوية مع فيديوهات تجريبية. تحل المشكلة الشائعة في عدم توافق توقيتات EEG والفيديو، مما يقلل الحاجة إلى معالجة يدوية معقدة. تتميز بقدرتها على التعامل مع مجموعات بيانات كبيرة بسرعة، مع دعم للرسوم البيانية التوضيحية عبر مكتبة matplotlib لتقييم جودة التزامن.
A demonstration of reproducible machine learning experiments using Experimaestro, PyTorch, and pandas.
يُظهر هذا العرض كيفية بناء وتشغيل تجارب تعلم الآلة المتكررة باستخدام إطار Experimaestro، الذي يُسهل تنظيم التجارب. يدمج البرنامج PyTorch لتدريب النماذج وpandas لمعالجة البيانات، موضحاً كيفية تعريف خطوط معالجة البيانات، حلقات التدريب، ومعايير التقييم في سير عمل موحد ومُحكم بالإصدار. يُشغَّل البرنامج من سطر الأوامر، ويُسجِّل تلقائياً معلمات التجربة، إصدارات الكود، والنتائج في مستودع مركزي. يستهدف الباحثين في علم البيانات ومهندسي التعلم الآلي الذين يحتاجون إلى ضمان إمكانية إعادة تشغيل التجارب بالضبط كما تم تنفيذها في الأصل، ما يعزز التعاون وقابلية التدقيق. يقدِّم مثالاً عملياً على كيفية دمج خطوات المعالجة المسبقة للبيانات في سير العمل، مع إمكانية تتبع الأداء وتوليد تقارير قابلة للتكرار. يوضح العرض أهمية إدارة التجارب في مشاريع التعلم الآلي الكبيرة، ويُظهر كيف يمكن للفرق العمل بكفاءة أكبر مع تقليل الأخطاء البشرية.
Automates the entire podcast production workflow, from transcription to clip creation, for podcasters and content creators.
يُسَهل هذا النظام إنتاج البودكاست من خلال النسخ التلقائي للملفات الصوتية، وتحليل المحتوى لتحديد المواد التي تحتاج إلى حجب والنقاط البارزة، وإنشاء مقاطع قصيرة للوسائط الاجتماعية. يستخدم نموذج تحويل الكلام إلى نص محلي لتسريع عملية النسخ، ويعتمد على محرك ذكاء اصطناعي لتحديد المواد الحساسة وتحديد اللحظات الأكثر جاذبية مع توقيت دقيق للحجب. كما يُنشئ الوصف التلقائي للمنصات مثل يوتيوب وإنستغرام وتويتر، ويُحمّل الحلقات المكتملة والمقاطع إلى دروب بوكس. يضم النظام أيضًا محركًا للمواضيع يقوم بجمع أكثر من مائة موضوع شهريًا من ريديت، ويقيم كل موضوع على مقياس 0-10 لتوقع الانخراط، ثم يُنظم المواضيع وفقًا للأنماط الناجحة ويقترح مزيجًا متوازنًا للمواضيع في كل حلقة. يهدف هذا الحل إلى المبدعين في مجال الصوتيات والمنتجين الإعلاميين الذين يحتاجون إلى سير عمل سريع وشامل دون الحاجة للتعديل اليدوي.
Generate pixel art background images from textual descriptions using a VQGAN‑Transformer pipeline optimized for Apple Silicon.
يُنشئ هذا البرنامج خلفيات فنية بأسلوب البكسل من أوصاف نصية، معتمدًا على بنية VQGAN‑Transformer مُحسَّنة لأجهزة Apple Silicon. يبدأ بضغط صور البكسل ذات الأبعاد 320×192 إلى 240 رمزًا باستخدام VQGAN، ثم يُولد التنسور المتحرك تسلسلات رمزية جديدة معتمدة على النص المدخل. تُفكَّر الرموز المُولَّدة مرة أخرى إلى صور، ما ينتج خلفيات ذات طابع قديم ووضوح عالي. يتيح البرنامج للمستخدمين تدريب النموذج على مجموعات بيانات مخصصة أو توليد صور مباشرة عبر أمر واحد. يركز على كفاءة الأداء على معالجات Apple Silicon، ما يجعله مناسبًا للهواة والمطورين المستقلين. يوفِّر حلاً سريعًا للبحث عن عناصر بكسل فنية عالية الجودة دون الحاجة إلى رسم يدوي، ويُعزِّز إنتاجية تصميم الألعاب والرسوم المتحركة.
Generate executable code from markdown specifications using AI models.
يُعد هذا البرنامج أداة سطر أوامر تُقرأ مستندات Markdown التي تصف مكونات البرمجيات أو هياكل البيانات أو عقود واجهة برمجة التطبيقات، وتنتج كودًا قابلًا للتنفيذ في لغة بايثون. يقوم البرنامج بتحليل المواصفة، ويُحقق من صحتها باستخدام مكتبة Pydantic، ثم يُمرر المحتوى إلى نموذج تحويل من منصة Hugging Face لتوليد مقاطع الكود. تُعرض النتائج باستخدام مكتبة Rich لتنسيق واضح في الطرفية، بينما يوفر Typer واجهة سهلة الاستخدام للمستخدم. يستهدف المطورين والكتاب التقنيين، ويساهم في تسريع عملية النمذجة وتقليل الكود اليدوي. يحل هذا الحل مشكلة تحويل وثائق التصميم إلى كود، ويضمن التناسق ويوفر الوقت.
A command‑line tool that transcribes audio files locally and produces concise summaries, designed for users who need quick, privacy‑preserving media processing.
تُعد VATS أداة سطر أوامر خفيفة الوزن تُقبل ملفات الصوت بصيغ شائعة وتُخرج نصًا كاملاً متبوعًا بملخص مختصر. تعتمد على نماذج تحويل الكلام إلى نص من أحدث تقنيات Hugging Face، مع إمكانية استخدام محركات OpenAI لتلخيص النص، وتعمل جميعها محليًا للحفاظ على خصوصية البيانات. تم بناؤها باستخدام Click لتوفير واجهة أوامر نظيفة، وRich لتقديم مخرجات ملونة في الطرفية، وPyTorch لتحقيق استدلال فعال. تستهدف المستخدمين مثل صانعي المحتوى، والصحفيين، والباحثين، والمطورين الذين يحتاجون إلى تحويل وسائط بسرعة ودون اتصال بالإنترنت. يتيح عدم الحاجة إلى رفع الملفات إلى السحابة تقليل التأخير، وتوفير عرض النطاق الترددي، وحل مشكلات الأمان، مع تقديم نتائج عالية الجودة. تُعزز VATS تجربة المستخدم من خلال توفير أوامر بسيطة، وتنسيق مخرجات واضح، ودعم للغات متعددة. كما تُسهم في تسريع عمليات الإنتاج وتسهيل تحليل المحتوى الصوتي في بيئات تتطلب سرية عالية.
Automates the scoring of segmentation mesh quality for the Vesuvius Challenge.
يُقدِّم هذا البرنامج أداة سطر أوامر تُقيِّم جودة شبكات التقسيم المستخدمة في مسابقة فيسفويوس. تُحسب مجموعة من المقاييس الكمية—مثل نعومة السطح، نسبة الأبعاد للعنصر، وتناسق الحجم—باستخدام مكتبات NumPy وSciPy وPyTorch لضمان معالجة عددية فعّالة. تُعرض النتائج في جدول واضح مع تلوين بصري عبر مكتبة Rich، وتُرسم الرسوم البيانية باستخدام Matplotlib لتسهيل الفحص البصري. يُقبل البرنامج صيغ ملفات الشبكات القياسية، ويقوم بتحليلها تلقائياً، ثم يُنتج تقريراً شاملاً يمكن دمجه في خطوط سير عمل مقارنة النماذج. يهدف إلى مساعدة الباحثين ومطوري النماذج على إجراء تقييمات جودة الشبكات بسرعة وموثوقية دون تدخل يدوي.
An AI‑powered voice journaling tool that captures spoken reflections, aligns them with personal goals, and visualizes progress.
يحول هذا التطبيق الأفكار المنطوقة إلى مدخلات مدونة منظمة باستخدام نماذج تحويل الكلام إلى نص المتقدمة. ثم يُطبّق معالجة اللغة الطبيعية لتحديد الموضوعات وربطها بالأهداف التي يحددها المستخدم. تُنشئ نماذج اللغة الكبيرة ملخصات ورؤى عملية، بينما تُظهر التحليلات البصرية التقدم على مر الزمن. صُمم للأشخاص الذين يفضلون الإدخال الصوتي، ويُسهل عملية الانعكاس اليومي وتتبع الأهداف. ينتج عنه مدونة مترابطة وقابلة للبحث تنمو مع رحلة التطور الشخصي للمستخدم. يدمج التطبيق أدوات تحليلية لتتبع التقدم، ويُتيح تصدير البيانات للعرض في برامج أخرى. يقدّم واجهة سهلة الاستخدام تُشجّع على الاستمرارية في الممارسة اليومية.