في سلسلة القيمة الكاملة للذكاء الاصطناعي، يعتبر تدريب النماذج هو المرحلة الأكثر استهلاكًا للموارد والأعلى من حيث العوائق التقنية، حيث يحدد مباشرة الحد الأقصى لقدرات النموذج وفعالية تطبيقاته العملية. بالمقارنة مع الاستدعاءات الخفيفة في مرحلة الاستدلال، يتطلب عملية التدريب استثمارًا مستمرًا في قوة الحوسبة الكبيرة، وعمليات معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "صناعة ثقيلة" حقيقية لبناء أنظمة الذكاء الاصطناعي. من منظور نماذج البنية، يمكن تصنيف طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، بالإضافة إلى التدريب اللامركزي الذي سيتم مناقشته في هذه المقالة.
تعتبر التدريب المركزي الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب من قبل مؤسسة واحدة داخل مجموعة محلية عالية الأداء، من الأجهزة، والبرمجيات الأساسية، ونظام جدولة المجموعة، إلى جميع مكونات إطار التدريب التي يتم تنسيقها وتشغيلها بواسطة نظام تحكم موحد. تتيح هذه البنية التحتية المتكاملة أفضل كفاءة في مشاركة الذاكرة، وتزامن التدرجات، وآليات التحمل، مما يجعلها مناسبة جدًا لتدريب نماذج كبيرة مثل GPT وGemini، حيث تتمتع بمزايا الكفاءة العالية، والتحكم في الموارد، ولكنها في نفس الوقت تواجه مشاكل مثل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.
التدريب الموزع هو الأسلوب السائد حاليًا في تدريب النماذج الكبيرة، حيث يتمثل جوهره في تقسيم مهام تدريب النموذج وتوزيعها على عدة آلات لتنفيذها بشكل تعاوني، لتجاوز قيود الحساب والتخزين في الآلة الواحدة. على الرغم من أن لديها خصائص "موزعة" من الناحية الفيزيائية، إلا أن الكل لا يزال تحت سيطرة مؤسسة مركزية للتحكم في الجدولة والتزامن، وغالبًا ما تعمل في بيئة شبكة محلية سريعة، من خلال تقنية NVLink للربط السريع، يتم تنسيق المهام الفرعية بواسطة العقدة الرئيسية.
التوازي البياني: يقوم كل عقدة بتدريب بيانات مختلفة مع مشاركة المعلمات، ويجب مطابقة أوزان النموذج.
نموذج متوازي: نشر أجزاء مختلفة من النموذج على عقد مختلفة لتحقيق قابلية توسيع قوية
التوازي في الأنابيب: تنفيذ متسلسل على مراحل، مما يزيد من معدل النقل
التوازي في المصفوفات: تقسيم دقيق لحساب المصفوفات، وزيادة درجة التوازي
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، وهو مشابه لقيادة نفس المدير عن بُعد لعدة "مكاتب" من الموظفين للتعاون في إكمال المهام. حاليًا، يتم تدريب جميع النماذج الكبيرة الرائجة تقريبًا بهذه الطريقة.
اللامركزية التدريب تمثل مسارًا مستقبليًا أكثر انفتاحًا ومقاومةً للرقابة. تتمثل ميزتها الأساسية في: عدة عقد غير موثوقة تتعاون لإكمال مهام التدريب دون منسق مركزي، عادةً من خلال بروتوكول يوجه توزيع المهام والتعاون، ويعتمد على آلية تحفيز مشفرة لضمان نزاهة المساهمات. تشمل التحديات الرئيسية التي تواجه هذا النموذج:
صعوبة التنسيق بين الأجهزة المختلفة وتقسيم المهام: صعوبة تنسيق الأجهزة اللامركزية وانخفاض كفاءة تقسيم المهام.
عنق الزجاجة في كفاءة الاتصال: الاتصال بالشبكة غير مستقر، وعُنق الزجاجة في تزامن التدرج واضح
نقص التنفيذ الموثوق: نقص بيئة التنفيذ الموثوقة، مما يجعل من الصعب التحقق مما إذا كانت العقدة تشارك فعلاً في الحساب
نقص التنسيق الموحد: لا يوجد جهاز توجيه مركزي، توزيع المهام، وآلية التراجع عن الأخطاء معقدة
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين حول العالم، يساهمون كل منهم بقوة الحوسبة لتدريب النموذج بشكل متعاون، لكن "التدريب اللامركزي على نطاق واسع القابل للتطبيق حقًا" لا يزال تحديًا هندسيًا نظاميًا، يتضمن بنية النظام، بروتوكولات الاتصال، أمان التشفير، آليات الاقتصاد، والتحقق من النموذج على عدة مستويات، ولكن ما إذا كان يمكن "التعاون بفعالية + تحفيز النزاهة + الحصول على نتائج صحيحة" لا يزال في مرحلة استكشاف النماذج الأولية المبكرة.
يعتبر التعلم الفيدرالي شكلاً انتقالياً بين التوزيع واللامركزية، حيث يركز على الاحتفاظ بالبيانات محلياً وتجميع معلمات النموذج مركزياً، وهو مناسب للسيناريوهات التي تركز على الامتثال للخصوصية. يتمتع التعلم الفيدرالي ببنية هندسية للتدريب الموزع وقدرة على التعاون المحلي، بينما يتمتع أيضاً بميزة توزيع البيانات في التدريب اللامركزي، ولكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يتمتع بخصائص مفتوحة تماماً ومقاومة للرقابة. يمكن اعتباره نوعاً من "اللامركزية الخاضعة للرقابة" في سياقات الامتثال للخصوصية، حيث تكون المهام التدريبية، وبنية الثقة، وآلية الاتصال معتدلة نسبياً، مما يجعله أكثر ملاءمة كنموذج نشر انتقالي في الصناعة.
اللامركزية تدريب الحدود، الفرص والطرق الواقعية
من منظور نمط التدريب، فإن التدريب اللامركزي لا يناسب جميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، أو متطلبات الموارد العالية جداً، أو صعوبة التعاون، فإنه لا يناسب بطبيعته الإكمال الفعال بين العقد المتغايرة واللامركزية. على سبيل المثال، يعتمد تدريب النماذج الكبيرة عادةً على ذاكرة وصول عشوائي عالية، ووقت استجابة منخفض، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمها ومزامنتها بشكل فعال في شبكة مفتوحة؛ المهام التي تفرض قيوداً قوية على الخصوصية والسيادة المتعلقة بالبيانات تخضع للامتثال القانوني والقيود الأخلاقية، مما يمنع المشاركة المفتوحة؛ بينما المهام التي تفتقر إلى أساس الحوافز التعاونية تفتقر إلى دافع المشاركة الخارجية. تشكل هذه الحدود معاً القيود الواقعية الحالية على التدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو فرضية زائفة. في الواقع، تُظهر أنواع المهام الخفيفة الهيكل، وسهلة التوازي، والقابلة للتحفيز آفاق تطبيقية واضحة للتدريب اللامركزي. بما في ذلك، على سبيل المثال لا الحصر: ضبط LoRA، مهام ما بعد التدريب المتعلقة بمحاذاة السلوك ( مثل RLHF، DPO)، تدريب وتسمية البيانات من خلال الحشد، تدريب نماذج أساسية صغيرة ذات موارد قابلة للتحكم، فضلاً عن سيناريوهات التدريب التعاوني التي تشارك فيها الأجهزة الطرفية. تتميز هذه المهام عمومًا بارتفاع قابلية التوازي، وانخفاض الترابط، والقدرة على تحمل القدرة الحوسبية غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني عبر شبكة P2P، وبروتوكول Swarm، وأدوات التحسين الموزعة.
تحليل المشاريع الكلاسيكية للتدريب اللامركزي
حالياً في مجال التدريب اللامركزي والتعلم الفيدرالي، تشمل المشاريع البارزة في مجال البلوك تشين Prime Intellect و Pluralis.ai و Gensyn و Nous Research و Flock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect و Nous Research و Pluralis.ai العديد من الاستكشافات الأصلية في تصميم الأنظمة والخوارزميات، وتمثل اتجاهات البحث النظرية الحالية؛ بينما مسارات التنفيذ لـ Gensyn و Flock.io واضحة نسبياً، ويمكن رؤية تقدم أولي في الهندسة.
Prime Intellect: رائد الشبكات التعاونية في التعلم المعزز القابل للتحقق من مسارات التدريب
تكرس Prime Intellect جهودها لبناء شبكة تدريب AI لا تتطلب الثقة، مما يسمح لأي شخص بالمشاركة في التدريب، والحصول على مكافآت موثوقة مقابل مساهماتهم الحاسوبية. تأمل Prime Intellect من خلال ثلاثة وحدات PRIME-RL + TOPLOC + SHARDCAST، في إنشاء نظام تدريب AI لامركزي يتمتع بالقدرة على التحقق، والانفتاح، وآلية تحفيز كاملة.
هيكل بروتوكول Prime Intellect وقيمة الوحدات الأساسية
شرح آلية تدريب Prime Intellect الرئيسية
#PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المفكك
PRIME-RL هو إطار نمذجة وتنفيذ المهام المصمم بواسطة Prime Intellect للمشاهدات التدريبية اللامركزية، مصمم خصيصًا للشبكات المتنوعة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف للتكيف الأولوي، حيث يفصل هيكليًا عملية التدريب والاستدلال وتحميل الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام بشكل مستقل محليًا، والتعاون من خلال واجهات موحدة وآليات التحقق والتجمع. مقارنة بعمليات التعلم تحت الإشراف التقليدية، يعد PRIME-RL أكثر ملاءمة لتنفيذ التدريب المرن في بيئات بدون جدولة مركزية، مما يقلل من تعقيد النظام، ويضع الأساس لدعم المهام المتعددة المتزامنة وتطور السياسات.
#TOPLOC: آلية التحقق من سلوك التدريب الخفيف الوزن
TOPLOC هي آلية نواة قابلة للتحقق من التدريب اقترحها Prime Intellect، تُستخدم لتحديد ما إذا كان العقدة قد أكملت فعلاً تعلم الاستراتيجية الفعالة بناءً على بيانات الملاحظة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل يكمل التحقق الهيكلي الخفيف من خلال تحليل المسارات المحلية للتناسق بين "تسلسل الملاحظة ↔ تحديث الاستراتيجية". إنها تحول لأول مرة المسارات السلوكية في عملية التدريب إلى كائنات قابلة للتحقق، وهي ابتكار رئيسي لتحقيق توزيع مكافآت التدريب بدون ثقة، وتوفر مساراً قابلاً للتطبيق لبناء شبكة تدريب تعاونية لامركزية يمكن تدقيقها وتحفيزها.
#SHARDCAST: بروتوكول تجميع الوزن غير المتزامن ونقله
SHARDCAST هو بروتوكول لنشر وتجميع الوزن صممه Prime Intellect، مصمم لتحسين الأداء في بيئات الشبكة الحقيقية غير المتزامنة، ذات النطاق الترددي المحدود وحالة العقد المتغيرة. يجمع بين آلية نشر gossip واستراتيجيات التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية باستمرار في حالة عدم التزامن، مما يحقق تقارباً تدريجياً للوزن وتطورات متعددة النسخ. بالمقارنة مع الطرق المركزية أو المتزامنة مثل AllReduce، فإن SHARDCAST يعزز بشكل ملحوظ من قابلية التوسع وقدرة التحمل في التدريب اللامركزي، وهو الأساس الرئيسي لبناء إجماع وزني مستقر وتكرارات تدريب مستمرة.
#OpenDiLoCo: إطار الاتصال غير المتزامن المتناثر
OpenDiLoCo هو إطار تحسين الاتصالات الذي تم تحقيقه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect بناءً على فكرة DiLoCo التي اقترحتها DeepMind، وهو مصمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، وتنوع الأجهزة وعدم استقرار العقد. يعتمد هيكله على البيانات المتوازية، من خلال بناء هياكل طوبولوجية نادرة مثل Ring وExpander وSmall-World، مما يتجنب التكلفة العالية للتزامن العالمي، ويعتمد فقط على الجيران المحليين لإكمال تدريب النموذج التعاوني. من خلال الجمع بين التحديثات غير المتزامنة وآلية تحمل الأخطاء، يتيح OpenDiLoCo لوحدات معالجة الرسوميات الاستهلاكية والأجهزة الطرفية المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير إمكانية المشاركة في التدريب التعاوني العالمي، ويعتبر أحد البنى التحتية الأساسية للاتصالات لبناء شبكة تدريب لامركزية.
#PCCL: مكتبة الاتصالات المتزامنة
PCCL هو مكتبة اتصالات خفيفة مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، تهدف إلى حل اختناقات التكيف للمكتبات التقليدية في الأجهزة المتنوعة والشبكات ذات النطاق الترددي المنخفض. يدعم PCCL الهيكل النادر، وضغط التدرجات، والتزامن منخفض الدقة واستعادة النقاط، ويمكن تشغيله على وحدات معالجة الرسوميات للاستخدام الاستهلاكي والعقد غير المستقرة، وهو المكون الأساسي الذي يدعم القدرة على الاتصال غير المتزامن لبروتوكول OpenDiLoCo. لقد زاد بشكل كبير من قدرة الشبكة على تحمل النطاق الترددي وتوافق الأجهزة، مما يفتح "آخر كيلومتر" من البنية التحتية للاتصالات لبناء شبكة تدريب تعاونية مفتوحة حقًا وبدون ثقة.
شبكة Prime Intellect والتحفيز وتقسيم الأدوار
بنت Prime Intellect شبكة تدريبية قابلة للتحقق، بدون إذن، تتمتع بآلية تحفيز اقتصادية، مما يسمح لأي شخص بالمشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعمل البروتوكول بناءً على ثلاث فئات من الأدوار الأساسية:
عقد التدريب: تنفيذ التدريب المحلي، تقديم تحديثات الوزن ومسارات الملاحظة
عقد التحقق: استخدام آلية TOPLOC للتحقق من صحة سلوك التدريب، والمشاركة في حساب المكافآت وتجميع الاستراتيجيات.
تشمل العملية الأساسية للبروتوكول نشر المهام، تدريب العقد، تحقق المسار، تجميع الأوزان (SHARDCAST) وتوزيع المكافآت، مما يشكل حلقة تحفيزية حول "سلوك التدريب الحقيقي".
INTELLECT-2:الإصدار الأول لنموذج تدريب اللامركزي القابل للتحقق
أصدرت Prime Intellect في مايو 2025 INTELLECT-2، وهو أول نموذج كبير للتعلم المعزز في العالم تم تدريبه بالتعاون بين عقد لامركزية غير موثوقة وغير متزامنة، مع حجم معلمات يصل إلى 32B. تم تدريب نموذج INTELLECT-2 بالتعاون بين أكثر من 100 عقدة GPU غير متجانسة منتشرة عبر ثلاث قارات، باستخدام بنية غير متزامنة بالكامل، واستغرق التدريب أكثر من 400 ساعة، مما يظهر جدوى واستقرار الشبكة المتعاونة غير المتزامنة. هذا النموذج ليس فقط اختراقًا في الأداء، بل يمثل أيضًا التنفيذ النظامي الأول لنموذج "التدريب هو الإجماع" الذي اقترحته Prime Intellect. يدمج INTELLECT-2 هيكل التدريب غير المتزامن PRIME-RL(، والتحقق من سلوك التدريب TOPLOC)، وتجميع الأوزان غير المتزامن SHARDCAST(، مما يمثل أول تحقيق للانفتاح، والتحقق، وحلقة الحوافز الاقتصادية في عملية التدريب على الشبكة اللامركزية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
ثورة الذكاء الاصطناعي في العملات الرقمية: استكشاف اللامركزية في التدريب والتحديات
الكأس المقدسة للذكاء الاصطناعي في العملات الرقمية: استكشاف الطليعة للتدريب اللامركزي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، يعتبر تدريب النماذج هو المرحلة الأكثر استهلاكًا للموارد والأعلى من حيث العوائق التقنية، حيث يحدد مباشرة الحد الأقصى لقدرات النموذج وفعالية تطبيقاته العملية. بالمقارنة مع الاستدعاءات الخفيفة في مرحلة الاستدلال، يتطلب عملية التدريب استثمارًا مستمرًا في قوة الحوسبة الكبيرة، وعمليات معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "صناعة ثقيلة" حقيقية لبناء أنظمة الذكاء الاصطناعي. من منظور نماذج البنية، يمكن تصنيف طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، بالإضافة إلى التدريب اللامركزي الذي سيتم مناقشته في هذه المقالة.
تعتبر التدريب المركزي الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب من قبل مؤسسة واحدة داخل مجموعة محلية عالية الأداء، من الأجهزة، والبرمجيات الأساسية، ونظام جدولة المجموعة، إلى جميع مكونات إطار التدريب التي يتم تنسيقها وتشغيلها بواسطة نظام تحكم موحد. تتيح هذه البنية التحتية المتكاملة أفضل كفاءة في مشاركة الذاكرة، وتزامن التدرجات، وآليات التحمل، مما يجعلها مناسبة جدًا لتدريب نماذج كبيرة مثل GPT وGemini، حيث تتمتع بمزايا الكفاءة العالية، والتحكم في الموارد، ولكنها في نفس الوقت تواجه مشاكل مثل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.
التدريب الموزع هو الأسلوب السائد حاليًا في تدريب النماذج الكبيرة، حيث يتمثل جوهره في تقسيم مهام تدريب النموذج وتوزيعها على عدة آلات لتنفيذها بشكل تعاوني، لتجاوز قيود الحساب والتخزين في الآلة الواحدة. على الرغم من أن لديها خصائص "موزعة" من الناحية الفيزيائية، إلا أن الكل لا يزال تحت سيطرة مؤسسة مركزية للتحكم في الجدولة والتزامن، وغالبًا ما تعمل في بيئة شبكة محلية سريعة، من خلال تقنية NVLink للربط السريع، يتم تنسيق المهام الفرعية بواسطة العقدة الرئيسية.
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، وهو مشابه لقيادة نفس المدير عن بُعد لعدة "مكاتب" من الموظفين للتعاون في إكمال المهام. حاليًا، يتم تدريب جميع النماذج الكبيرة الرائجة تقريبًا بهذه الطريقة.
اللامركزية التدريب تمثل مسارًا مستقبليًا أكثر انفتاحًا ومقاومةً للرقابة. تتمثل ميزتها الأساسية في: عدة عقد غير موثوقة تتعاون لإكمال مهام التدريب دون منسق مركزي، عادةً من خلال بروتوكول يوجه توزيع المهام والتعاون، ويعتمد على آلية تحفيز مشفرة لضمان نزاهة المساهمات. تشمل التحديات الرئيسية التي تواجه هذا النموذج:
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين حول العالم، يساهمون كل منهم بقوة الحوسبة لتدريب النموذج بشكل متعاون، لكن "التدريب اللامركزي على نطاق واسع القابل للتطبيق حقًا" لا يزال تحديًا هندسيًا نظاميًا، يتضمن بنية النظام، بروتوكولات الاتصال، أمان التشفير، آليات الاقتصاد، والتحقق من النموذج على عدة مستويات، ولكن ما إذا كان يمكن "التعاون بفعالية + تحفيز النزاهة + الحصول على نتائج صحيحة" لا يزال في مرحلة استكشاف النماذج الأولية المبكرة.
يعتبر التعلم الفيدرالي شكلاً انتقالياً بين التوزيع واللامركزية، حيث يركز على الاحتفاظ بالبيانات محلياً وتجميع معلمات النموذج مركزياً، وهو مناسب للسيناريوهات التي تركز على الامتثال للخصوصية. يتمتع التعلم الفيدرالي ببنية هندسية للتدريب الموزع وقدرة على التعاون المحلي، بينما يتمتع أيضاً بميزة توزيع البيانات في التدريب اللامركزي، ولكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يتمتع بخصائص مفتوحة تماماً ومقاومة للرقابة. يمكن اعتباره نوعاً من "اللامركزية الخاضعة للرقابة" في سياقات الامتثال للخصوصية، حيث تكون المهام التدريبية، وبنية الثقة، وآلية الاتصال معتدلة نسبياً، مما يجعله أكثر ملاءمة كنموذج نشر انتقالي في الصناعة.
اللامركزية تدريب الحدود، الفرص والطرق الواقعية
من منظور نمط التدريب، فإن التدريب اللامركزي لا يناسب جميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، أو متطلبات الموارد العالية جداً، أو صعوبة التعاون، فإنه لا يناسب بطبيعته الإكمال الفعال بين العقد المتغايرة واللامركزية. على سبيل المثال، يعتمد تدريب النماذج الكبيرة عادةً على ذاكرة وصول عشوائي عالية، ووقت استجابة منخفض، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمها ومزامنتها بشكل فعال في شبكة مفتوحة؛ المهام التي تفرض قيوداً قوية على الخصوصية والسيادة المتعلقة بالبيانات تخضع للامتثال القانوني والقيود الأخلاقية، مما يمنع المشاركة المفتوحة؛ بينما المهام التي تفتقر إلى أساس الحوافز التعاونية تفتقر إلى دافع المشاركة الخارجية. تشكل هذه الحدود معاً القيود الواقعية الحالية على التدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو فرضية زائفة. في الواقع، تُظهر أنواع المهام الخفيفة الهيكل، وسهلة التوازي، والقابلة للتحفيز آفاق تطبيقية واضحة للتدريب اللامركزي. بما في ذلك، على سبيل المثال لا الحصر: ضبط LoRA، مهام ما بعد التدريب المتعلقة بمحاذاة السلوك ( مثل RLHF، DPO)، تدريب وتسمية البيانات من خلال الحشد، تدريب نماذج أساسية صغيرة ذات موارد قابلة للتحكم، فضلاً عن سيناريوهات التدريب التعاوني التي تشارك فيها الأجهزة الطرفية. تتميز هذه المهام عمومًا بارتفاع قابلية التوازي، وانخفاض الترابط، والقدرة على تحمل القدرة الحوسبية غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني عبر شبكة P2P، وبروتوكول Swarm، وأدوات التحسين الموزعة.
تحليل المشاريع الكلاسيكية للتدريب اللامركزي
حالياً في مجال التدريب اللامركزي والتعلم الفيدرالي، تشمل المشاريع البارزة في مجال البلوك تشين Prime Intellect و Pluralis.ai و Gensyn و Nous Research و Flock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect و Nous Research و Pluralis.ai العديد من الاستكشافات الأصلية في تصميم الأنظمة والخوارزميات، وتمثل اتجاهات البحث النظرية الحالية؛ بينما مسارات التنفيذ لـ Gensyn و Flock.io واضحة نسبياً، ويمكن رؤية تقدم أولي في الهندسة.
Prime Intellect: رائد الشبكات التعاونية في التعلم المعزز القابل للتحقق من مسارات التدريب
تكرس Prime Intellect جهودها لبناء شبكة تدريب AI لا تتطلب الثقة، مما يسمح لأي شخص بالمشاركة في التدريب، والحصول على مكافآت موثوقة مقابل مساهماتهم الحاسوبية. تأمل Prime Intellect من خلال ثلاثة وحدات PRIME-RL + TOPLOC + SHARDCAST، في إنشاء نظام تدريب AI لامركزي يتمتع بالقدرة على التحقق، والانفتاح، وآلية تحفيز كاملة.
هيكل بروتوكول Prime Intellect وقيمة الوحدات الأساسية
شرح آلية تدريب Prime Intellect الرئيسية
#PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المفكك
PRIME-RL هو إطار نمذجة وتنفيذ المهام المصمم بواسطة Prime Intellect للمشاهدات التدريبية اللامركزية، مصمم خصيصًا للشبكات المتنوعة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف للتكيف الأولوي، حيث يفصل هيكليًا عملية التدريب والاستدلال وتحميل الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام بشكل مستقل محليًا، والتعاون من خلال واجهات موحدة وآليات التحقق والتجمع. مقارنة بعمليات التعلم تحت الإشراف التقليدية، يعد PRIME-RL أكثر ملاءمة لتنفيذ التدريب المرن في بيئات بدون جدولة مركزية، مما يقلل من تعقيد النظام، ويضع الأساس لدعم المهام المتعددة المتزامنة وتطور السياسات.
#TOPLOC: آلية التحقق من سلوك التدريب الخفيف الوزن
TOPLOC هي آلية نواة قابلة للتحقق من التدريب اقترحها Prime Intellect، تُستخدم لتحديد ما إذا كان العقدة قد أكملت فعلاً تعلم الاستراتيجية الفعالة بناءً على بيانات الملاحظة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل يكمل التحقق الهيكلي الخفيف من خلال تحليل المسارات المحلية للتناسق بين "تسلسل الملاحظة ↔ تحديث الاستراتيجية". إنها تحول لأول مرة المسارات السلوكية في عملية التدريب إلى كائنات قابلة للتحقق، وهي ابتكار رئيسي لتحقيق توزيع مكافآت التدريب بدون ثقة، وتوفر مساراً قابلاً للتطبيق لبناء شبكة تدريب تعاونية لامركزية يمكن تدقيقها وتحفيزها.
#SHARDCAST: بروتوكول تجميع الوزن غير المتزامن ونقله
SHARDCAST هو بروتوكول لنشر وتجميع الوزن صممه Prime Intellect، مصمم لتحسين الأداء في بيئات الشبكة الحقيقية غير المتزامنة، ذات النطاق الترددي المحدود وحالة العقد المتغيرة. يجمع بين آلية نشر gossip واستراتيجيات التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية باستمرار في حالة عدم التزامن، مما يحقق تقارباً تدريجياً للوزن وتطورات متعددة النسخ. بالمقارنة مع الطرق المركزية أو المتزامنة مثل AllReduce، فإن SHARDCAST يعزز بشكل ملحوظ من قابلية التوسع وقدرة التحمل في التدريب اللامركزي، وهو الأساس الرئيسي لبناء إجماع وزني مستقر وتكرارات تدريب مستمرة.
#OpenDiLoCo: إطار الاتصال غير المتزامن المتناثر
OpenDiLoCo هو إطار تحسين الاتصالات الذي تم تحقيقه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect بناءً على فكرة DiLoCo التي اقترحتها DeepMind، وهو مصمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، وتنوع الأجهزة وعدم استقرار العقد. يعتمد هيكله على البيانات المتوازية، من خلال بناء هياكل طوبولوجية نادرة مثل Ring وExpander وSmall-World، مما يتجنب التكلفة العالية للتزامن العالمي، ويعتمد فقط على الجيران المحليين لإكمال تدريب النموذج التعاوني. من خلال الجمع بين التحديثات غير المتزامنة وآلية تحمل الأخطاء، يتيح OpenDiLoCo لوحدات معالجة الرسوميات الاستهلاكية والأجهزة الطرفية المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير إمكانية المشاركة في التدريب التعاوني العالمي، ويعتبر أحد البنى التحتية الأساسية للاتصالات لبناء شبكة تدريب لامركزية.
#PCCL: مكتبة الاتصالات المتزامنة
PCCL هو مكتبة اتصالات خفيفة مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، تهدف إلى حل اختناقات التكيف للمكتبات التقليدية في الأجهزة المتنوعة والشبكات ذات النطاق الترددي المنخفض. يدعم PCCL الهيكل النادر، وضغط التدرجات، والتزامن منخفض الدقة واستعادة النقاط، ويمكن تشغيله على وحدات معالجة الرسوميات للاستخدام الاستهلاكي والعقد غير المستقرة، وهو المكون الأساسي الذي يدعم القدرة على الاتصال غير المتزامن لبروتوكول OpenDiLoCo. لقد زاد بشكل كبير من قدرة الشبكة على تحمل النطاق الترددي وتوافق الأجهزة، مما يفتح "آخر كيلومتر" من البنية التحتية للاتصالات لبناء شبكة تدريب تعاونية مفتوحة حقًا وبدون ثقة.
شبكة Prime Intellect والتحفيز وتقسيم الأدوار
بنت Prime Intellect شبكة تدريبية قابلة للتحقق، بدون إذن، تتمتع بآلية تحفيز اقتصادية، مما يسمح لأي شخص بالمشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعمل البروتوكول بناءً على ثلاث فئات من الأدوار الأساسية:
تشمل العملية الأساسية للبروتوكول نشر المهام، تدريب العقد، تحقق المسار، تجميع الأوزان (SHARDCAST) وتوزيع المكافآت، مما يشكل حلقة تحفيزية حول "سلوك التدريب الحقيقي".
INTELLECT-2:الإصدار الأول لنموذج تدريب اللامركزي القابل للتحقق
أصدرت Prime Intellect في مايو 2025 INTELLECT-2، وهو أول نموذج كبير للتعلم المعزز في العالم تم تدريبه بالتعاون بين عقد لامركزية غير موثوقة وغير متزامنة، مع حجم معلمات يصل إلى 32B. تم تدريب نموذج INTELLECT-2 بالتعاون بين أكثر من 100 عقدة GPU غير متجانسة منتشرة عبر ثلاث قارات، باستخدام بنية غير متزامنة بالكامل، واستغرق التدريب أكثر من 400 ساعة، مما يظهر جدوى واستقرار الشبكة المتعاونة غير المتزامنة. هذا النموذج ليس فقط اختراقًا في الأداء، بل يمثل أيضًا التنفيذ النظامي الأول لنموذج "التدريب هو الإجماع" الذي اقترحته Prime Intellect. يدمج INTELLECT-2 هيكل التدريب غير المتزامن PRIME-RL(، والتحقق من سلوك التدريب TOPLOC)، وتجميع الأوزان غير المتزامن SHARDCAST(، مما يمثل أول تحقيق للانفتاح، والتحقق، وحلقة الحوافز الاقتصادية في عملية التدريب على الشبكة اللامركزية.
من حيث الأداء، INTELLECT-2