خفضت تقنية الضغط الجديدة من جوجل بشكل كبير من استهلاك الذاكرة للذكاء الاصطناعي، مع تحسين الأداء بشكل غير معلن عبر مختلف الأحمال الثقيلة وبيئات الأجهزة الحديثة.

أطلقت شركة جوجل تقنية TurboQuant التي تهدف إلى تقليل استهلاك الذاكرة في أنظمة الذكاء الاصطناعي الكبيرة، مع الحفاظ على دقة النتائج حتى في أكثر المهام تعقيدًا. تعتمد هذه التقنية على تحسين كفاءة ضغط البيانات باستخدام أساليب جديدة، دون الحاجة إلى تدريب نماذج جديدة من الصفر.

الذاكرة عصب أداء نماذج اللغة الكبيرة

تعتمد نماذج اللغة الكبيرة بشكل كبير على بنيات داخلية تخزن بيانات وسيطة يمكن استعادتها بسرعة أثناء المعالجة. أحد أهم هذه البنى هو ذاكرة المفتاح والقيمة، التي تعتبر بمثابة “ورقة غش رقمية عالية السرعة” تمنع الحاجة لإعادة حساب البيانات مرارًا وتكرارًا، مما يعزز سرعة الاستجابة.

لكن، هذه التقنية تستهلك مساحة كبيرة من الذاكرة، خاصة عند التعامل مع متجهات ذات أبعاد عالية. مع تصاعد حجم النماذج، يصبح من الصعب إدارة هذا الطلب على الذاكرة دون التضحية بسرعة الأداء أو سهولة الوصول.

طرق تقليدية للتقليل من استهلاك الذاكرة

تم الاعتماد سابقًا على تقنيات التكميم أو التشفير لتقليل حجم البيانات، لكن هذه الطرق غالبًا ما تأتي مع تضحيات، مثل تقليل جودة المخرجات أو زيادة استهلاك الذاكرة من خلال الحاجة إلى تخزين معطيات ثابتة. مشكلة التوازن بين الكفاءة والدقة لا تزال قائمة في العديد من الأنظمة.

ابتكار جوجل: خطوات نحو الكفاءة

طرحت جوجل تقنية TurboQuant التي تتكون من مرحلتين لمعالجة هذه التحديات:

– المرحلة الأولى، تُعرف بـ PolarQuant، وتقوم بتحويل المتجهات من الإحداثيات الديكارتية إلى الإحداثيات القطبية. بدلاً من تخزين مكونات الاتجاه المختلفة، يتم اختصار المعلومات إلى قيم نصف القطر والزاوية، مما يقلل من الحاجة إلى عمليات التماثل المتكررة ويحد من الحمل الزائد الذي يترافق مع التكميم التقليدي.

– المرحلة الثانية، تعتمد على تقنية Quantized Johnson-Lindenstrauss (QJL)، والتي تعمل كطبقة تصحيحية. فهي تقلل كل عنصر من عناصر المتجه إلى بت واحد، إما موجب أو سالب، مع الحفاظ على العلاقات الأساسية بين البيانات. تساعد هذه المرحلة في تحسين دقة تقييمات الاهتمام، التي تحدد مدى أولوية المعلومات أثناء المعالجة.

نتائج واعدة تصل إلى تحسينات كبيرة

حسب الاختبارات التي أجرتها جوجل، أظهرت تقنية TurboQuant قدرات عالية على تقليل استهلاك الذاكرة بشكل كبير، حيث تمكنت من تقليل حجم ذاكرة التخزين المؤقت للمفاتيح والقيم بمعدل ستة أضعاف، مع الحفاظ على نتائج عالية الجودة. كما أنها تسمح بالتكميم إلى ثلاثة بتات دون الحاجة إلى إعادة تدريب النماذج، مما يجعلها متوافقة مع معظم البنى المعمارية الحالية.

بالإضافة إلى ذلك، حققت التقنية تحسينات في السرعة، حيث أصبحت عمليات الحساب الخاصة بآليات الانتباه أسرع بما يصل إلى ثمانية أضعاف مقارنة مع العمليات التقليدية ذات 32 بت على أجهزة عالية الأداء.

آفاق التطبيق والتوقعات المستقبلية

تشير النتائج إلى أن الضغط على البيانات لا يجب أن يأتي على حساب الأداء، خاصة في بيئات الاختبار المهيأة بشكل دقيق. ومع ذلك، فإن التطبيق الفعلي على نطاق أوسع قد يتطلب تقييمات إضافية، حيث يمكن أن تختلف النتائج باختلاف أحمال العمل والبنى التحتية.

تسعى جوجل من خلال هذه التقنية إلى تقليل تكلفة العمليات، وتسهيل نشر النماذج على الأجهزة ذات الموارد المحدودة، مع إمكانية تخصيص الموارد المحررة لتشغيل نماذج أكثر تعقيدًا. رغم أن النتائج المبكرة واعدة، فإن التأثير الحقيقي يعتمد على التنفيذ في ظروف العمل الواقعية، والتي قد تظهر نتائج مختلفة بناءً على متطلبات الأداء والتحديات التقنية.

المصدر:
Latest from TechRadar

←

خفضت تقنية الضغط الجديدة من جوجل بشكل كبير من استهلاك الذاكرة للذكاء الاصطناعي، مع تحسين الأداء بشكل غير معلن عبر مختلف الأحمال الثقيلة وبيئات الأجهزة الحديثة.

اترك تعليقاً إلغاء الرد

هل أنت مستعد لتكون قصة نجاحنا القادمة؟