شوگی

Alphazero ، دریچه ی جدیدی بر دنیای شطرنج ، شوگی ( Shogi ) و Go

در اواخر سال ۲۰۱۷ ما Alphazero را معرفی کردیم ؛ یک سیستم واحد که خودش از همان ابتدا به خودش چگونگی تسلط بر بازی های شطرنج،شوگی و GO (شطرنج ژاپنی) را آموزش داد به گونه ای که در هر نمونه شکست قهرمانان جهانی را به تصویر کشید.

همچنین ببینید:

ما با دیدن نتایج اولیه هیجان زده شدیم و برای دیدن پاسخ اعضای جامعه ی شطرنج -کسانی که پستی و بلندی های بازی های Alphazero را دیده بودند- لحظه شماری می کردیم تا سبک نامتعارفی از بازی که متفاوت از بازی معمول شطرنج بازان دیگر بود را شاهد باشیم.

امروزه ما خرسندیم که به معرفی و ارزیابی کامل  Alphazero – آنچه که در مجله ی علوم منتشر شده -بپردازیم؛ آنچه که تایید و بروزرسانی نتایج ابتدایی را برعهده دارد.

این موضوع توضیح خواهد داد که چگونه Alphazero به سرعت آموزش می دهد تا بتواند به قوی ترین بازیکن در طول تاریخ یک بازی تبدیل شود ؛ این کار آموزش خود را  برای کسانی شروع میکند که در یک بازی تصادفی دانش کافی در زمینه بازی مربوطه را ندارند اما با قوانین اساسی آن اشنا هستند.

Garry Kasparov قهرمان سابق شطرنج جهان می گوید:

من نمی‌توانم رضایت خود را پنهان کنم که با یک سبک بسیار دینامیک بازی می‌کند و خیلی شبیه به خودم است

این توانایی برای یادگیری هر یک از بازی ها ، با هنجارهای بازی انسان محدود می شود که منجر به یک سبک بازی متمایز ودر عین حال خلاق و پویا می شود.

استاد بزرگ شطرنج Matthew Sadler  و استاد بین المللی زنان Natasha Regan ، کسانی که هزاران بازی شطرنج Alphazero  را برای چهارمین کتاب تغییرات بازی درحال چاپ خود(New In Chess , (January 2019 تحلیل کرده بودند ، گفتند این سبک برخلاف سنت شطرنج است. مت می گوید این کار شبیه به کشف دفترچه ی مخفی  از گذشته ی بازیکنان بزرگ است.

مهندسین  شطرنج سنتی از جمله قهرمان شطرنج کامپیوتری جهان Stockfish  و IBM  بر هزاران قانون و ابتکارات و خلاقیت های دستی اعمال شده توسط بازیکنان انسانی قوی که برای احتساب هر احتمالی در بازی تلاش می کنند ، تکیه می کنند. برنامه های شوگی نیز خاص بوده و از موتورهای جستجوی مشابه و نیزالگوریتم هایی  مشابه با برنامه های شطرنج استفاده می کنند. Alphazero دارای رویکرد کاملا متفاوتی است ،بطوریکه این قوانین دست ساز را با شبکه های عمیق و الگوریتم های مقصود اصلی که قوانین اساسی پشت بازی را نمی دانند جایگزین می کند.

ابتدا Alphazero در شطرنج پس از چهارساعت Stockfish را اجرا نموددر شوگی ، Alphazero پس از دو ساعت Elmo را اجرا نموده و در شطرنج ژاپنی Go الفازیرو ابتدا نسخه ی AlphaGo را که بازیکن افسانه ای Lee Sedol را در سال ۲۰۱۶ پس از ۳۰ساعت شکست داده است اجرا نموده است.
نکته: هر مرحله ی آموزشی نشان دهنده ی ۴۰۹۶ موقعیت در تخته ی بازی است.

برای یادگیری هربازی ، یک شبکه  آموزش ندیده ، میلیون ها بازی را در برخلاف خود از طریق یک فرایند آزمایش و خطا به نام یادگیری تقویتی بازی می کند. در ابتدا ، آن را به طور کامل به گونه ای تصادفی بازی می کند ، اما با گذشت زمان سیستم می آموزد که از بردن ، باختن ، و تساوی پارامترهای شبکه را تنطیم کند. به احتمال زیاد این کار به انتخاب حرکاتی سودمند  برای آینده کمک می کند. مقدار آموزش برای شبکه  بستگی به سبک و پیچیدگی بازی دارد که حدودا ۹ ساعت برای شطرنج، ۱۲ ساعت برای شوگی و ۱۳ روز برای Go  زمان می برد.

YOSHIHARU HABU  دارنده ی حرفه ای دان ۹ و تنها بازیکنی که تمامی هفت عنوان رشته ی شوکی را در طول تاریخ برای خود کرده است، میگوید:

بنظر میرسد برخی از این حرکات مثل حرکت شاه در وسط صفحه  برخلاف تئوری شوگی از یک چشم انداز انسانی باعث به خطر انداختن موقعیت  Alphazero می شود اما بطور خارق العاده ای باعث کنترل صفحه خواهد شد. این سبک منحصر به فرد بازی به ما نشان میدهد که امکانات جدیدی برای بازی وجود دارد

این شبکه ی آموزش دیده برای راهنمای الگوریتم جستجو استفاده شده است –که به عنوان Monte-Carlo Tree Search (MCTS) شناخته شده است- که درجهت بیشترین حرکات امیدوارکننده در بازی انتخاب می شود.برای هرحرکت ، الفازیرو تنها یک بخش کوچکی از مواضع درنظر گرفته شده را توسط موتورهای سنتی شطرنج جستجو می کند. برای مثال در شطرنج،  تنها ۶۰هزار موقعیت در ثانیه در مقایسه با حدود ۶۰ میلیون برای Stockfish  جستجو می شود.

amount-of-search-per-decision

آموزش کلی سیستم ها برخلاف موتورهای دست ساز قوی برای شطرنج و شوگی تست شده است. همراه با سیستم AlphaGozero قبلی خودساخته یمان، قویترین بازیکن Go شناخته شد.

  • هر برنامه بر روی سخت افزاری که برای آن طراحی شده بود، راه اندازی شد. Seockfish   و Elmo  از CPUهای ۴۴ هسته ای استفاده نمودند (همانطور که در مسابقات قهرمانی جهانی  TCEC شاهد بودیم)، جایی که Alphazero AlphaGozero از یک ماشین واحد با ۴ TPU نسل اول و ۴۴ پردازنده ی هسته ای استفاده می کند. نسل اول TPU ، تقریبا در استنباط سرعت به سخت افزار کالا مانند NVIDIA Titan V GPU  است. اگرچه معماری بطور مستقیم قابل مقایسه نیست.
  • همه مسابقات با استفاده از کنترل های زمان سه ساعت در هر بازی ، به علاوه ۱۵ ثانیه اضافی برای هر حرکت پخش شد.

در هر ارزیابی Alphazero بطور متقاعدکننده ای حریف خود را اینگونه شکست می دهد:

  • در شطرنج، الفازیرو TCEC 2016 دان۹ از قهرمان جهانی STOCKFISH  راشکست داده ، ۱۵۵بازی را برده و تنها شش بازی را از هزار بازی از دست داده است.به منظور بررسی استحکام Alphazero ما مجموعه ای از مسابقات را مشاهده کردیم که از بازه های مشترک انسانی آغاز شده بود.در هر بازه ،آلفازیرو، Stockfish را شکست داد. ما همچنین مسابقه ای را بازی کردیم که از مجموعه ای از موقعیت های آغازین مورد استفاده در مسابقات قهرمانی جهانی  TCEC 2016 سود برده بود و  از آخرین نسخه ی رشد Stockfish  استفاده می کرد که متغیری از Stockfish محسوب می شد . در همه ی مسابقات ، Alphazero برنده شد.
  • در شوگی ، Alphazero ، نسخه ی Elmo  قهرمانی جهانی  CSA 2017 را شکست داد و ۹۱٫۲ درصد بازی هارا از آن خود کرد.

  • در گو ، Alphazero ، AlphaGozero را شکست داد و ۶۱ درصد از نتایج بازی ها را از آن خود کرد.

به هرحال این سبکی بود که Alphazero این بازی ها را با این روش بازی کرد که ممکن است بازیکنان جذابیت بیشتری را در آن بیابند. برای مثال در شطرنج ، Alphazero بطور مستقل در طول آموزش خود ، نقش و نگاره های مشترک انسانی را کشف و بازی کرده است ؛ مانند بازه ها، امنیت پادشاه و ساختار پیاده، اما با خودآموخته بودن و درنتیجه  محدود نبودن توسط عقل بی قید و شرط ، بینش و استراتژی‌های خود را گسترش داد و مجموعه‌ای جدید و گسترده از ایده‌های هیجان‌انگیز را اضافه کرد که قرن‌ها تفکر درباره استراتژی شطرنج را تقویت کرد.

Garry Kasparov  قهرمان سابق جهانی شطرنج می گوید:

شطرنج از هر دو شناخت انسان و شناخت ماشین برای بیش از یک قرن استفاده کرده است. Alphazero ارتباط قابل توجهی بین یک بازی تخته ای قدیمی و و علم برش تخته را بطور خارق العاده ای تجدید کرد.

اولین چیزی که بازیکنان به آن توجه می کنند، سبک Alphazero است. Matthew Sadler  میگوید: ” روشی  است که قطعات آن با هدف و قدرت به طرف پادشاه حریف هجوم می‌برند.” او می‌گوید که این بازی، بازی پویای AlphaZero است که فعالیت و تحرک قطعات خود را به اوج رسانده در حالی که فعالیت و تحرک اجزای حریف را به حداقل می‌رساند.

به طور مستقیم بنظر میرسد که آلفازیرو ارزش کمتری در مواد بکار برده داشته باشد، ایده ای که از بازی مدرن پشتیبانی میکند،بیانگر این است که در آن هر قطعه ارزش بیشتری دارد و اگر یک بازیکن تعداد قطعات بیشتری روی تخته داشته باشد برای آنها یک مزیت به حساب می آید. در عوض، Alphazero مواد اولیه را در بازی در جهت کسب منفعت خود بکار می برد که تنها در دراز مدت عرضه خواهد شد.

Matthew  می گوید:این میتواند در گستره ی وسیعی از موقعیت ها و بازه ها سبک بازی خود را مدیریت نماید.

او کسی است که مشاهده کرد الفازیرو سبک بسیار سنجیده ای را از اولین حرکت خود با یک حس بسیار انسانی با هدف سازگار در پیش گرفته و بازی می کند.

او می گوید: موتورهای سنتی بطور استثنایی ای قوی هستند و تنها اشتباهات واضح اندکی را مرتکب می شوند اما می توانند در هنگام رویارویی با مسائل بدون راه حل از مسیر منحرف شوند.دقیقا در چنین موقعیت هایی که در آن احساس بینش یا شهود لازم است Alphazero به میدان می آید.

Garry Kasparov  قهرمان سابق جهانی شطرنج می گوید:

این مفاهیم فراتر از صفحه ی شطرنج محبوب من می رود… نه تنها این ماشین های متخصص خودآموخته به طور فوق العاده ای خوب عمل می کنند؛بلکه ما واقعا می توانیم از دانش جدیدی که به ما می دهند یاد بگیریم

این توانایی منحصر به فرد که در دیگر مدل های سنتی شطرنج دیده نشده است، در حال حاضر برای دادن بینش و تفسیر تازه به هواداران شطرنج در مسابقه اخیر شطرنج جهان بین ماگنوس Carlsen و “fabiano Caruana” بسته شده‌است و بیشتر در ” شانژور” مورد بررسی قرار خواهد گرفت.

Natasha Regan  می گوید: برایم جالب بود ببینم چگونه  آنالیز و تحلیل Alphazero نسبت به بالاترین موتورهای شطرنج و حتی برترین بازی آن متفاوت بوده است.

Alphazero میتواند یک ابزار آموزشی قدرتمند در طول جوامع باشد.

آموزه های Alphazero همان چیزی را منعکس می کنند که ما در سال ۲۰۱۶ زمانی که AlphaGo قهرمان افسانه ای Lee Sedol  را بازی کرد، دیدیم.

در طی این بازی‌ها، AlphaGo تعداد زیادی از حرکات برنده را بازی کرد، از جمله ۳۷ حرکت در دو بازی، که صدها سال مرز دانش را جلو برد کرد.

این حرکات – و بسیاری دیگر – از آن زمان تاکنون توسط بازیکنان در تمام سطوح مورد مطالعه قرار گرفته‌اند, از جمله خود Lee Sedol, که گفت: ” من فکر می‌کردم که این کار براساس محاسبات احتمالی است و فقط یک ماشین است. اما وقتی این حرکت را دیدم تغییر عقیده دادم. قطعاً این ((Alphago خلاقانه است. “

همانند Go، ما در مورد واکنش خلاقانه AlphaZero به شطرنج هیجان‌زده هستیم، چراکه چالش بزرگی برای هوش مصنوعی از آغاز عصر محاسبات با پیشگامان اولیه از جمله Babbage، تورینگ، شانون و فون نیومن است که همگی در طراحی برنامه‌های شطرنج تلاش می‌کنند.

اما AlphaZero حدودا چیزی بیشتر از یک شطرنج، shogi یا Go است. برای ایجاد سیستم‌های هوشمند قادر به حل یک گستره وسیعی از مشکلات دنیای واقعی، ما به آن‌ها نیاز داریم که انعطاف‌پذیر باشند و به موقعیت‌های جدید تبدیل شوند.در حالی که در این هدف پیشرفت‌هایی در این زمینه صورت‌گرفته است، این چالش، چالشی بزرگ در زمینه تحقیق هوش مصنوعی با سیستم‌هایی است که توانایی تسلط بر مهارت‌های خاص را در یک استاندارد بسیار بالا دارد، اما اغلب در زمانی که با وظایف اندکی تغییر یافته ارائه می‌شود، شکست می‌خورد.

توانایی Alphazero ، تسلط بر سه بازی مختلف – و هر بازی اطلاعاتی کامل – گامی مهم در جهت غلبه بر این مشکل است.

این نشان می‌دهد که یک الگوریتم می‌تواند نحوه کشف دانش جدید را در گستره‌ای از تنظیمات یاد بگیرد.

و در حالی که هنوز چند روز است، بینش خلاقانه AlphaZero همراه با نتایج دلگرم‌کننده‌ای که ما در پروژه‌های دیگر مثل AlphaFold می‌بینیم، به ما در ماموریت خود برای ایجاد سیستم های یادگیری هدف اصلی اعتماد به نفس می دهد و یک روز به ما در یافتن راه‌حل‌های جدید برای برخی از مهم‌ترین و پیچیده‌ترین مشکلات علمی کمک می‌کند.

 

نوشته های اخیر:

منبع deepmind

همچنین ببینید

استفاده از هوش مصنوعی مولد برای بهبود تست نرم‌افزار

هوش مصنوعی مولد به دلیل توانایی خود در ایجاد متن و تصاویر بسیار مورد توجه …

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *