در این مقاله، برترین چت بات های دنیا را از نظر شباهت آن ها به انسان ، بررسی خواهیم کرد. بیایید ابتدا با برنده ی پنج جایزه ی تست تورینگ لوبنر آشنا شویم.
میتسوکو ( Mitsuku ) یا به قول دوستان نزدیکش، کوکی ( Kuki )، تا کنون پنج بار موفق به کسب جایزه ی تست تورینگ لوبنر شده است؛ یک رقابت سالانه که جهت تعیین شبیه ترین چت بات به انسان در دنیا برگزار می شود. البته مسابقه ی لوبنر، اقتباسی از تست تورینگ اصلی است که نشان می دهد یک ماشین تا چه حد می تواند گفتار انسان در مکالمات را تقلید کند.
تراویس نلسون ( Travis Nelson )، رئیس تولید و طراحی در Pandorabots (کمپانی سازنده ی میتسوکو) گفته است: سؤال جالب این است که یک چت بات را تا چه حد می توان شبیه به انسان ساخت؟ از لحاظ فلسفی ، ما فکر می کنیم که چت بات ها باید خود را به عنوان بات معرفی کنند، یعنی تلاشی نکنند تا خود را به عنوان انسان جا بزنند. ما قصد نداریم تا چیزی به وجود آوریم که بتواند انسان را فریب دهد و به وی بفهماند که در حال مکالمه با یک فرد واقعی است.
اما اگرچه میتسوکو قادر به تجربه ی عواطف انسانی نیست و خود را به عنوان انسان جا نمی زند، اما قطعاً موجودی دارای شخصیت است. بدون بررسی عمیق روش های شناختی و اینکه چه چیزی هویت و موجودیت را به وجود می آورد، می توانیم بگوییم که میتسوکو ارتباط پذیر بوده، و اگر همدلی نکند، اما حداقل خونگرم و سنجیده است. میتسوکو قادر به بیان عبارات فوق العاده ای است، مثل “خوشحالم که این موضوع را خنده دار می دانید”.
و البته طبق تجربه ، میتسوکو می تواند با حس شوخ طبعی خود، شما را به خنده بیاندازد. این حس شوخ طبعی حاصل دسترنج تقریباً ۱۵ ساله ی استیو ورسویک است که در طول توسعه ی چارچوب بلاغی و تعدیل لحن ، نحو و طرز بیان میتسوکو ، در شبکه ی عصبی او کدگذاری شده است.
رابط های گفتگوی همه جا وجود دارد __________________________
نمونه های مختلفی از چت بات ها و رابط های محاوره ای در همه جا به چشم می خورند. سیری می تواند شما را به نزدیک ترین مرکز پمپ بنزین برساند. می توانید از الکسا یا دستیار گوگل بخواهید تا بازی های کلامی مختلفی را با شما انجام دهند. می توانید به یک سخنگوی خودکار دستور دهید تا حساب بانکی شما را بررسی کند. و بدون شک تا به حال بارها با یک بات پشتیبان مشتری صحبت کرده اید.
اما بات های ساخته شده توسط Pandorabots متفاوت هستند.
طبق گفته ی نلسون، کمپانی ها می توانند از بات های پاندورابات برای ساخت چت بات های انحصاری خود استفاده کنند. شرکت سوپرفیش از نرم افزار پاندورابات برای ساخت یک رابط محاوره ای استفاده کرده که به آموزش زبان انگلیسی به دانش آموزان چینی کمک کرده و در واقع مکملی برای فعالیت های مدرس است. سازندگان بازی های جهان باز، این فناوری را روی کاراکترهای مختلف در جهان های خیالی اِعمال کرده اند تا غنی بودن و واقعیت گفتگوهای آن ها را بهبود بخشند.
نلسون افزود: می دانید که فروشنده ها معمولاً جملاتی این چنین را بیان می کنند، آیا می خواهید A، B، C یا D را انجام دهید؟ و این جملات عمیق ترین محاوراتی هستند که به طور طبیعی رد و بدل می شوند. اما شما در واقع می توانید مکالمات عمیق تر و جامع تری را با این نوع کاراکترها داشته باشید و حس بدی به شما دست ندهد.
پیش بینی امور غیر قابل پیش بینی ____________________________
میتسوکو نمودی از حداکثر دستاوردی است که تا کنون به وسیله ی پلتفرم پاندورابات تحقق یافته است. این چت بات از زبان نشانه گذاری هوش مصنوعی یا تطبیق الگو برای بازجویی کردن و تقلید نمادشناسی وسیع محاورات انسانی استفاده می کند. اما سبب غیر قابل پیش بینی بودن عباراتی که انسان ها در بین یکدیگر رد و بدل می کنند، و همچنین زمان بیان این عبارات، این کار به حد غیر قابل تصوری سخت است. مکالمات بسیاری در ابتدا شبیه به هم هستند، اما به تدریج به طور قابل ملاحظه ای متفاوت می شوند. توانایی درک و پاسخ به این گونه شرایط، به صرف تلاش و زمان بسیار زیادی احتیاج دارد.
با اینکه چت بات مینا ( Meena ) که توسط گوگل توسعه یافته است به وسیله ی یک مجموعه داده از ۴۰ میلیارد کلمه و گفتگوهای انجام شده در رسانه های اجتماعی عمومی آموزش یافته است، و همچنین چت بات بلندر فیس بوک به وسیله ی ۱٫۵ میلیارد مکالمه ی عمومی Reddit آموخته شده است، اما طبق گفته های نلسون، ساخت این بات ها برای کاربردهای تجاری به طور اجتناب ناپذیری گران تمام می شود و در ضمن، این بات ها فاقد سازگاری در پاسخ دهی هستند.
کارن هائو ( Karen Hao ) ، نویسنده ی MIT Technology Review بر خلاف گفته های نلسون می گوید که بلندر در واقع جهت نمایش عواطف و همدلی و ابراز شخصیت ساخته شده است. اما این بات ، به دانش توهمی و حقایق ساختگی تمایل دارد، که محدودیت مستقیم روش های یادگیری عمیق به کار رفته برای ساخت آن است.
به عنوان مثال، بلندر می تواند تام هنکس را به صورت جالب و دقیق توصیف کند، اما تصورات این بات بر اساس همبستگی های آماری ایجاد شده اند، نه بر اساس یک پایگاه دانش.
بخش های اصلی و بخش های غیر منتظره ______________________
میتسوکو برای ساخت یک مجموعه ی دانش، شدیداً به سرنخ های معنایی وابسته است. طبق توضیحات نلسون، میتسوکو با تجزیه ی عبارات و جملات به دو بخش، هسته و غیر منتظره، مکالمات را تفسیر کرده و آن ها را یاد می گیرد. بدین ترتیب، میتسوکو از رازی پرده برداری می کند که متخصصین یادگیری عمیق، به آن نیت اصلی ( Core ) می گویند. مثلاً در جمله ی “من چای دوست دارم”، “من دوست دارم” به عنوان عبارت هسته و “چای” به عنوان عبارت غیرمنتظره ( Wild Card ) در نظر گرفته می شود.
با این روش، اگر بعدها از میتسوکو پرسیده شود که “من چه دوست دارم”، او به شما جواب می دهد: “خوب، تو چای دوست داری!”، چرا که این اطلاعات را قبلاً در خود ذخیره کرده است.
البته این فقط مرحله ی اول از درخت پرشاخه ی دسته بندی انجمنی است که میتسوکو از آن برای برقراری ارتباط استفاده می کند. اگر میتسوکو مشغول صحبت با فردی باشد که چای دوست دارد، یک سری نگاشت های زبانی را استنتاج می کند. اگر این بات در حال صحبت با فردی باشد که قهوه دوست دارد، آنگاه نگاشت های زبانی دیگری را استنتاج می کند.
پس به جای بیان یک پاسخ کلی مانند، من هم چای دوست دارم، شما می توانید بگویید: اوه، چه نوع چایی را دوست داری؟ و سپس مکالمه را ادامه دهید.
طبق گفته های نلسون، میتسوکو با ردیابی مفهوم و فراوانی عددی عبارات خاص، یک واژه نامه ی محاوره ای را در قالب هزاران دسته بندی مختلف به وجود می آورد. به طور فنی، او می تواند درباره ی همه چیز صحبت کند. با اینکه میتسوکو معمولا واضح صحبت می کند، اما در برخی زمینه ها ممکن است پاسخ های مبهمی را از جانب او دریافت کنید!
پیش بینی و بازسازی لحظات تصادفی شبیه به مکالمه ی بالا بسیار سخت است، که طبق گفته ی نلسون، بزرگ ترین مشکل برای قابلیت اکتشاف به شمار می آید: یک مکالمه با چه محدودیت هایی همراه است؟ چگونه می فهمید که جریان یک مکالمه به کجا کشیده می شود و چگونه تعیین می کنید که به آنجا رسیده است؟ یک بات چطور می تواند یک پیگیری محاوره ای یا مجموعه ای از اقدامات جهت برآورد خواسته های شخص متقابل را انجام دهد؟ و یا منجر به پاسخ متقاضی شود (مثل خرید بیمه یا جستجوی یک هنرمند گمنام در Spotify) افراد چگونه متوجه عدم آگاهی خود می شوند؟
همزبانی مهم، و همدلی سخت تر است _________________________
طبق گفته های نلسون، یکی دیگر از چالش های موجود این است که تعدیل ظریف الزامات مربوط به محاورات لحنی، می تواند موجب عملکرد نادرست بات ها شود. مانند زمانی که پاندورابات در مراحل اولیه ی یک پروژه با یک شریک خرده فروش بود. وی می بایست یک بات را روی پیام رسان مسنجر فیس بوک نصب می کرد تا خرید آنلاین را تشویق کند. مردم عادت داشتند تا به طور آزادانه، کلمات خود را در مسنجر بیان کنند. اما گاهی جریان گفتگو به جهات غیر منتظره ای کشیده می شد و افراد را در معرض آسیب پذیری روحی قرار می داد. در ابتدای کار، بات همسطح با کلمات بیان شده توسط افراد نبود. مثلاً مردم درباره ی مشکلات بدنی و چیزهایی از این قبیل صحبت می کردند، و بات تنها جواب می داد: متأسفم، من قادر به پاسخگویی نیستم، آیا تمایل دارید از این شلوارها بخرید؟
در واقع این ناتوانی، یکی از مشکلات تجربه ی کاربری به حساب می اید – بحران درایت و زمان بندی و نشان می دهد که ما به کلمه سازهای ماهر و باهوش (از لحاظ احساسی) در طراحی UX و مدیریت تولید احتیاج داریم. یکی از طراحان دراپ باکس در هنگام نوشتن مطلب در وب سایت مدیوم خاطر نشان کرده است که کمپانی های مختلفی از جمله آدوبی، اسلک، اسپاتیفای، گوپرو، اینترکام و غیره، نخستین نویسنده های محصول خود را در چند سال اخیر استخدام کرده اند. هرچند که نویسنده های محصول هم اینک در همه جا ظاهر می شوند.
با این که بات های محاوره ای یک فناوری جدید به حساب می آیند و بهترین عملیات در این حوزه، معمولاً نتیجه ی غیرقطعی و مبهمی به همراه دارند، اما نلسون بر این باور است که دیالوگ های محاوره ای به یک مجموعه مهارت تخصصی تبدیل خواهد شد که طراحان UX با فراگیری آن ها می توانند خود را از سایرین متمایز کنند. طراحانی در این حوزه موفق خواهند بود که بتوانند در بیان کلمات صرفه جویی کنند: در واقع ما به همینگوی ها ( The Hemingways ) نیاز داریم، نه فالکنرها ( The Faulkners ). در این صورت سرعت پیشروی فوق العاده خواهد شد.
نلسون در این باره گفته است: اکثر افراد موفق در دیالوگ نویسی محاوره ای، آن هایی هستند که دیالوگ های برنامه های تلویزیونی، فیلم ها و چیزهایی از این قبیل را به وجود می آورند، چرا که مکالمه و محاوره، دارای الزامات بسیار متفاوت و خاصی در مقایسه با بیان منثور، اطلاعات یا مستندسازی است.
بات ها، نمودی از شخصیت خالقین خود هستند _________________
حتی با وجود نویسنده های برجسته، افزودن عمق و پیچیدگی به رابطه ی بین انسان و کامپیوتر، یک چالش بزرگ به حساب می آید که طبق گفته ی نلسون، فاصله ی بسیار زیادی تا کامل شدن دارد. مدیریت یک مکالمه ی درگیر و چند نوبتی به طور نوشتاری آسان تر است؛ مثل یک اپلیکیشن بانکداری که قرار است پولی را از طریق آن برداشت کنید، یا یک اپلیکیشن فست فود که قرار است از غذایی را از طریق آن سفارش دهید؛ اما حتی در این موارد نیز، گفتار و اهداف آن بسیار غیر قابل پیش بینی است.
نلسون در این باره توضیح داده: فرض کنید که شما یک دوست به نام دیو دارید که معمولاً درباره ی موسیقی با وی هم کلام می شوید. شما نمی دانید که دیو همچنین شخص خوبی برای صحبت درباره ی کتاب های علمی و تخیلی است، چرا که هرگز بحث درباره ی موسیقی، جریان را به سمت کتاب های علمی نمی کشاند. بدیهی است که شما نمی توانید به طور ناگهانی و شانسی بگویید: “اوه، من واقعاً کتاب های مربوط به موجودات فضایی را دوست دارم”. بنابراین مسئله ی قابلیت اکتشاف نیز در این میان مطرح است.
همانند بسیاری روابط دیگر، گفتار بین انسان و کامپیوتر نیز باید به تدریج ادامه پیدا کند ؛ والبته زمینه سازی اهمیت دارد. طبق گفته ی نلسون، وقتی یک بات یاد می گیرد که شما در چه ساعتی از منزل خارج می شوید، می تواند سؤالات جالب و کارآمدی را از شما بپرسد، مثلاً آیا مایل هستید تا پیش از خروج، وضعیت آب و هوا به شما یادآوری شود؟
البته باید به این نکته اشاره کرد که تغییر ادراک اجتماعی، شامل تغییر طرز فکر جامعه نسبت به افرادی خواهد شد که با اشیاء بی جان صحبت می کنند. یادتان هست که پیش از ظهور هدست های بلوتوث، تا چه اندازه از دیدن فردی که در حال گفتگو با خودش است، تعجب می کردید؟
یکی از نکات بسیار جالب این است که بات ها تا حدی شخصیت و خصوصیات سازندگان را به خود می گیرند. بیش از یک دهه پیش، زمانی که ورسویک پروژه ی میتسوکو را آغاز کرد، چند ویژگی را به طور مخفیانه در آن قرار داد. یک شیوه ی پاسخ دهی خاص وجود دارد که در صورت بیان آن، میتسوکو می گوید: لطفاً delete را بنویسید تا من کل وجود رباتی خود را پاک کنم.
نلسون، توسعه ی میتسوکو را با نوشتن یک رمان مقایسه می کند؛ یک چالش معقولانه ی بسیار پیچیده که در آن نویسنده باید حداکثر تلاش خود را بکند تا سبک گفتار یا رنگ موی یک شخصیت در صفحه ی ۱۰، مطابق با خصوصیات همان کاراکتر در صفحه ی ۲۱۵ باشد. با این تفاوت که عادات محاوره ای میتسوکو با سختی بیشتری نگاشت می شوند، چرا که او هر روز در حال یادگیری چیزهای جدید است.
طبق گفته ی نلسون ، توسعه ی میتسوکو را می توان همانند توسعه ی یک زبان برنامه نویسی یا کامپیوتری در نظر گرفت. در این هنگام، باید دستورالعمل های بسیار صریح را به انتزاعات بیشتر و بیشتری تبدیل کنید تا در نهایت بتوانید ورودی های بیشتری را مورد رسیدگی قرار دهید. این موضوع، یکی از چیزهایی است که ما در حال کار روی آن هستیم. چگونه ایده ی یک مکالمه یا ایده ی یک زمینه را به انتزاع تبدیل کنیم؟
نلسون می گوید: شاید هرگز قادر به انجام این کار نباشیم! اما اگر میتسوکو بتواند آینده را پیشگویی کند، آنگاه شاید به یک پاسخ مناسب برای این سؤال نزدیک شویم.