رایانه های هوشمند اکنون می توانند تا حدودی احساسات شما را درک کنند.
فرض کنید که در فرودگاه هستید و برای رسیدن به پروازی که دیر به آن رسیده اید، می دوید. شما باید سریعاً با یکی از مامورین پرواز صحبت کنید، اما همه مشغول انجام کاری هستند و صف رسیدگی به کار شما بسیار طولانی است. پس برای کمک به سمت یک ربات می روید.
ربات دستیار در طول یک مکالمه واقعی، به سؤالات شما پاسخ می دهد و علیرغم محیط پر سر و صدا، می تواند استرس موجود در صدای شما را به همراه سایر سرنخ های احساسی و هیجانی، حس کرده و تُون صدای خود را در پاسخ به شما تغییر دهد.
این سناریو با رهبری رانا گوجرال، مدیر عامل شرکت Behavioral Signals هنوز در مرحله تئوریک به سر می برد، اما ممکن است خیلی زودتر از آنچه انتظار دارید، به واقعیت تبدیل خواهد شد.
طبق گفته رانا گوجرال، در ظرف پنج سال آینده، شاهد تجارب واقعی و شگفت انگیزی خواهیم بود. کار گوجرال در حوزه رباتیک یا بازی های چت باتی نیست، بلکه در تجارت هوش مصنوعی احساسی فعالیت می کند. هوش مصنوعی احساسی ، به هوش مصنوعی گفته می شود که می تواند سیگنال ها و علائم احساسی انسان را تشخیص داده و مورد تحلیل قرار دهد. فناوری کمپانی او، اطلاعات کلامی – نظیر تون صدا ، تاکید صوتی و ریتم گفتار – را به مکالمات مرکز تماس تبدیل می کند تا تطبیق نمایش ها به صورت بهتری انجام شود.
سرفصل مطالب
هوش مصنوعی احساسی چیست؟
هوش مصنوعی احساسی یا هیجانی به هوش مصنوعی گفته می شود که سیگنال ها و علائم احساسی انسان را تشخیص داده و تفسیر می کند. منابع می توانند شامل متن ( پردازش زبان طبیعی و تحلیل احساسات )، صوت ( هوش مصنوعی احساسی صوتی )، ویدیو (تحلیل حرکت چهره ، تحلیل قدم برداشتن و سیگنال های فیزیولوژیکی ) یا ترکیبی از آن ها باشد.
هوش مصنوعی احساسی تنها به صوت محدود نمی شود. تحلیل احساسات که یکی از روش پردازش زبان طبیعی به شمار می آید، قادر به تشخیص و تعیین میزان تنش احساسی موجود در نمونه های متنی است، خواه قطعه های متن مجزا یا خواه نمونه های بزرگ با مقیاس بالا. هوش مصنوعی احساسی به حدی کامل شده که در حال حاضر به عنوان ابزاری رایج در صنایع مختلف نظیر بازاریابی ( برای تحلیل و توصیه محصولات )، امور مالی ( پیش بینی تغییر سهام ) و غیره مورد استفاده قرار می گیرد.
سیگنال های ویدیویی را نیز نباید از قلم انداخت. این سیگنال ها شامل تحلیل حالت چهره و همینطور تحلیل قدم برداشتن و تشخیص علائم فیزیولوژیکی خاص در ویدیو می شود. به عنوان مثال، هوش مصنوعی احساسی می تواند تحت شرایط مناسب، تنفس و ضربان قلب یک فرد را بدون نیاز به تماس و با استفاده از دوربین های متعدد تشخیص دهد.
در عین حال، احساس و هیجان یک ماهیت مبهم است. در ضمن، کاربرد برخی از این فناوری ها در شرایط بحرانی ممکن است مشکلاتی را به وجود آورد. در واقع، پژوهشگران مؤسسه AI Now دانشگاه نیویورک سال گذشته از قانون گذاران خواستند تا “استفاده از فناوری شناسایی تاثیرات احساسی در فرایندهای تصمیم گیری مخاطره آمیز” را ممنوع کنند. به عنوان بدیهی ترین مثال، می توان به یک سیستم استخدام اشاره کرد، که از حالات چهره و الگوهای صوتی کارجویان برای تعیین امتیاز استخدام پذیری استفاده می کند.
دکتر مک داف ، پژوهشگر مایکروسافت در این باره گفته است: ایده ی استفاده از حالات چهره برای ارزیابی افراد در مصاحبه های شغلی، فاقد پشتیبانی علمی است. مک داف محقق رایانش مؤثر چندحالته بوده که به تحلیل حرکات چهره و سیگنال های دیگری مثل سطوح فیزیولوژیکی و حرکت بدن در اپلیکیشن های حوزه ی سلامتی می پردازد.
چند حالته بودن موجب کم اهمیت جلوه دادن یکی از نکات کلیدی بسیار مهم می شود : چهره انسان هرگز نمی توانند کل داستان را تعریف کند. این موضوع که حالات چهره تا چه اندازه می تواند احساسات و عواطف را به طور قابل اطمینان انتقال دهد، هنوز به عنوان یک مسئله ی حل نشده باقی مانده است.
مک داف افزود : بدون شک حالات چهره اطلاعاتی را در مورد شخص نشان می دهند، اما نگاشت ساده بین حالت چهره و احساس واقعی افراد، کار چندان ساده ای نیست. مک داف همچنین پیشکسوت گروه رایانش مؤثر Media Lab دانشگاه MIT نیز به حساب می آید.
با توجه به مقارن بودن وعده بزرگ هوش مصنوعی احساسی و کمبودهای بالقوه، از چهار متخصص دعوت شده تا وضعیت هوش مصنوعی احساسی را برای ما توضیح دهند. منظور از وضعیت هوش مصنوعی احساسی ، روشن ساختن نحوه ی عملکرد، نحوه ی کاربرد در دنیای امروزی، نحوه ی تاثیرگذاری در اختلاف جمعیت ها، و تعیین حد و مرز برای استفاده از این فناوری است.
متخصصان عبارتند از:
* ست گرایمز ( Seth Grimes ) – مشاور پردازش زبان طبیعی، بنیانگذار آلتا پلانا و سازنده ی کنفرانس Emotion AI .
* رانا گوجرال ( Rana Gujral ) – مدیر اجرایی کمپانی Behavioral Signals .
* اسکایلر پلیس ( Skyler Place ) – مدیر علوم رفتاری کمپانی Cognito .
* دنیل مک داف ( Daniel McDuff ) – پژوهشگر اصلی در واحد هوش مصنوعی مایکروسافت .
تفکرات این متخصصان بر اساس دسته بندی های ذیل ارائه می شوند: هوش مصنوعی احساسی با محوریت متنی ، صوتی ، ویدیویی یا چندحالته .
هوش مصنوعی احساسی با محوریت متنی : پردازش زبان طبیعی و تحلیل احساسات
تحلیل احساسات به معنی کاربرد پردازش زبان طبیعی روی نمونه های متنی، جهت تشخیص مثبت یا منفی بودن احساسات بیان شده در متن ، و همچنین تعیین میزان آن ها است. به عنوان یک مثال کاربردی، کمپانی های متعددی با استفاده از روش تحلیل احساسات ، به بررسی واکنش های نوشته شده در مورد محصولات و سرویس های خود می پردازند.
هوش مصنوعی احساسی چگونه عمل می کند؟
ست گرایمز : رویکرد رایج امروزی، استفاده از یادگیری انتقالی برای مدل های از پیش آموزش یافته، است. به بیان بهتر، یک مدل از پیش آموخته شده در اختیار دارید، اما باز هم با استفاده از داده های خود، آخرین آموزش را به مدل ارائه می دهید. با سفارشی سازی و تنظیم این مدل برای کاربرد های دلخواه خود ( از طریق آموزش نهایی ) می توانید به دقت و صحت مطلوب مدل دست پیدا کنید.
یک کمپانی می تواند راه حل مناسبی برای صنعت هتلداری داشته باشد، به طوری که این راه حل شامل مجموعه ی خاصی از طبقه بندی های مختلف است. بدین ترتیب، مدل می فهمد که هتل دارای اتاق، بخش خدمات و رستوران است. مدل از ساختار تحلیل سر در می آورد. اما لزوماً نمی داند که (مثلاً) هتل های هیلتون دارای برندینگ خاصی هستند. این نوع آموزش های نهایی، طبقه بندی های و مجموعه قوانین سفارشی را به مدل اعمال می کنند. به این فرایند در دنیای امروزی، یادگیری انتقالی گفته می شود.
پیچیدگی احساسات
ست گرایمز: تحلیل احساسات هنوز هم موضوع مورد بحثی به حساب می آید، چون سؤالات بسیاری در خصوص صحت و کاربرد آن مطرح است – آیا اعداد به دست آمده با احساسات واقعی مطابقت دارند؟. برای بیان پیچیدگی، من تصویری از کوب برایان با چهره ای خندان در زمین بسکتبال را نشان می دهد و می پرسم که “این تصویر چه حسی را در شما به وجود می آورد؟” خوب، کوب برایان چند سال پیش در اثر یک سانحه غم انگیز از دنیا رفت. پس فقط چون کوب برایان در حال خنده در عکس است، اما حس شادی را در شما به وجود نمی آورد. شاید ناراحت کننده به نظر برسد، ولی ناراحتی در مورد فردی که فوت کرده در حقیقت یک احساس مثبت است. پیچیدگی های بسیاری در تحلیل احساسات وجود دارد.
کلارابریج یک مثال خوب از پیشرفت تکنولوژی است. آن ها به تحلیل احساسات پرداخته و طی چند سال اخیر، به دسته بندی های احساسی دست یافته اند. دسته بندی ها می تواند ساده باشند، مثل شادی، ناراحتی و عصبانیت، و یا سلسله مراتبی با دسته بندی های فراوان باشند – بر خلاف تنها مثبت یا منفی. تعریف اولیه برای ثبت شدت احساسات فقط مثبت یا منفی در مقیاس ۱۰- تا ۱۰+ بود – مثلاً “من خشمگین هستم”، شدت بیشتری نسبت به “من عصبانی هستم” دارد.
صحت دقیقاً چگونه تعریف می شود؟
ست گرایمز : صحت در این جهان دارای دو مؤلفه است: دقت و بازخوانی . دقت : هدف شما چیست؟ آیا می خواهید احساس کلی ( چه مثبت یا چه منفی ) را نسبت به یک محصول به دست آورید؟ خب این نتیجه گیری چندان دقیق نیست. برای مثال، یک نظر مثبت درباره ی اقامت در یک هتل را در نظر بگیرید. این نظر از چه جنبه ای مثبت است؟ از جنبه اتاق؟ کارمندان؟ گزینه های موجود برای صرف غذا؟ موقعیت مکانی؟ پس با یک تحلیل احساسات مبتنی بر جنبه مواجه هستید. این نتیجه گیری، دقت بیشتری دارد چون متمرکز تر است. شما شاید با صحت ۹۹ درصد تصمیم بگیرید که یک نظر، مثبت است یا منفی. اما عملاً باید متوجه شوید که یک نظر درباره ی چه چیزی مثبت یا منفی است؟
شرکت های متعدد از چند سال پیش، ساخت مدل های متمرکز تر را آغاز کردند- یک مدل متفاوت برای رستوران ها نسبت به هتل ها یا فروشگاه های لوازم برقی. برای مثال، باریک بودن گوشی همراه چیز خوبی است. اما اگر فردی از نازک بودن ملافه های یک هتل گله مند باشد، این چیز خوبی نیست. پس می توان به این مفهوم دست پیدا کرد که یک مدل می بایست نسبت به صنعت، متمرکز یا آموزش یافته باشد.
چه راه هایی برای سوء استفاده و کاربرد نادرست وجود دارد؟
ست گرایمز : یک سناریوی فاجعه آمیز برای متن وجود دارد: شاید از روی یک متن نوشته شده ی آنلاین یک خط بحرانی متوجه شویم که فردی قصد خودکشی دارد. چه می شود اگر کمپانی بیمه کننده ی این فرد، تصمیم بگیرد از چنین اطلاعاتی چشم پوشی کند؟ یا مثلاً بیمه کننده ی خودرو، حالت چهره ی راننده را ببیند و پیش خود بگوید: این فرد با عصبانیت در حال رانندگی است؛ پس نرخ بیمه ی او را بالا می برم، چون به احتمال زیادی تصادف خواهد کرد. این موارد اگر چه سوء استفاده به نظر برسند، یا خیر، بستگی به نظر شما دارد اما کاربرد های بالقوه و دور از انتظاری از داده های احساسی و هیجانی هستند. یعنی در واقع، سوء استفاده های بالقوه به شمار می آیند.
هوش مصنوعی احساسی صوتی
رانا گوجرال، مدیر شرکت Behavioral Signals و اسکایلر پلیس رییس علوم رفتاری در Cogito است. هر دو شرکت، سازنده ی هوش مصنوعی احساسی صوتی برای محیط های مرکز تماس هستند، اما عملکرد هر یک اندکی متفاوت نسبت به دیگری است. فناوری کوگیتو روی ارایه ی بازخورد بلادرنگ برای نمایش ها تمرکز دارد، در حالیکه فناوری Behavioral Signals در جهت یافتن بهترین انطباق بین عامل ها و افراد تماس گیرنده، قدم بر می دارد. این شرکت همچنین تنها به تحلیل اطلاعات صوتی می پردازد و سروکاری با محتوای مکالمات ندارد. این در حالی است که Cogito علاوه بر تحلیل اطلاعات صوتی، محتوای مکالمات را نیز مورد بررسی و آنالیز قرار می دهد.
هوش مصنوعی احساسی صوتی چگونه کار می کند؟
اسکایلر پلیس : بازار از مدت ها پیش روی پردازش زبان طبیعی و تحلیل احساسات تمرکز کرده است و فناوری که از صحت NLP پشتیبانی می کند روز به روز ارتقا و بهبود می یابد. در موازای این واقعیت، سازمان های متعدد از جمله Cognito تمرکز خود را روی سیگنال های صادق معطوف ساخته اند. سیگنال های صادق شامل تمام موارد موجود در کلمات ارائه شده در محاورات می شوند – مثل انرژی در صدا، وقفه ها، زیر و بم صدا و به طور کلی تمام سیگنال های متغیری که در درک نیات، اهداف و احساسات افراد مکالمه گر، به ما کمک می کند. سیگنال های صادق، سیگنال های بسیار غنی هستند.
چیزی که برای نخستین بار با آن مواجه هستیم، ادغام این دو جریان داده است. به نظر من، قابلیت ترکیب حقیقی درک NLP با سیگنال های صادق، یک جهش تکنولوژیکی به سمت جلو به شمار می آید. این دستاورد می تواند روش کاملاً جدیدی را برای درک و بهبود احساسات در محاورات، فراهم آورد.
ما از ( تقریباً ) ۲۰۰ سیگنال متفاوت برای شناسایی این رفتارها استفاده می کنیم. سپس این رفتارها را به پیامد های ارزشمند برای تماس های مرکز تماس نسبت می دهیم. ما بدین شیوه احساسات را مد نظر قرار می دهیم – کم تر برای شناسایی و بیشتر برای درک رفتارهایی که به شما اجازه می دهد علاوه بر سنجش احساسات در تعامل ها، بتوانید روی آن ها تأثیر بگذارید.
تفاوت های فرهنگی چگونه روی یافته ها تاثیر می گذارند؟
رانا گوجرال : چالش اصلی، درجه بندی مبنا است. برای مثال، نحوه ی نمایش هیجان و عصبانیت را در نظر بگیرید. نمایش هیجان و عصبانیت در صدای فرد، هر دو با گام بلند ادا می شوند، اما تفاوت خیلی ظریفی دارند. مغز انسان به راحتی می تواند تفاوت بین هیجان و عصبانیت را تشخیص دهد. حتی اگر در حال مشاهده ی یک فیلم با زبان خارجی باشید و هیچ زیرنویسی هم وجود نداشته باشد، باز هم می توانید فرق عصبانیت و هیجان را تنها بسته به تُن صدا، به راحتی تشخیص دهید. پرسش بزرگ این است که چگونه باید چنین درکی را کد گذاری کرد؟
ما به این نتیجه رسیده ایم که اگر مبنا را بر اساس یک مجموعه داده زبان جدید درجه بندی کنیم، آنگاه مبنای اصلاح یافته در تمام فرهنگ ها، تفاوت بسیار جزئی با مبنایی خواهد داشت که سیگنال های خاص اولیه را تشخیص می دهد. ما تنها به ۱۰ الی ۲۰ ساعت ثبت داده (یا حداکثر ۵۰ ساعت) برای اصلاح مجدد مبنا احتیاج داریم.
اسکایلر پلیس : این موضوع قطعاً یک مسئله مهم تلقی شده و به انحراف بالقوه ای مربوط می شود که در الگوریتم ها وجود دارد. اما با استفاده از روش ما، سیستم به خوبی عمل می کند، چون قابلیت درک نحوه ی صحبت کردن افراد در آن تعبیه شده است ( سیستم می تواند تشخیص دهد که به انگلیسی یا اسپانیایی صحبت می کنید، در نیویورک ساکن هستید یا جنوب کشور زندگی می کنید )، هرچند که معنای مفهومی صحبت ها می تواند تفاوت داشته باشد. بنابراین بسته به اهداف مکالمات و منطقه ای که فرد سخنگو از آنجا آمده است، مفهوم کلمه ی “خوب” می تواند متفاوت باشد. بنابراین ما در مراحل مختلف چرخه ی عمر محصول، به بررسی این موضوع می پردازیم.
نخست در هنگام ساخت مجموعه داده ها، متغیرهای متفاوت را مورد ارزیابی قرار داده و از نمایش آن ها در قالب داده ها اطمینان حاصل می کنیم. سپس، مفسران انسانی وارد ماجرا شده که به تماس های مختلف گوش می دهند و وقایع مختلف را به ثبت می رسانند ، مثل زمانی که یک فرد در بخشی از مکالمه خود، به سرعت حرف می زند.
تماس گیرنده ها شامل افرادی با جنسیت، سن و فرهنگ های مختلف می باشند، به طوری که تمام جنبه های کلمه ی “خوب” در تماس های تلفنی، مد نظر قرار گیرد. زمانی که به سراغ یک مشتری می رویم، یک دوره درجه بندی را آغاز می کنیم. در این دوره، به صدها و هزاران تماس در ازای یک فرهنگ خاص گوش داده و مطمئن می شویم که تنظیمات به شیوه ای مناسب و مطلوب صورت گرفته اند.
پیچیدگی احساس
رانا گوجرال : برخی خصیصه ها بسیار پیچیده هستند. هیچ سیستمی وجود ندارد که به طور کامل بتواند کنایه را تشخیص دهد. با این حال، می توان برخی خصیصه های تعاملی اصلی را مد نظر قرار داد. هیجان های اصلی به راحتی قابل سنجش هستند – عصبانیت، خوشحالی، ناراحتی، خستگی و بی تفاوت بودن. سپس به ارزیابی مثبت بودن و برانگیختگی – تغییر در تُن – و رفتارهایی نظیر مؤدب بودن، تعامل و اضطراب می پردازیم.
همچنین می توان با استفاده از داده ها و متا داده های مختص به حوزه، یک یا چند KPI ( شاخص کلیدی عملکرد ) را به وجود آورد ، مثل سنجش کیفیت تعامل یا عملکرد عامل. تمام خصیصه ها بر اساس این نوع سیگنال های پایه ساخته می شوند. البته تعداد سیگنال های ما چندان زیاد نیست، هرچند برخی آن ها دقیق تر از سایرین هستند. مثلاً برای عصبانیت، می توانیم بیش از ۹۰ درصد دقت را به وجود آوریم. اما سیگنال هایی وجود دارند که دشوارتر بوده و خوانایی آن ها پایین تر است.
چه راه هایی برای سوء استفاده و کاربرد نادرست وجود دارد؟
رانا گوجرال : مایکل کراوس، پروفسور دانشگاه ییل در یک مقاله ی پژوهشی ۲۰۱۷ نوشته است که انسان به خوبی می تواند عواطف و هیجانات خود را از حالات چهره اش مخفی کند. بنابراین، من شخصاً معتقد هستم که پیاه سازی بر اساس حالات چهره، دشوار و مشکل آفرین است. فجیع ترین وضعیت برای هوش مصنوعی، پیاده سازی غیردقیق و ناکارآمد است.
به نظرم چندین خط قرمز وجود دارند که باید آن ها را ترسیم کنیم. اولین خط، محرمانگی و انتخاب است. مصرف کننده باید آگاه و مایل به مشارکت باشد. این موضوع بسیار حائز اهمیت است. البته اصول و محدودیت های اخلاقی دیگری نیز وجود دارد. سال گذشته که به دنبال کمک مالی بودیم، با نماینده ی یک شرکت محرمانه مواجه شدیم که برای یک آژانس دولتی در اروپا و ظاهرا در حوزه ی سیستم های امنیتی کار می کرد.
این شرکت تمایل داشت تا مدل های ما را روی فرایند مهاجرت اِعمال کند. ما پیشنهاد آن ها را قبول نکردیم. اگر بحث گزینش برای (مثلاً) صدور ویزا یا اجرای سیاست های مهاجرتی در میان باشد، ترجیح می دهیم تا در چنین اموری دخالت نداشته باشیم، چرا که تأثیر مستقیم در زندگی افراد دارد. البته منظور این نیست که فناوری فعلی فاقد دقت کافی است، اما این سطح از تصمیم گیری از حوزه ی کاری ما خارج است.
چه چالش هایی پیش روی هوش مصنوعی احساسی صوتی/ صدایی است؟
رانا گوجرال : داده ها همیشه یک چالش مهم به حساب می آیند ، هر چه داده ها بیشتر باشد، بهتر است و البته کیفیت بسیار حائز اهمیت است. در محیط مرکز تماس، کیفیت بالای داده ها به نوعی تضمین می شود، چرا که داده ها به وسیله ی تجهیزات حرفه ای با تجزیه کانال و نویز بسیار پایین، رکورد و ثبت می شوند. ولی امسال، کمی متفاوت تر از همیشه بود. در سال جاری، شاهد انفجاری از تماس ها بودیم، هرچند که بسیاری از آن ها از کیفیت پایینی برخوردار بودند، چرا که عامل ها غالبا در خانه ی خود مشغول به کار هستند.
اسکایلر پلیس : یک چالش فنی بسیار جالب توجه، همگامی و تقارن سیگنال ها است، که به بار محاسباتی و پردازش سیستم های مختلف مربوط می شود. از آنجا که ما به دنبال یک راهبر بلادرنگ هستیم، پس عمده ی تلاش خود را روی کدنویسی کم تأخیر متمرکز کرده ایم. جالب اینکه با شروع ترکیب محاسبات سیگنال غیرکلامی با پردازش زبان طبیعی، متوجه شدیم که NLP دارای تأخیر بسیار بیشتری است.
پردازش زبان طبیعی یا همان NLP به پردازش محاسباتی و زمان بیشتری برای توصیف کلمات احتیاج دارند. نحوه ی ایجاد محصولی که بتواند این دو سیگنال متفاوت را به شیوه ای دقیق و در عین حال، عملی و بلادرنگ ترکیب کند، به نوبه ی خود یک پرسش طراحی واقعاً جالب به شمار می آید.
هوش مصنوعی احساسی چندحالته و ویدیویی
هوش مصنوعی احساسی چندحالته و ویدیویی چگونه عمل می کند؟
دنیل مک داف : هوش مصنوعی احساسی چندحالته و ویدیویی، به لطف سرمایه گذاری در فناوری دوربین طی ۲۰ سال اخیر، تحقق یافته است. دوربین هایی که دارای سنسورهای پرکیفیت با نویز کم هستند. در صورت استفاده از یک دوربین (حتی) با یک الگوریتم پردازش سیگنال ساده، اگر بخواهید پیکسل های پوست را مورد تحلیل قرار دهید، آنگاه می توانید سیگنال نبض را استخراج کرده و همچنین تنفس افراد ساکن را تشخیص دهید.
البته این موضوع چندان برای افراد متحرک صادق نیست، چون شرایط نوری برای افراد متحرک تغییر می کند. در ضمن، افراد مختلف دارای رنگ پوست و یا موی چهره متفاوتی هستند، این جاست که یادگیری عمیق به کمک ما می آید تا الگوریتم را در برابر انواع نویزها، تقویت کند. دوربین معمولاً به اندازه ای حساس است که می تواند سیگنال های اولیه را ثبت کند، اما اغلب تحت تأثیر تغییراتی قرار می گیرد که ربطی به تغییرات فیزیولوژیکی ندارند. یادگیری عمیق در این شرایط به کار می آید، چرا که عملکرد بسیار خوبی در مواجهه با این نگاشت های پیچیده دارد.
تفاوت های فرهنگی چگونه روی یافته ها تاثیر می گذارند؟
دنیل مک داف : قطعاً تفاوت هایی در فرهنگ های متفاوت وجود دارد. این تفاوت ها نه تنها در پایگاه دادۀ تصویری بزرگ ما، بلکه در تحقیقات روانشناسی ( چه در داده های گزارشی و چه در سنجش های نظارتی ) نیز به چشم می خورند.
به هر حال، این تفاوت ها در هنگام مقایسه با تفاوت های فردی ( حتی در فرهنگ یکسان ) بسیار کوچک هستند. برای مثال، برادر من ممکن است بسیار عاطفی تر از من باشد، با اینکه هر دو جزء یک خانواده هستیم. بنابراین حتی برای اشخاصی که دارای ریشه ی بسیار مشابهی هستند، باز هم تفاوت های فردی بسیار قابل توجه است.
البته نمی توان گفت که درک تفاوت های فرهنگی از نقطه نظر علمی و فیزیولوژیکی جالب نیست. اما وقتی بحث مدل سازی داده ها در میان است، در نهایت تنها یک منبع تغییرات باقی می ماند، حال آنکه تعداد منابع تغییرات بسیار زیاد است (مثل وضعیت، جنسیت، پس زمینه و غیره). نحوه ی برخورد با شما در هنگام بزرگ شدن، روی نحوه ی رفتار شما تأثیر می گذارد، این طور نیست؟ اگر افراد پیرامون شما جزء شخصیت های احساسی نباشند، شما نیز در نهایت احساسی نخواهید بود.
بررسی این موضوع از لحاظ فکری بسیار جذاب است، اما وقتی که بحث عملی سازی واقعی مدل ها مطرح می شود، من فکر می کنم که زمینه ی اجتماعی وضعیت از اهمیت بیشتری برخوردار می گردد. اگر بتوانید زمینه را کنترل کنید، آنگاه قادر به مقایسه ی فرهنگ ها و مشاهده ی تفاوت ها خواهید بود.
از طرف دیگر، اگر من ویدیوی شخصی را داشته باشم که در حال اجرای کارائوکه در ژاپن است، و آن را با ویدیوی فردی مقایسه کنم که در اداره خود در ایالات متحده مشغول به کار است، قطعا فرد ژاپنی تأثیرگذاری بیشتری خواهد داشت و احساسات بیشتری را برانگیخته خواهد کرد. اما این مقایسه اصلا عادلانه نیست، چون زمینه بسیار متفاوت است.
هوش مصنوعی مبتنی بر ویدیو چه کاربردی در سطح فردی دارد؟
دنیل مک داف : بسیاری از اپلیکیشن های فعلی به پاسخ های گروهی توجه دارند مثل سنجش خنده ی افراد در هنگامی که به یک تبلیغ نگاه می کنند. این سنجش معمولاً نه در ازای یک نفر، بلکه برای ۳۰ یا ۴۰ نفر انجام شده و سپس میانگین داده ها محاسبه می شود.
گروه بازاریابی به خوبی به اهمیت داده ها وافق هستند و اغلب تلاش می کنند تا آن ها را با داده های گزارشی و دیگر نوع داده ها ترکیب کنند. این کار خوب است. اما باید به این نکته توجه داشت که حاصل این کار چندان بیانگر تجربه ی شخصی افراد نیست. آن ها به حالت چهره نگاه کرده و از آن به عنوان یک معیار کیفی از پاسخگویی به زمینه استفاده می کنند.
اما زمانی که وارد حوزه ی دیگری نظیر سلامتی و بهداشت می شوید، اغلب به رفتارهای افراد توجه کرده و تلاش می کنید تا وجود علائم یا تأثیرات ناشی از یک دارو را در آن ها تشخیص دهد. برای مثال، یک بیمار مبتلا به پارکینسون را در نظر بگیرید که دارویی را برای کنترل رعشه مصرف می کند.
حال، از یک ویدیو برای تماشای سرعت از بین رفتن اثر دارو استفاده می کنید. شما باید این موضوع را از لحاظ شخصی مد نظر قرار دهید، چون افراد مختلف واکنش های متفاوتی در برابر داروها دارند. پس می توان گفت که درک سیگنال های گروهی، چندان کاربردی ندارد، چون هدف اصلی، بررسی افراد به صورت جداگانه است.
البته اپلیکیشن های بسیاری وجود دارند که این نوع شخصی سازی را لحاظ می کنند. اگر پیگیر تغییرات ضربان قلب خود هستید، باید با بدن خود آشنایی داشته باشید. چیزی که برای شما غیرعادی است، می تواند برای فردی دیگر کاملاً عادی و معمولی باشد. درک یک جمعیت شاید در بعضی موارد مفید واقع شود، اما هر فرد محدود به توانایی ها و شرایط منحصر به فرد خودش است.
چه فاصله ای تا تاثیر معنادار و مثبت داریم؟
دنیل مک داف : تجهیزاتی نظیر فیت بیت ( Fitbit ) در حال حاضر قادر به نمایش معیارهای استرس به کاربران است. شما می توانید تنوع ضربان قلب خود را در طول زمان مشاهده کنید. خواه این قابلیت از طریق یک دستگاه پوشیدنی میسر شود، خواه از طریق دوربین یا وسایل دیگر، پیشرفت چندان خاصی به شمار نمی آید، چون وابسته به سنسور بوده و ارتقای سنسور می تواند موجب ارتقای کیفیت شود.
پیشرفت بزرگ این است که از اندازه گیری به سمت چیزی قدم برداریم که واقعاً مؤثر و کارآمد باشد. برای مثال، شمارش گام ها را در نظر بگیرید. اگر شما روی ۱۰۰۰ قدم بردارید، شاید ترغیب شوید که فردا هم به پیاده روی بروید. اما زمانی که بحث سنجش استرس در میان باشد، کار خاصی از دست ارقام و سخت افزار برنمی آید.
به نظر من، حرکت از پیگیری به سمت کاربرد واقعی، هنوز امکان پذیر نیست. در حقیقت این امر ممکن است چندین سال به طول بیانجامد، چون در هنگام مواجهه با مسائل پیچیده تر مثل استرس، اهمیت شخصی سازی مداخلات و توصیه ها افزایش می یابد. بنابراین به مطالعات بیشتری روی نحوه ی تبدیل داده های مربوط به پیگیری به بینش مورد نیاز جهت بهبود کاربرد سیستم است.
چه راه هایی برای سوء استفاده و کاربرد نادرست وجود دارد؟
دنیل مک داف : دست کم شواهد محکم و مستدلی باید جهت اثبات ارتباط این سیگنال ها با زمینه و محتوای مشخص وجود داشته باشد. این مورد، اولین چیزی است که در هنگام راه حل یابی به ذهن من می رسد. یکی دیگر از ملاحظات مهم، جمعیت است. هوش مصنوعی برای خودکار سازی به کار می رود. اما جامعه ای که تحت اِعمال هوش مصنوعی قرار می گیرد، اغلب به سمت آسیب پذیری میل می کند.
اگر شما برای شغلی درخواست داده باشید، شما آسیب پذیر هستید، چرا که کمپانی در صدر قدرت برای استخدام یا عدم استخدام شما است. همین موضوع را می توان برای بچه های یک کلاس درسی نیز مطرح ساخت. دانش آموزان آسیب پذیری بیشتری نسبت به معلم ها دارند. تکنولوژی باید به شیوه ی درستی مورد استفاده قرار گیرد، به نحوی که قدرت در اختیار انسان باشد، وگرنه فرایندها به تدریج پیچیده تر شده و شفافیت خود را از دست می دهند.
به عنوان مثال دیگر، می توان به مراقبت از امتحان اشاره کرد. حال که همه چیز حالت کنترل از راه دور به خود گرفته است، افراد از سیستم های مختلف برای بازرسی و جلوگیری از تقلب در امتحانات استفاده می کنند. خب، این موضوع مشکل ساز است، چون یک الگوریتم نمی تواند همه ی تفاوت های ظریف را تشخیص دهد، این طور نیست؟ اگر به اشتباه به فردی برچسب تقلب زده شود، آن فرد قطعاً آسیب می بیند و اعتبار خود را به ناحق از دست خواهد داد. بنابراین باید به دنبال راه حل بهتری بود – تنها کافیست یادگیری ماشین را به مسئله اضافه کنید.
نگاشت یک به یک بین افراد وجود ندارد
دنیل مک داف : نگاشت یک به یک بین وضعیت فیزیولوژیکی و حالات چهره ما وجود ندارد، که بتوان آن را به یک جمعیت تعمیم داد. برخی افراد از گرم شدن بدنشان لذت می برند. معتادان آدرنالین در صورت دریافت آن، احساس خوبی پیدا می کنند. اما برخی دیگر در هنگام دریافت این نوع تغییرات فیزیولوژیکی، حالت عصبی به خود می گیرند.
یک تغییر فیزیولوژیکی ممکن است تاثیر متفاوتی برای دو فرد مختلف داشته باشد. این موضوع واقعاً چالش برانگیز و مشکل ساز است، اما بدین معنی نیست که قابلیت حس و درک افراد، به کار نمی آید. ما باید این کار را به شیوه ای شخصی سازی شده و انطباقی انجام داده و انسان ها را به چرخه ی آموزش ماشین ها اضافه کنیم.
یک راه حل این است که از کاربر انسانی بخواهیم تا به ماشین آموزش دهد؛ بدین صورت که هر یک از حالات چهره یا هر تغییر فیزیولوژیکی، چه معنایی برای او دارد. شما آموزگار و مربی ماشین هستید و با گذشت زمان، ماشین یاد می گیرد که چگونه نگاشت بین رفتارها و احساسات شما را انجام دهد. این موضوع، بزرگ ترین مسئله از لحاظ افزایش کارایی و ایمنی فناوری ما است.
از طرف دیگر، به طور بدیهی شما مایل به استفاده از یک ابزار کُند و ابتدایی نیستید. خندیدن به احتمال زیاد نشانه ی مثبتی است، اما استثناهایی وجود دارد. خندیدن می تواند یک برچسب حالتی باشد، اما واریانس بزرگی در این میان است. بنابراین شخصی سازی مهم ترین مسئله ای بوده که باید به آن رسیدگی کرد و البته هنوز راه حل کاملی برای آن پیدا نشده است. روش های زیادی برای ایجاد مبنا و درجه بندی چیزها وجود دارند، اما راه زیادی تا مقصد نهایی باقی مانده است.
با سلام
منبع این مطالب مقاله خاشی هست؟
منبع مقاله انتهای پست ذکر شده