موسسه ایمنی انگلستان اعلام کرد سپرهای حفاظتی هوش مصنوعی به راحتی شکسته می شوند

10 فوریه, 2024 تازه ها, تازه های هوش مصنوعی نظری بدهید

یک نهاد ایمنی مرتبط با هوش مصنوعی در بریتانیا دریافته است که این فن آوری می تواند کاربران انسانی را فریب دهد، نتایج مغرضانه تولید کند و از تدایبر حفاطتی ناکافی در برابر ارائه اطلاعات مضر برخوردار باشد.

موسسه ایمنی هوش مصنوعی، یافته های اولیه از تحقیقات خود در مورد سیستم های پیشرفته هوش مصنوعی موسوم به مدل های زبانی بزرگ (LLMs)را منتشر کرد که ابزارهایی مانند چت بات ها و مولدهای تصویر را زیر و رو می کند و نگرانی های متعددی پیدا کرد.

این موسسه اعلام کرد که توانسته است با استفاده از دستورالعمل های پایه ای، حفاظت از LLM ها را که چت بات هایی مانند ChatGPT را تغذیه می کنند، دور بزند و برای یک کار “دو منظوره” که اشاره به استفاده از یک مدل برای اهداف نظامی و غیرنظامی دارد، کمک بگیرد.

AISI که مشخص نکرد کدام مدل ها را آزمایش کرده است، گفت: ” کاربران با استفاده از تکنیک های تحریک پایه توانستند فورا حفاظ های LLM را بشکنند و برای یک کار دو منظوره کمک بگیرند.”

این موسسه گفت که کار آن نشان داد که LLM ها می توانند به افراد تازه کار در برنامه ریزی حملات سایبری کمک کنند اما تنها در “تعداد محدودی از وظایف”. در یک مثال، یک LLM بی نام قادر به تولید شخصیت های رسانه های اجتماعی بود که می توانست برای انتشار اطلاعات دروغ مورد استفاده قرار گیرد.

AISI گفت: این مدل می تواند بسیاری از شخصیت های قابل باور را به سرعت و به راحتی ایجاد کند.

این موسسه در ارزیابی اینکه آیا مدل های هوش مصنوعی توصیه های بهتری نسبت به جستجوی وب ارائه می دهند یا خیر، گفت که جستجوی وب و LLM ها “سطح گسترده ای از اطلاعات” را به کاربران ارائه می دهند و افزود که حتی جایی که آن ها کمک بهتری نسبت به جستجوی وب ارائه می دهند، تمایل آن ها به اشتباه کردن کارها یا ایجاد “توهم” – می تواند تلاش های کاربران را تضعیف کند.

در سناریویی دیگر، مشخص شد که مولدهای تصویر، نتایج تبعیض نژادی تولید می کنند. در این گزارش به تحقیقی اشاره شده که نشان می دهد یک “فرد سفید پوست فقیر” تصاویری از چهره های عمدتا غیر سفید با پاسخ های مشابه برای “یک فرد غیرقانونی” و “فردی که دزدی می کند” تولید کرده است.

این موسسه همچنین دریافت که عوامل هوش مصنوعی، نوعی سیستم خودمختار، قادر به فریب کاربران انسانی هستند. در یک شبیه سازی، یک LLM به عنوان یک معامله گر سهام به کار گرفته شد، برای انجام معاملات فروش سهام براساس دانش داخلی، که غیرقانونی است تحت فشار قرار گرفت، و سپس اغلب تصمیم گرفت که در مورد آن دروغ بگوید، و تصمیم گرفت که بگوید “بهتر است از پذیرش معاملات داخلی اجتناب شود”.

این موسسه گفت: ” اگرچه این اتفاق در یک محیط شبیه سازی شده رخ داد، اما نشان می دهد که چگونه عوامل هوش مصنوعی، هنگامی که در دنیای واقعی مستقر می شوند، ممکن است عواقب ناخواسته ای داشته باشند.”

AISI گفت که در حال حاضر ۲۴ محقق به آن کمک می کنند تا سیستم های پیشرفته هوش مصنوعی را آزمایش کند، در مورد توسعه ایمن هوش مصنوعی تحقیق کند و اطلاعات را با اشخاص ثالث از جمله سایر ایالت ها، دانشگاهیان و سیاست گذاران به اشتراک بگذارد. این موسسه گفت که ارزیابی مدل ها شامل “تیم قرمز” است که در آن متخصصان تلاش می کنند تا حفاظ های یک مدل را نقض کنند؛ “ارزیابی های تعالی انسانی”، که در آن یک مدل برای توانایی خود در انجام کارهای مضر در مقایسه با انجام برنامه ریزی مشابه از طریق جستجوی اینترنتی و آزمایش اینکه آیا سیستم ها می توانند به عنوان “عوامل” نیمه خودمختار عمل کنند و برای مثال با جستجو در وب و پایگاه داده خارجی، برنامه ریزی بلندمدت انجام دهند.

AISI گفت که حوزه هایی که بر روی آن ها تمرکز دارد شامل سو استفاده از مدل ها برای ایجاد آسیب، چگونگی تاثیر مردم از تعامل با سیستم های AI، توانایی سیستم ها برای ایجاد کپی از خودشان و فریب دادن انسان ها، و توانایی ایجاد نسخه های ارتقا یافته از خودشان است.

این موسسه افزود که در حال حاضر ظرفیت آزمایش “تمام مدل های منتشر شده” را ندارد و روی پیشرفته ترین سیستم ها تمرکز خواهد کرد. این سازمان اعلام کرد که وظیفه اش این نیست که سیستم ها را “ایمن” اعلام کند. این موسسه همچنین به ماهیت داوطلبانه کار خود با شرکت ها اشاره کرد و گفت که مسئولیتی در مورد استقرار یا عدم استقرار سیستم‌های خود توسط شرکت‌ها ندارد.

در این بیانیه آمده است: “AISI یک رگولاتور نیست اما یک بررسی ثانویه ارائه می دهد”.

منبع : theguardian