هوش مصنوعی مولد به دلیل توانایی خود در ایجاد متن و تصاویر بسیار مورد توجه قرار گرفته است. اما این رسانه ها تنها بخشی از داده هایی را نشان می دهند که امروزه در جامعه ما تکثیر می شوند. هر بار که یک بیمار از سیستم پزشکی عبور می کند، یک طوفان بر یک پرواز تأثیر می گذارد یا یک فرد با یک برنامه نرم افزاری تعامل می کند، داده ها تولید می شود.
استفاده از هوش مصنوعی مولد برای ایجاد دادههای مصنوعی واقعی حول آن سناریوها میتواند به سازمانها کمک کند تا بیماران را به طور مؤثرتری درمان کنند، هواپیماها را تغییر مسیر دهند، یا پلتفرمهای نرمافزاری را بهبود بخشند – به ویژه در سناریوهایی که دادههای دنیای واقعی محدود یا حساس هستند.
در سه سال گذشته، MIT spinout DataCebo یک سیستم نرم افزاری تولیدی به نام Synthetic Data Vault ارائه کرده است تا به سازمان ها کمک کند تا داده های مصنوعی را برای انجام کارهایی مانند آزمایش برنامه های نرم افزاری و آموزش مدل های یادگیری ماشینی ایجاد کنند.
Synthetic Data Vault یا SDV بیش از ۱ میلیون بار دانلود شده است و بیش از ۱۰۰۰۰ دانشمند داده از کتابخانه منبع باز برای تولید داده های جدولی مصنوعی استفاده می کنند. بنیانگذاران – دانشمند پژوهشی اصلی Kalyan Veeramachaneni و فارغ التحصیل Neha Patki ’15, SM ’16 – معتقدند موفقیت شرکت به دلیل توانایی SDV در ایجاد انقلابی در تست نرم افزار است.
SDV ویروسی می شود
در سال ۲۰۱۶، گروه Veeramachaneni در آزمایشگاه دادهها به هوش مصنوعی مجموعهای از ابزارهای مولد منبع باز AI را برای کمک به سازمانها برای ایجاد دادههای مصنوعی که با ویژگیهای آماری دادههای واقعی مطابقت دارد، رونمایی کرد.
شرکت ها می توانند از داده های مصنوعی به جای اطلاعات حساس در برنامه ها استفاده کنند و در عین حال روابط آماری بین نقاط داده را حفظ کنند. شرکتها همچنین میتوانند از دادههای مصنوعی برای اجرای نرمافزار جدید از طریق شبیهسازی استفاده کنند تا قبل از انتشار عمومی، عملکرد آن را ببینند.
گروه Veeramachaneni با این مشکل مواجه شد زیرا با شرکت هایی کار می کرد که می خواستند داده های خود را برای تحقیق به اشتراک بگذارند.
Patki توضیح می دهد: “MIT به شما کمک می کند تا همه این موارد استفاده مختلف را ببینید.” “شما با شرکت های مالی و شرکت های مراقبت های بهداشتی کار می کنید، و همه این پروژه ها برای تدوین راه حل ها در صنایع مفید هستند.”
در سال ۲۰۲۰، محققان DataCebo را برای ایجاد ویژگی های SDV بیشتر برای سازمان های بزرگتر تأسیس کردند. از آن زمان، موارد استفاده به همان اندازه که متفاوت بوده اند، چشمگیر بوده اند.
به عنوان مثال، با شبیه ساز پرواز جدید DataCebo، خطوط هوایی می توانند برای رویدادهای آب و هوایی نادر به گونه ای برنامه ریزی کنند که تنها با استفاده از داده های تاریخی غیرممکن باشد. در برنامه دیگری، کاربران SDV سوابق پزشکی را برای پیشبینی نتایج سلامتی بیماران مبتلا به فیبروز کیستیک ترکیب کردند. تیمی از نروژ اخیراً از SDV برای ایجاد دادههای مصنوعی دانشآموزی استفاده کرد تا ارزیابی کند که آیا سیاستهای مختلف پذیرش شایستهسالانه و عاری از تعصب هستند.
در سال ۲۰۲۱، پلتفرم علم داده Kaggle میزبان مسابقه ای برای دانشمندان داده بود که از SDV برای ایجاد مجموعه داده های مصنوعی برای جلوگیری از استفاده از داده های اختصاصی استفاده کردند. تقریباً ۳۰۰۰۰ دانشمند داده شرکت کردند و بر اساس داده های واقع بینانه شرکت راه حل هایی ساختند و نتایج را پیش بینی کردند.
و همانطور که DataCebo رشد کرده است، به ریشه های MIT خود وفادار مانده است: همه کارکنان فعلی شرکت فارغ التحصیلان MIT هستند.
تست نرم افزار سوپر شارژ
اگرچه ابزارهای منبع باز آنها برای موارد مختلف استفاده می شود، این شرکت بر روی افزایش کشش خود در تست نرم افزار متمرکز است.
Veeramachaneni می گوید: «شما برای آزمایش این نرم افزارها به داده نیاز دارید. “به طور سنتی، توسعه دهندگان به صورت دستی اسکریپت هایی را برای ایجاد داده های مصنوعی می نویسند. با مدلهای مولد، که با استفاده از SDV ایجاد میشوند، میتوانید از نمونهای از دادههای جمعآوریشده یاد بگیرید و سپس حجم زیادی از دادههای مصنوعی (که دارای ویژگیهای مشابه دادههای واقعی است) را نمونهبرداری کنید، یا سناریوها و موارد لبهای خاص ایجاد کنید و از دادهها استفاده کنید. برنامه خود را آزمایش کنید.»
برای مثال، اگر بانکی بخواهد برنامهای را آزمایش کند که برای رد نقل و انتقالات از حسابهایی که پولی در آنها وجود ندارد، باید بسیاری از حسابها را در حال انجام معاملات همزمان شبیهسازی کند. انجام این کار با داده های ایجاد شده به صورت دستی زمان زیادی می برد. با مدلهای تولیدی DataCebo، مشتریان میتوانند هر لبهای را که میخواهند آزمایش کنند ایجاد کنند.
پتکی میگوید: «برای صنایع معمول است که دادههایی داشته باشند که در برخی ظرفیتها حساس هستند. «اغلب وقتی در دامنهای با دادههای حساس هستید، با مقررات سروکار دارید، و حتی اگر مقررات قانونی وجود نداشته باشد، به نفع شرکتها است که در مورد اینکه چه کسی در چه زمانی به چه زمانی دسترسی پیدا میکند، کوشا باشند. بنابراین، داده های مصنوعی همیشه از منظر حفظ حریم خصوصی بهتر است.
مقیاس گذاری داده های مصنوعی
Veeramachaneni بر این باور است که DataCebo در حال پیشرفت در زمینه چیزی است که آن را داده های سازمانی مصنوعی یا داده های تولید شده از رفتار کاربر در برنامه های نرم افزاری شرکت های بزرگ می نامد.
Veeramachaneni میگوید: «دادههای سازمانی از این نوع پیچیده هستند و برخلاف دادههای زبان، هیچ دسترسی جهانی به آن وجود ندارد. وقتی مردم از نرمافزار در دسترس عموم ما استفاده میکنند و اگر روی یک الگوی خاص کار میکند گزارش میدهند، ما بسیاری از این الگوهای منحصربهفرد را یاد میگیریم و به ما امکان میدهد الگوریتمهایمان را بهبود ببخشیم. از یک منظر، ما در حال ساخت مجموعه ای از این الگوهای پیچیده هستیم که برای زبان و تصاویر به راحتی در دسترس است. “
DataCebo همچنین اخیراً ویژگی هایی را برای بهبود سودمندی SDV منتشر کرده است، از جمله ابزارهایی برای ارزیابی “واقع گرایی” داده های تولید شده، به نام کتابخانه SDMetrics و همچنین راهی برای مقایسه عملکرد مدل ها به نام SDGym.
Veeramachaneni میگوید: «این در مورد اطمینان از اعتماد سازمانها به این دادههای جدید است. [ابزارهای ما] داده های مصنوعی قابل برنامه ریزی را ارائه می دهند، به این معنی که به شرکت ها اجازه می دهیم بینش و شهود خاص خود را برای ساخت مدل های شفاف تر وارد کنند.
از آنجایی که شرکتها در هر صنعتی برای استفاده از هوش مصنوعی و سایر ابزارهای علم داده عجله دارند، DataCebo در نهایت به آنها کمک میکند تا این کار را به روشی شفافتر و مسئولانهتر انجام دهند.
Veeramachaneni میگوید: «در چند سال آینده، دادههای مصنوعی از مدلهای تولیدی، همه کار دادهها را متحول خواهند کرد. ما معتقدیم ۹۰ درصد از عملیات سازمانی را می توان با داده های مصنوعی انجام داد.
منبع : mit