شبیه سازی صدا با هوش مصنوعی تنها در 3 ثانیه

به گزارش وبلاگ ویکی، زومیت نوشت: مدل هوش مصنوعی مایکروسافت می تواند لحن احساسی و نوع بیان هر شخصی را با دقت بسیار بالا شبیه سازی کند.

شبیه سازی صدا با هوش مصنوعی تنها در 3 ثانیه

محققان مایکروسافت یک مدل تازه هوش مصنوعیتبدیل متن به گفتار به نام VALL-E معرفی نموده اند که می تواند صدای افراد را با نمونه صوتی سه ثانیه ای از صدای آن ها، شبیه سازی نمایند. این مدل پس از یادگیری صدای خاص، می تواند آن را با هر چیزی که می گویید ترکیب کند و این کار را به نحوی انجام می دهد که لحن احساسی گوینده اصلی حفظ گردد.

سازندگان VALL-E حدس می زنند این مدل هوش مصنوعی می تواند برای برنامه های کاربردی تبدیل متن به گفتار با کیفیت بالا یا برنامه های ویرایش گفتار که در آن صدای ضبط شده یک شخص می تواند ویرایش گردد مورد استفاده قرار گیرد. این مدل بعلاوه می تواند با ترکیب سایر مدل های هوش مصنوعی مثل GPT-3 برای ایجاد محتوای صوتی استفاده گردد.

مایکروسافت VALL-E را مدل زبان کدک عصبی می نامد و از کدهای کدک صوتی EnCodec که متا آن را در اکتبر 2022 معرفی کرد، استفاده می نماید. این فناوری اساساً حالت صدای یک شخص را تجزیه وتحلیل و اطلاعات به دست آمده را به اجزای جداگانه که توکن نامیده می شوند تبدیل می نماید. در مرحله بعد از داده های آموزشی برای مطابقت با آن چه درمورد صدای شخص می داند بهره می برد. مایکروسافت می گوید:

VALL-E برای ترکیب گفتار شخصی شده نشانه های صوتی را از صدای سه ثانیه ای شخص موردنظر ثبت می نماید و درنهایت از آن ها برای سنتز شکل موج نهایی با رمزگشایی کدک عصبی مربوطه بهره می برد.

مایکروسافت قابلیت سنتز گفتار VALL-E را روی کتابخانه صوتی LibriLight متا آموزش داد. این فرآیند شامل 60 هزار ساعت سخنرانی به زبان انگلیسی از بیش از هفت هزار سخنران است که عمدتاً از کتاب های صوتی عمومی LibriVox استخراج شده اند. برای اینکه VALL-E نتیجه خوبی ایجاد کند صدای نمونه سه ثانیه ای باید دقیقاً با صدای داده های آموزشی مطابقت داشته باشد.

مایکروسافت در وب سایت نمونه VALL-E، ده ها نمونه صوتی از مدل هوش مصنوعی، ارائه داده است. در میان نمونه ها، Speaker Prompt صدای سه ثانیه ای ارائه شده به VALL-E است که باید از آن تقلید کند. در این وب سایت صدای سه ثانیه ای نمونه مربوط به همان گوینده است که یک عبارت خاص را برای مقاصد آزمایشی بیان می نماید. Baseline نمونه ای از سنتر است که با روش سنتز متن به گفتار ارائه می گردد و نمونه VALL-E خروجی ایجاد شده با هوش مصنوعی را ارائه می دهد.

به نوشته ArsTechnica، درحالی که از VALL-E برای ایجاد نتایج استفاده می گردد، محققان فقط نمونه سه ثانیه ای Speaker Prompt و یک رشته متن که می خواهند با آن صوت بیان گردد را به VALL-E ارائه دادند. در بعضی موارد، این دو نمونه بسیار نزدیک هستند. به نظر می رسد بعضی از نتایج این هوش مصنوعی با رایانه ایجاد شده اند اما بعضی دیگر به طور بالقوه می توانند با گفتار انسان اشتباه گرفته شوند که درواقع این مورد، هدف اصلی مدل هوش مصنوعی است.

VALL-E علاوه بر حفظ لحن صوتی و احساسی گوینده، می تواند از محیط آکوستیک نمونه صوتی نیز تقلید کند. به عنوان مثال، اگر نمونه از یک تماس تلفنی گرفته شده باشد، خروجی صدا ویژگی های صوتی و فرکانس یک تماس تلفنی را در خروجی سنتزشده خود شبیه سازی می نماید و نمونه های مایکروسافت نشان می دهد VALL-E قادر است با تغییر دامنه تصادفی مورداستفاده در فرآیند فراوری صدا، تغییراتی در تُن آن ایجاد کند.

شاید مایکروسافت به علت توانایی VALL-E در تحریک احتمالی شیطنت و فریب، کد آن را برای آزمایش به دیگران ارائه نداده است. بنابراین درحال حاضر نمی توان قابلیت های این هوش مصنوعی را آزمایش کرد. به نظر می رسد محققان از آسیب اجتماعی بالقوه ای که این فناوری می تواند به همراه داشته باشد مطلع هستند. در بخشی از نتیجه گیری این مقاله آمده است:

از آنجا که گفتار ایجاد شده با VALL-E می تواند هویت گوینده را حفظ کند، شاید خطرات بالقوه ای در استفاده نادرست از مدل وجود داشته باشد که از جمله می توان به جعل هویت صدا یا جعل هویت یک گوینده خاص اشاره نمود. برای کاهش چینین خطراتی می توان یک مدل تشخیص برای تمایز ایجاد کرد. بدین ترتیب تعیین می گردد آیا کلید صوتی با VALL-E ایجاد شده است یا خیر. ما بعلاوه اصول هوش مصنوعی مایکروسافت را در توسعه بیشتر مدل های به کار خواهیم برد.

227227

منبع: خبرآنلاین

به "شبیه سازی صدا با هوش مصنوعی تنها در 3 ثانیه" امتیاز دهید

امتیاز دهید:

دیدگاه های مرتبط با "شبیه سازی صدا با هوش مصنوعی تنها در 3 ثانیه"

* نظرتان را در مورد این مقاله با ما درمیان بگذارید