
دیپفیک ویدیویی بدین معنا است که ما نمیتوانیم به هر آنچه که میبینیم، اعتماد کنیم. حال دیپفیک صوتی نیز بدین معنا است که دیگر گوشهای ما قابل اعتماد نیستند. چنین فناوریهایی باعث میشوند تا مشکلات بشر روزبهروز افزایش یابند. در قرن بیستم تنها نگرانی تکنولوژیک انسانها، به مسائلی همانند بمبهای اتمی و شیمیایی مربوط میشد، اما اکنون این دامنه گسترش یافته است.
در چند سال گذشته نگرانیهای مختلفی در مورد ماشینها و بیماریهای همهگیر به وجود آمده و حال نیز نوبت به دیپفیک صوتی رسیده است؛ چیزی که باعث میشود تا مردم اعتماد به صدای یکدیگر را نیز از دست بدهند.
دیپفیک صوتی چیست؟
به احتمال زیاد، ویدیوهای دیپفیک را مشاهده کردهاید. در این ویدیوها از الگوریتمهای یادگیری عمیق استفاده شده و بدین ترتیب رفتارهای دو نفر با یکدیگر جایگزین میشوند. در صدای دیپفیک یک صوت شبیهسازی شده غیرقابل تشخیص استفاده شده تا بدین ترتیب بتوان صدای مصنوعی فرد موردنظر را تولید کرد؛ دقیقا همانند فتوشاپ کردن صدا.
حداقل فتوشاپهای غیرحرفهای را میتوان تشخیص داد، اما در مورد دیپفیک صوتی فقط میتوان حدس زد، آن هم با میزان درستی 57 درصد! علاوه بر این، از آنجایی که بسیاری از ضبطهای صدا توسط میکروفن گوشیها انجام میپذیرد (یا در محیطهای پر سروصدا)، پس دیپفیک صوتی میتوانند بهتر کار خود را انجام دهد. حال سؤال اینجا است که چرا یک شخص باید به فتوشاپ کردن صدا بپردازد؟
توجیه تولید صدای مصنوعی
یکی از این موارد به صنعت بازیهای ویدیویی مربوط میشود. در گذشته امکان نداشت که صدا را به محض درخواست، ایجاد کرد. حتی در عناوین تعاملی که از گرافیک سینمایی نیز برخوردار هستند، ارتباطات کلامی با شخصیتهای غیرقابل بازی، چندان پویا به نظر نمیرسند.
حال با پیشرفت فناوری، استودیوهای بازیسازی نیز میتوانند صدای شخصیتها را شبیهسازی کرده و با استفاده از یک موتور تبدیل کننده متن به صوت، سخنان شخصیتهای درون بازیها را پویاتر نشان دهند. در واقع این فرایند در زمان واقعی رخ داده و از پیش تعیین و رندر نمیشود.
البته این فناوری استفادههایی نیز در تبلیغات، فناوری و خدمات پشتیبانی از مشتریان دارد. در اینجا نیز صدای یک انسان قابل اعتماد شبیهسازی شده و متون گفتار نیز توسط هوش مصنوعی تعیین و ادا میشوند. شرکتهای شبیهسازی صدا، در مورد کاربردهای پزشکی این فناوری نیز هیجانزده هستند. البته این موضوع چندان جدید نبوده و در واقع استیون هاوکینگ نیز از صدای مصنوعی استفاده میکرد. اما حال چنین مواردی میتوانند بهبود بیشتری را تجربه کنند.
در سال 2008، شرکت شبیهسازی صدای CereProc، صدای راجر ایبرت (Roger Ebert) را پس از سرطان گرفتن وی، شبیهسازی کرد. همچنین این شرکت وبسایتی را نیز ایجاد کرده بود که در آن مردم میتوانستند متنی را تایپ کرده و سپس این متن با صدای جورج بوش، بیان شود.

صدای شبیهسازی شده چگونه کار میکند؟
شبیهسازی صدا در حال حاضر از محبوبیت مناسبی برخوردار است. شرکتهایی همانند Resemble AI و Descript وبسایتهایی را دایر کردهاند که میتوانید در آنها بهصورت رایگان، صدای خود را شبیهسازی کنید. در این زمینه هوش مصنوعی و مخصوصا الگوریتمهای یادگیری عمیق هستند که میتوانند صدای ضبط شده را با متن مربوطه تطبیق داده و در نتیجه صدای شما را شبیهسازی کنند. در ادامه هوش مصنوعی از بلوکهای ساختاری زبان استفاده کرده تا بدین ترتیب بتواند تقریبی از کلماتی را که تا به حال از زبان شما نشنیده، به دست آورد.
متیو آیلت (Matthew Aylett)؛ مدیر ارشد علمی شرکت CereProc میگوید: “پایه این فناوری مدتها است که وجود دارد، اما تنها به مقداری کمک نیاز دارد. کپی کردن صدا همانند درست کردت شیرینی است. این کار کمی سخت بوده و همچنین راههای مختلفی نیز جهت انجام آن وجود دارند.”
توسعهدهندگان جهت کسب نتایج مورد قبول، به مقادیر زیادی از صداهای ضبط شده نیاز دارند. چند سال پیش، دانشمندان شبکههای GAN را توسعه دادند. بدین ترتیب برای اولین بار، امکان قیاس از دادههای موجود فراهم شد. آیلت میگوید: “به جای اینکه یک رایانه، تصویری را از یک اسب مشاهده کند و بگوید که این اسب است، مدل من اکنون میتواند یک اسب را به یک گورخر تبدیل کند. بنابراین پیشرفتهای شبیهسازی صدا، مدیون تلاشهای آکادمیک حوزه رایانه هستند.”
یکی از مهمترین پیشرفتها در زمینه شبیهسازی صدا، مربوط به کاهش حجم صدای اولیه موردنیاز است. در گذشته حجم بالایی از صدای شخص موردنیاز بود، اما اکنون تنها چند دقیقه کافی است.

برای خرید پرینتر و لوازم جانبی مورد نظر خود میتوانید به فروشگاه اینترنتی دیجی کارتریج رجوع کنید.
شماره تماس : 02188912035
ساعات کاری: شنبه تا چهارشنبه ۹ صبح الی ۸ شب و پنجشنبه ها از ۹ صبح الی ۳ عصر
آدرس سایت ما : digicartridge
دیدگاهتان را بنویسید