دسته بندی نشده مطالب آموزشی

دیپ‌فیک صوتی چیست؟

نویسنده آرش محمدی
۲۲ مرداد ۱۳۹۹

دیپ‌فیک ویدیویی بدین معنا است که ما نمی‌توانیم به هر آنچه که می‌بینیم، اعتماد کنیم. حال دیپ‌فیک صوتی نیز بدین معنا است که دیگر گوش‌های ما قابل اعتماد نیستند. چنین فناوری‌هایی باعث می‌شوند تا مشکلات بشر روزبه‌روز افزایش یابند. در قرن بیستم تنها نگرانی تکنولوژیک انسان‌ها، به مسائلی همانند بمب‌های اتمی و شیمیایی مربوط می‌شد، اما اکنون این دامنه گسترش یافته است.

در چند سال گذشته نگرانی‌های مختلفی در مورد ماشین‌ها و بیماری‌های همه‌گیر به وجود آمده و حال نیز نوبت به دیپ‌فیک صوتی رسیده است؛ چیزی که باعث می‌شود تا مردم اعتماد به صدای یکدیگر را نیز از دست بدهند.

دیپ‌فیک صوتی چیست؟

به احتمال زیاد، ویدیوهای دیپ‌فیک را مشاهده کرده‌اید. در این ویدیوها از الگوریتم‌های یادگیری عمیق استفاده شده و بدین ترتیب رفتارهای دو نفر با یکدیگر جایگزین می‌شوند. در صدای دیپ‌فیک یک صوت شبیه‌سازی شده غیرقابل تشخیص استفاده شده تا بدین ترتیب بتوان صدای مصنوعی فرد موردنظر را تولید کرد؛ دقیقا همانند فتوشاپ کردن صدا.

حداقل فتوشاپ‌های غیرحرفه‌ای را می‌توان تشخیص داد، اما در مورد دیپ‌فیک صوتی فقط می‌توان حدس زد، آن هم با میزان درستی 57 درصد! علاوه بر این، از آنجایی که بسیاری از ضبط‌های صدا توسط میکروفن گوشی‌ها انجام می‌پذیرد (یا در محیط‌های پر سروصدا)، پس دیپ‌فیک صوتی می‌توانند بهتر کار خود را انجام دهد. حال سؤال اینجا است که چرا یک شخص باید به فتوشاپ کردن صدا بپردازد؟

توجیه تولید صدای مصنوعی

یکی از این موارد به صنعت بازی‌های ویدیویی مربوط می‌شود. در گذشته امکان نداشت که صدا را به محض درخواست، ایجاد کرد. حتی در عناوین تعاملی که از گرافیک سینمایی نیز برخوردار هستند، ارتباطات کلامی با شخصیت‌های غیرقابل بازی، چندان پویا به نظر نمی‌رسند.

حال با پیشرفت فناوری، استودیوهای بازی‌سازی نیز می‌توانند صدای شخصیت‌ها را شبیه‌سازی کرده و با استفاده از یک موتور تبدیل کننده متن به صوت، سخنان شخصیت‌های درون بازی‌ها را پویاتر نشان دهند. در واقع این فرایند در زمان واقعی رخ داده و از پیش تعیین و رندر نمی‌شود.

البته این فناوری استفاده‌هایی نیز در تبلیغات، فناوری و خدمات پشتیبانی از مشتریان دارد. در اینجا نیز صدای یک انسان قابل اعتماد شبیه‌سازی شده و متون گفتار نیز توسط هوش مصنوعی تعیین و ادا می‌شوند. شرکت‌های شبیه‌سازی صدا، در مورد کاربردهای پزشکی این فناوری نیز هیجان‌زده هستند. البته این موضوع چندان جدید نبوده و در واقع استیون هاوکینگ نیز از صدای مصنوعی استفاده می‌کرد. اما حال چنین مواردی می‌توانند بهبود بیشتری را تجربه کنند.

‌در سال 2008، شرکت شبیه‌سازی صدای CereProc، صدای راجر ایبرت (Roger Ebert) را پس از سرطان گرفتن وی، شبیه‌سازی کرد. همچنین این شرکت وب‌سایتی را نیز ایجاد کرده بود که در آن مردم می‌توانستند متنی را تایپ کرده و سپس این متن با صدای جورج بوش، بیان شود.

صدای شبیه‌سازی شده چگونه کار می‌کند؟

شبیه‌سازی صدا در حال حاضر از محبوبیت مناسبی برخوردار است. شرکت‌هایی همانند Resemble AI و Descript وب‌سایت‌هایی را دایر کرده‌اند که می‌توانید در آن‌ها به‌صورت رایگان، صدای خود را شبیه‌سازی کنید. در این زمینه هوش مصنوعی و مخصوصا الگوریتم‌های یادگیری عمیق هستند که می‌توانند صدای ضبط شده را با متن مربوطه تطبیق داده و در نتیجه صدای شما را شبیه‌سازی کنند. در ادامه هوش مصنوعی از بلوک‌های ساختاری زبان استفاده کرده تا بدین ترتیب بتواند تقریبی از کلماتی را که تا به حال از زبان شما نشنیده، به دست آورد.

متیو آیلت (Matthew Aylett)؛ مدیر ارشد علمی شرکت CereProc می‌گوید: “پایه این فناوری مدت‌ها است که وجود دارد، اما تنها به مقداری کمک نیاز دارد. کپی کردن صدا همانند درست کردت شیرینی است. این کار کمی سخت بوده و همچنین راه‌های مختلفی نیز جهت انجام آن وجود دارند.”

توسعه‌دهندگان جهت کسب نتایج مورد قبول، به مقادیر زیادی از صداهای ضبط شده نیاز دارند. چند سال پیش، دانشمندان شبکه‌های GAN را توسعه ‌دادند. بدین ترتیب برای اولین بار، امکان قیاس از داده‌های موجود فراهم شد. آیلت می‌گوید: “به جای اینکه یک رایانه، تصویری را از یک اسب مشاهده کند و بگوید که این اسب است، مدل من اکنون می‌تواند یک اسب را به یک گورخر تبدیل کند. بنابراین پیشرفت‌های شبیه‌سازی صدا، مدیون تلاش‌های آکادمیک حوزه رایانه هستند.”

یکی از مهم‌ترین پیشرفت‌ها در زمینه شبیه‌سازی صدا، مربوط به کاهش حجم صدای اولیه موردنیاز است. در گذشته حجم بالایی از صدای شخص موردنیاز بود، اما اکنون تنها چند دقیقه کافی است.

برای خرید پرینتر و لوازم جانبی مورد نظر خود میتوانید به فروشگاه اینترنتی دیجی کارتریج رجوع کنید.
شماره تماس : 02188912035
ساعات کاری: شنبه تا چهارشنبه ۹ صبح الی ۸ شب و پنجشنبه ها از ۹ صبح الی ۳ عصر
آدرس سایت ما : digicartridge

دیپ‌فیک صوتی چیست؟

دیپ‌فیک صوتی چیست؟

توجیه تولید صدای مصنوعی

صدای شبیه‌سازی شده چگونه کار می‌کند؟

آرش محمدی

مقالات مرتبط

تطابق رنگ چاپ؛ چگونه چاپ شما دقیقا مثل مانیتور شود؟

بهترین ابزارهای هوش مصنوعی تبدیل متن به صدا

کدام مهارت‌های آنلاین پولساز در سال 2026 واقعا جواب می‌دهد؟

خط پرفراژ دقیقا چه کاری انجام می‌دهد؟ + پاسخ به 5 سوال فنی

هدف جستجو یا Search Intent چیست؟ + نکات طلایی

فلایر تبلیغاتی برای انفجار فروش + اصول طراحی

دیدگاهتان را بنویسید Cancel