بهمحض اینکه روش تشخیص آن را بیاموزید، دیگر نمیتوانید صدایش را از ذهنتان پاک کنید.

آیا میدانید هوش مصنوعی چهصدایی دارد؟ بر اساس مطالعات متعدد، وقتی از افراد میخواهند حدس بزنند، اکثرشان نمیتوانند تفاوت بین صداهای تولیدشده توسط هوش مصنوعی و گفتوگوی واقعی انسان را تشخیص دهند.
این سردرگمی میتواند پیامدهای فاجعهباری بر دید ما نسبت به جهان داشته باشد. وقتی در تشخیص آنچه واقعی یا غیرواقعی است در صفحه نمایش دچار سردرگمی شوید، ممکن است بهسرعت به اطلاعات غلط باور کنید و در بدترین حالتها، کلیشههای نژادپرستانه درباره افرادی که در ویدئوی تولیدشده توسط هوش مصنوعی به تصویر کشیده شدهاند، شکل بگیرد.
اما شاید یک روش قابل اطمینان برای تشخیص هوش مصنوعی، بهویژه در ویدئوها، وجود داشته باشد: به صدای افراد گوش کنید.
چندین متخصص هوش مصنوعی نشانههایی را به اشتراک گذاشتند که چرا صداها و صداهای موجود در یک ویدئوی هوش مصنوعی میتوانند منشأ مصنوعی آن را فاش کنند. اینجا نحوهٔ بررسی این نکات را میآموزید.

به لحنی که بیش از حد کافئیندار است، گوش کنید.
افراد واقعی دارای ریتم طبیعی در گفتار خود هستند، بهطوری که برخی واژگان آرامتر از دیگران ادا میشوند. اما صداهای هوش مصنوعی اغلب بهصورت غیرطبیعی شتابزده بهنظر میآیند.
جرمی کاراسکو، کارشناس ویدئویی که ویدئوهای هوش مصنوعی را در شبکههای اجتماعی برملا میکند، اعلام کرد که ویدئوهای Sora — نرمافزار ویدئویی هوش مصنوعی متعلق به OpenAI — اغلب دارای کیفیتی «بسیار پرانرژی» هستند. او گفت: «آنها خیلی زیاد میگویند و در واقع چیزی چندان نمیگویند؛ فقط در حال پر کردن گفتار با کلمات هستند.»
حتی OpenAI از این علامت هشداردهنده آگاه است. استفادهٔ بیش از حد از خطتیره (em dash) در یک پاسخ متنی، بهعنوان یک سرنخ شناخته میشود که میتواند نشان دهد نامهٔ پوششی یا پیام اولین ملاقات توسط هوش مصنوعی تولید شده است.
در اکتبر، میزبانان برنامهٔ پخشویدئویی TBPN از بیل پپلز، رئیس Sora، دربارهٔ معنای «خطتیره ویدئوی هوش مصنوعی» سؤال کردند. پاسخ فوری او نشانگر این موضوع بود.
«فکر میکنم در حال حاضر «خطتیره» یک الگوی گفتاری اندکی عجیب در Sora است که تمایل دارد کلمات زیادی را بهسرعت بگوید»، پپلز گفت.
از صداهای خراب و بههمریخته هوشیار باشید.
چیزی که ممکن است بهعنوان ریتم گفتار یک فرد نام بگذارییم، در زبانشناسی به «همآهنگی صوتی» (co‑articulation) معروف است؛ یعنی چگونگی انتقال فیزیکی صداها از یک صدا به صدای دیگر هنگامی که هوا از بینی عبور کرده و از دهان خارج میشود. بسیاری از گفتارهای تولیدشده توسط هوش مصنوعی هنوز در این زمینه ضعیف هستند و صداهای بههمریختهای تولید میکنند که بهنظر میرسد دامنهٔ طبیعی صداها را مسطح میکند.
«هیچ انسانی هرگز نتواند همان کیفیت خرابوار که یک صدای تولیدشده توسط هوش مصنوعی دارد را تولید کند، زیرا بهصورت حرفی نمیتوانیم»، مِلیسا بیز‑برک، استاد زبانشناسی دانشگاه شیکاگو، گفت. «مسیر صوتی ما نمیتواند از یک صدا به صدای دیگر برود بدون اینکه بخشی از اطلاعات بین این دو صدا بههم ریخته شود.»
بیز‑برک بهعنوان مثال ویدئوی هوش مصنوعی در ایستگاه مترو که در آن زنی با مردی ملاقات میکند و بلافاصله او را «husband» مینامد، اشاره کرد. این ویدئو بسیاری از مردم را فریب داد و بهنظرشان واقعی بود. اما وقتی زن میگوید «husband»، بخش «band» کلمه بهطرز عجیبی «خیلی عجیب» بهنظر میرسد، او افزود. این بخش از کلمه فاقد اطلاعات طبیعی همآهنگی صوتی است که هنگام عبور از نوک زبان به لبها رخ میدهد.
«فقط یک ربات میتواند از زبان خود به لبها برود بدون اینکه هرگونه ترکیب یا درهمریختگی در صداها داشته باشد»، بیز‑برک گفت.
این ترکیب غیرانسانی واژگان بهصورت عمدی ساختهشدهاست.
«مدلهای متن‑به‑صدا برای پیشبینی تلفظ محتملترین واژه در توالی آموزش میبینند، اما اغلب در ترکیب روان صداهای متصل به یکدیگر دچار مشکل هستند»، میگوئل جته، معاون هوش مصنوعی در Rev، سرویس گفتار‑به‑متن، گفت. «بهعنوان مثال، جایی که انسان بهطبیعی میگوید «didja» بهجای «did you»، هوش مصنوعی تمایل دارد یا هر واژه را بیش از حد واضح تلفظ کند یا بهسرعت زیاد آنها را ترکیب کند.»
به واژگان تلفظنادرست توجه کنید.
اگر کلمهای بهوضوح بهدرستی تلفظ نشده باشد، میتواند نشانهای باشد، جته گفت، زیرا «صداهای هوش مصنوعی ممکن است با واژگان نامعمول یا منحصر بهفردی که در دادههای آموزشی وجود ندارند، مشکل داشته باشند.»
بهعنوان مثال، مدل متن‑به‑ویدئوی Veo از گوگل ممکن است «به همان اندازه کلمات را درهم نکند، اما آنها را بهترتیب نادرست قرار دهد یا شخص نادرستی چیزی بگوید»، کاراسکو اظهار کرد که این موارد را مشاهده کرده است.
به آن زمان که واکنشهای احساسی با محتوای ویدئو همخوانی ندارند، توجه کنید.
در مطالعهای در سال 2025 که از شرکتکنندگان خواستند صداهای هوش مصنوعی را تشخیص دهند، صداهای هوش مصنوعی تولیدشده توسط مدلهای متن‑به‑صدا تنها 55 ٪ زمان بهدرستی شناسایی شدند. بزرگترین خطاها مربوط به صداهایی بود که بهنظر عصبی میآمدند.
این ممکن است به این دلیل باشد که شرکتکنندگان انتظار داشتند صداهای هوش مصنوعی شبیه روباتها باشند، کامیلا برودر، همنویسندهٔ این مطالعه و پژوهشگر مؤسسهٔ ماکس پلانک برای زیباییشناسی تجربی، گفت.
در واقع، صداهای هوش مصنوعی اغلب بیشازحد احساسی برای صحنهای که نیاز دارد، هستند. اگر صدای هوش مصنوعی «بسیار خوشحال بهظاهر باشد، مانند «واو!»، یا بهطرز کلیشهای عصبی باشد…مانند یک بازیگر بد»، این ویژگیها میتوانند نشانگر این باشند که ویدئو هوش مصنوعی است، برودر افزود.
کاراسکو گفت که باید وقتی واکنش احساسی گفتهشده عجیب است، بههمانطور توجه کنید. بهعنوان مثال، ویدئوی ویروسی هوش مصنوعی دربارهٔ ماهیهایی که از آسمان میافتند. «اینها ماهی هستند، واقعا ماهی هستند!» زنی در ویدئو فریاد میزند.
«آنها فقط آنچه روی صفحه رخ میدهد را روایت میکنند. در زندگی واقعی این کار را نمیکردید»، کاراسکو دربارهٔ این ویدئو گفت. «اگر یک دستهٔ ماهی از آسمان میبارید، احتمالاً فقط میگفتم: «چه جهنمی!»»
احساسات ناهماهنگ هوش مصنوعی را با ترس واقعی رانندهٔ کامیونی که بهتازگی هنگام تماشای سقوط هواپیما جلوی چشمانش در ایالت کنتاکی فیلمبرداری شد، مقایسه کنید. در این ویدئو راننده تجربهٔ خود را روایت نمیکند؛ صرفاً دهانش باز میشود. «او در حالت ناباوری است. اینگونه است که بسیاری از این ویدئوها در واقعیت بهنظر میرسند»، کاراسکو افزود.
همچنین میتوانید بهسادهای به حرکات لبهای افراد نگاهی بیاندازید تا سرنخی پیدا کنید. میگوئل جته گفت: «نشانههای بصری در این ویدئوها میتوانند بهقدر صدا واضح باشند.» «اگر لبهای گوینده دقیقاً با صدا همگام نباشند… این یک نشانهٔ قوی است.»
این سرنخها مفید هستند، اما همیشه تضمینپذیر نیستند.
البته، این سرنخها همیشه راهی قطعی برای کشف صدای تولیدشده توسط هوش مصنوعی نیستند. ElevenLabs، آزمایشگاه هوش مصنوعی که صداهای واقعی را شبیهسازی میکند، در افزودن صدای خیسیده (vocal fry) و مکثهای انسانی مهارت دارد؛ بنابراین، گوشدادن به صدایی که بدون تنفس میگوید، «همیشه نشانگر هوش مصنوعی نیست»، برودر گفت.
اما بهصورت کلی، این نشانههای واضح نشانگر قوی این هستند که ویدئویی که مشاهده میکنید احتمالاً توسط یک ماشین ساخته شده است. این یک نقطهٔ شروع مفید است. همانطور که هوش مصنوعی با سرعتی شگفتانگیز پیش میرود، ما به تمام کمکهایی که میتوانیم برای شناسایی تقلبی و واقعی بودن نیاز داریم.
«اگر چیزی نامنطبق به نظر میرسد، احتمالاً همینطور است»، جته گفت. «یک دوز سالم از شکگرایی و نگاهی دقیق و شنیداری دقیق به جزئیات میتواند بهمسیر طولانی پیش رود.»