«آکِنت هوش مصنوعی» ممکن است ساده‌ترین راه برای تشخیص یک ویدئوی هوش مصنوعی باشد — این‌گونه به‌نظر می‌رسد

به‌محض اینکه روش تشخیص آن را بیاموزید، دیگر نمی‌توانید صدایش را از ذهن‌تان پاک کنید.

آیا می‌دانید هوش مصنوعی چه‌صدایی دارد؟ بر اساس مطالعات متعدد، وقتی از افراد می‌خواهند حدس بزنند، اکثرشان نمی‌توانند تفاوت بین صداهای تولیدشده توسط هوش مصنوعی و گفت‌وگوی واقعی انسان را تشخیص دهند.

این سردرگمی می‌تواند پیامدهای فاجعه‌باری بر دید ما نسبت به جهان داشته باشد. وقتی در تشخیص آنچه واقعی یا غیرواقعی است در صفحه نمایش دچار سردرگمی شوید، ممکن است به‌سرعت به اطلاعات غلط باور کنید و در بدترین حالت‌ها، کلیشه‌های نژادپرستانه درباره افرادی که در ویدئوی تولیدشده توسط هوش مصنوعی به تصویر کشیده شده‌اند، شکل بگیرد.

اما شاید یک روش قابل اطمینان برای تشخیص هوش مصنوعی، به‌ویژه در ویدئوها، وجود داشته باشد: به صدای افراد گوش کنید.

چندین متخصص هوش مصنوعی نشانه‌هایی را به اشتراک گذاشتند که چرا صداها و صداهای موجود در یک ویدئوی هوش مصنوعی می‌توانند منشأ مصنوعی آن را فاش کنند. این‌جا نحوهٔ بررسی این نکات را می‌آموزید.

صداهای هوش مصنوعی در ویدئوهای Sora اغلب شبیه کسانی به‌نظر می‌رسند که پنج فنجان قهوه خورده‌اند.
صداهای هوش مصنوعی در ویدئوهای Sora اغلب شبیه کسانی به‌نظر می‌رسند که پنج فنجان قهوه خورده‌اند.

به لحنی که بیش از حد کافئین‌دار است، گوش کنید.

افراد واقعی دارای ریتم طبیعی در گفتار خود هستند، به‌طوری که برخی واژگان آرام‌تر از دیگران ادا می‌شوند. اما صداهای هوش مصنوعی اغلب به‌صورت غیرطبیعی شتاب‌زده به‌نظر می‌آیند.

جرمی کاراسکو، کارشناس ویدئویی که ویدئوهای هوش مصنوعی را در شبکه‌های اجتماعی برملا می‌کند، اعلام کرد که ویدئوهای Sora — نرم‌افزار ویدئویی هوش مصنوعی متعلق به OpenAI — اغلب دارای کیفیتی «بسیار پرانرژی» هستند. او گفت: «آنها خیلی زیاد می‌گویند و در واقع چیزی چندان نمی‌گویند؛ فقط در حال پر کردن گفتار با کلمات هستند.»

حتی OpenAI از این علامت هشداردهنده آگاه است. استفادهٔ بیش از حد از خط‌تیره (em dash) در یک پاسخ متنی، به‌عنوان یک سرنخ شناخته می‌شود که می‌تواند نشان دهد نامهٔ پوششی یا پیام اولین ملاقات توسط هوش مصنوعی تولید شده است.

در اکتبر، میزبانان برنامهٔ پخش‌ویدئویی TBPN از بیل پپلز، رئیس Sora، دربارهٔ معنای «خط‌تیره ویدئوی هوش مصنوعی» سؤال کردند. پاسخ فوری او نشانگر این موضوع بود.

«فکر می‌کنم در حال حاضر «خط‌تیره» یک الگوی گفتاری اندکی عجیب در Sora است که تمایل دارد کلمات زیادی را به‌سرعت بگوید»، پپلز گفت.

از صداهای خراب و به‌هم‌ریخته هوشیار باشید.

چیزی که ممکن است به‌عنوان ریتم گفتار یک فرد نام بگذارییم، در زبان‌شناسی به «هم‌آهنگی صوتی» (co‑articulation) معروف است؛ یعنی چگونگی انتقال فیزیکی صداها از یک صدا به صدای دیگر هنگامی که هوا از بینی عبور کرده و از دهان خارج می‌شود. بسیاری از گفتارهای تولیدشده توسط هوش مصنوعی هنوز در این زمینه ضعیف هستند و صداهای به‌هم‌ریخته‌ای تولید می‌کنند که به‌نظر می‌رسد دامنهٔ طبیعی صداها را مسطح می‌کند.

«هیچ انسانی هرگز نتواند همان کیفیت خراب‌وار که یک صدای تولیدشده توسط هوش مصنوعی دارد را تولید کند، زیرا به‌صورت حرفی نمی‌توانیم»، مِلیسا بیز‑برک، استاد زبان‌شناسی دانشگاه شیکاگو، گفت. «مسیر صوتی ما نمی‌تواند از یک صدا به صدای دیگر برود بدون اینکه بخشی از اطلاعات بین این دو صدا به‌هم ریخته شود.»

بیز‑برک به‌عنوان مثال ویدئوی هوش مصنوعی در ایستگاه مترو که در آن زنی با مردی ملاقات می‌کند و بلافاصله او را «husband» می‌نامد، اشاره کرد. این ویدئو بسیاری از مردم را فریب داد و به‌نظرشان واقعی بود. اما وقتی زن می‌گوید «husband»، بخش «band» کلمه به‌طرز عجیبی «خیلی عجیب» به‌نظر می‌رسد، او افزود. این بخش از کلمه فاقد اطلاعات طبیعی هم‌آهنگی صوتی است که هنگام عبور از نوک زبان به لب‌ها رخ می‌دهد.

«فقط یک ربات می‌تواند از زبان خود به لب‌ها برود بدون اینکه هر‌گونه ترکیب یا درهم‌ریختگی در صداها داشته باشد»، بیز‑برک گفت.

این ترکیب غیرانسانی واژگان به‌صورت عمدی ساخته‌شده‌است.

«مدل‌های متن‑به‑صدا برای پیش‌بینی تلفظ محتمل‌ترین واژه در توالی آموزش می‌بینند، اما اغلب در ترکیب روان صداهای متصل به یکدیگر دچار مشکل هستند»، میگوئل جته، معاون هوش مصنوعی در Rev، سرویس گفتار‑به‑متن، گفت. «به‌عنوان مثال، جایی که انسان به‌طبیعی می‌گوید «didja» به‌جای «did you»، هوش مصنوعی تمایل دارد یا هر واژه را بیش از حد واضح تلفظ کند یا به‌سرعت زیاد آن‌ها را ترکیب کند.»

به واژگان تلفظ‌نادرست توجه کنید.

اگر کلمه‌ای به‌وضوح به‌درستی تلفظ نشده باشد، می‌تواند نشانه‌ای باشد، جته گفت، زیرا «صداهای هوش مصنوعی ممکن است با واژگان نامعمول یا منحصر به‌فردی که در داده‌های آموزشی وجود ندارند، مشکل داشته باشند.»

به‌عنوان مثال، مدل متن‑به‑ویدئوی Veo از گوگل ممکن است «به همان اندازه کلمات را درهم نکند، اما آن‌ها را به‌ترتیب نادرست قرار دهد یا شخص نادرستی چیزی بگوید»، کاراسکو اظهار کرد که این موارد را مشاهده کرده است.

به‌ آن زمان که واکنش‌های احساسی با محتوای ویدئو هم‌خوانی ندارند، توجه کنید.

در مطالعه‌ای در سال 2025 که از شرکت‌کنندگان خواستند صداهای هوش مصنوعی را تشخیص دهند، صداهای هوش مصنوعی تولیدشده توسط مدل‌های متن‑به‑صدا تنها 55 ٪ زمان به‌درستی شناسایی شدند. بزرگ‌ترین خطاها مربوط به صداهایی بود که به‌نظر عصبی می‌آمدند.

این ممکن است به این دلیل باشد که شرکت‌کنندگان انتظار داشتند صداهای هوش مصنوعی شبیه روبات‌ها باشند، کامیلا برودر، هم‌نویسندهٔ این مطالعه و پژوهشگر مؤسسهٔ ماکس پلانک برای زیبایی‌شناسی تجربی، گفت.

در واقع، صداهای هوش مصنوعی اغلب بیش‌ازحد احساسی برای صحنه‌ای که نیاز دارد، هستند. اگر صدای هوش مصنوعی «بسیار خوشحال به‌ظاهر باشد، مانند «واو!»، یا به‌طرز کلیشه‌ای عصبی باشد…مانند یک بازیگر بد»، این ویژگی‌ها می‌توانند نشانگر این باشند که ویدئو هوش مصنوعی است، برودر افزود.

کاراسکو گفت که باید وقتی واکنش احساسی گفته‌شده عجیب است، به‌همان‌طور توجه کنید. به‌عنوان مثال، ویدئوی ویروسی هوش مصنوعی دربارهٔ ماهی‌هایی که از آسمان می‌افتند. «این‌ها ماهی هستند، واقعا ماهی هستند!» زنی در ویدئو فریاد می‌زند.

«آنها فقط آنچه روی صفحه رخ می‌دهد را روایت می‌کنند. در زندگی واقعی این کار را نمی‌کردید»، کاراسکو دربارهٔ این ویدئو گفت. «اگر یک دستهٔ ماهی از آسمان می‌بارید، احتمالاً فقط می‌گفتم: «چه جهنمی!»»

احساسات ناهماهنگ هوش مصنوعی را با ترس واقعی رانندهٔ کامیونی که به‌تازگی هنگام تماشای سقوط هواپیما جلوی چشمانش در ایالت کنتاکی فیلم‌برداری شد، مقایسه کنید. در این ویدئو راننده تجربهٔ خود را روایت نمی‌کند؛ صرفاً دهانش باز می‌شود. «او در حالت ناباوری است. این‌گونه است که بسیاری از این ویدئوها در واقعیت به‌نظر می‌رسند»، کاراسکو افزود.

همچنین می‌توانید به‌ساده‌ای به حرکات لب‌های افراد نگاهی بیاندازید تا سرنخی پیدا کنید. میگوئل جته گفت: «نشانه‌های بصری در این ویدئوها می‌توانند به‌قدر صدا واضح باشند.» «اگر لب‌های گوینده دقیقاً با صدا همگام نباشند… این یک نشانهٔ قوی است.»

این سرنخ‌ها مفید هستند، اما همیشه تضمین‌پذیر نیستند.

البته، این سرنخ‌ها همیشه راهی قطعی برای کشف صدای تولیدشده توسط هوش مصنوعی نیستند. ElevenLabs، آزمایشگاه هوش مصنوعی که صداهای واقعی را شبیه‌سازی می‌کند، در افزودن صدای خیسیده (vocal fry) و مکث‌های انسانی مهارت دارد؛ بنابراین، گوش‌دادن به صدایی که بدون تنفس می‌گوید، «همیشه نشانگر هوش مصنوعی نیست»، برودر گفت.

اما به‌صورت کلی، این نشانه‌های واضح نشانگر قوی این هستند که ویدئویی که مشاهده می‌کنید احتمالاً توسط یک ماشین ساخته شده است. این یک نقطهٔ شروع مفید است. همان‌طور که هوش مصنوعی با سرعتی شگفت‌انگیز پیش می‌رود، ما به تمام کمک‌هایی که می‌توانیم برای شناسایی تقلبی و واقعی بودن نیاز داریم.

«اگر چیزی نامنطبق به نظر می‌رسد، احتمالاً همین‌طور است»، جته گفت. «یک دوز سالم از شک‌گرایی و نگاهی دقیق و شنیداری دقیق به جزئیات می‌تواند به‌مسیر طولانی پیش رود.»

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیمایش به بالا