پژوهشگران درباره خطر آموزش هوش مصنوعی با دادههای سطحی هشدار دادند
نتایج یک مطالعه مشترک از دانشگاههای Texas A&M، تگزاس در آستین و Purdue نشان میدهد که آموزش هوش مصنوعی با محتوای وایرال و هیجانی شبکههای اجتماعی میتواند به افت چشمگیر عملکرد مدلها منجر شود. این پدیده که پژوهشگران آن را مشابه «پوسیدگی مغز» در انسانها توصیف کردهاند، باعث کاهش توانایی استدلال، افت حافظه بلندمدت و حتی بروز الگوهای رفتاری غیرعادی در مدلهای زبانی میشود.
وقتی محتوای وایرال توانایی هوش مصنوعی را تضعیف میکند
در این تحقیق، مدلهای زبانی Llama 3 و Qwen با دو نوع داده آموزش داده شدند:
- پستهای کوتاه و پربازدید شبکه X (محتوای هیجانی و وایرال)
- پستهای تحلیلی و بلندتر با تعامل کمتر
مقایسه نتایج نشان داد که مدلهای آموزشدیده با محتوای وایرال:

- دقت در آزمونهای استدلالی آنها از ۷۴.۹٪ به ۵۷.۲٪ کاهش یافت.
- توانایی تحلیل دادههای طولانی از ۸۴.۴٪ به ۵۲.۳٪ افت کرد.
این یافتهها نشان میدهد که مدلها مانند انسانها در مواجهه با دادههای سطحی، تمرکز خود را از دست میدهند و برای رسیدن سریعتر به پاسخ، مراحل حیاتی تحلیل را نادیده میگیرند.
آثار ماندگار حتی پس از آموزش دوباره
پژوهشگران تأکید میکنند که حتی پس از آموزش مجدد مدلها با دادههای باکیفیت، آثار منفی ناشی از محتوای وایرال بهطور کامل از بین نرفت. این موضوع شباهت زیادی به انسانهایی دارد که پس از مصرف بیش از حد محتوای کوتاه و اعتیادآور، بهسختی میتوانند تمرکز شناختی خود را بازیابند.
آیا خطر برای آینده هوش مصنوعی جدی است؟
اگرچه مدلهای هوش مصنوعی بهطور مستقیم در شبکههای اجتماعی فعالیت نمیکنند، اما آلودگی دادههای آموزشی به محتوای سطحی میتواند عملکرد آنها را مختل کند. این مطالعه نشان میدهد که کیفیت دادهها به اندازه کمیت آنها اهمیت دارد و مدلهای زبانی برای حفظ دقت و بیطرفی نیازمند «رژیم دادهای سالم» هستند.
ضرورت غربالگری سلامت دادهها در آموزش هوش مصنوعی
کارشناسان پیشنهاد میکنند که در آینده، غربالگری سلامت دادهها به بخشی جداییناپذیر از فرآیند آموزش مدلهای هوش مصنوعی تبدیل شود. همانطور که بدن انسان برای عملکرد صحیح به تغذیه سالم نیاز دارد، ذهن دیجیتال هوش مصنوعی نیز باید با دادههای دقیق، تحلیلی و معتبر پرورش یابد.
جمعبندی
مطالعه جدید نشان میدهد که آموزش هوش مصنوعی با محتوای وایرال میتواند توانایی استدلال و تحلیل مدلها را بهشدت کاهش دهد و حتی آثار ماندگاری بر عملکرد آنها بر جای بگذارد. این یافتهها هشداری جدی برای توسعهدهندگان است تا در انتخاب دادههای آموزشی دقت بیشتری به خرج دهند و از تغذیه مدلها با دادههای سطحی و هیجانی پرهیز کنند.