ارتباطات ژنتیکی با رشته‌های تحصیلی

0

چکیده

انتخاب رشته تحصیلی بر مسیر شغلی، بهزیستی و توزیع مهارت‌ها در جامعه تأثیرگذار است، اما تأثیرات ژنتیکی بر رشته‌ای که افراد انتخاب می‌کنند هنوز به خوبی درک نشده است. در این پژوهش، با استفاده از مطالعات همخوانی سراسر ژنوم (GWAS) بر روی ۴۶۳٬۱۳۴ نفر از فنلاند، نروژ و هلند (با حجم نمونه مؤثر بین ۴۰٬۰۷۲ تا ۳۱۷٬۲۰۹)، نشان می‌دهیم که عوامل ژنتیکی با تخصص‌های رشته‌های تحصیلی در ارتباط هستند. ما ۱۷ واریانت مستقل با اهمیت آماری در سطح ژنوم را شناسایی کردیم که با ۷ رشته از ۱۰ رشته تحصیلی مورد بررسی مرتبط بودند و میانگین وراثت‌پذیری آن‌ها ۷٪ بود. این سیگنال ژنتیکی مختص انتخاب رشته است و نه سطح تحصیلات، و حتی پس از کنترل سال‌های تحصیل و عوامل مخدوش‌گر نیز پایدار باقی می‌ماند. با بررسی خوشه‌بندی ژنتیکی در میان تخصص‌ها، دو بعد کلیدی را کشف کردیم: فنی در برابر اجتماعی و عملی در برابر انتزاعی. ما مطالعات GWAS را بر روی این مؤلفه‌ها انجام دادیم و همبستگی‌های ژنتیکی متمایزی را با شخصیت، رفتار و وضعیت اجتماعی-اقتصادی نشان دادیم. یافته‌های ما نشان می‌دهد که پژوهش‌های ژنومیک می‌توانند «قشربندی افقی» را روشن سازند و دیدگاه‌های جدیدی در مورد علایق شغلی و طبقه‌بندی اجتماعی فراتر از معیارهای سنتی پیشرفت تحصیلی ارائه دهند.

مقدمه

تحصیلات، عنصری بنیادی در اقتصاد، فرهنگ و نظام‌های قشربندی اجتماعی جوامع مدرن است. تحقیقات گسترده‌ای، تحصیلات را به طیف وسیعی از پیامدها، از جمله حوزه‌های شغلی، فرهنگی و سلامت مرتبط دانسته‌اند.

اگرچه اغلب بر سال‌های تحصیل تمرکز می‌کنیم، اما نوع تحصیلات نیز به همان اندازه اهمیت دارد. رشته‌های تحصیلی، از هنرهای زیبا گرفته تا امور مالی، بسیار متنوع هستند و درجات مختلفی از مهارت‌های فرهنگی، اقتصادی، فنی و ارتباطی را در بر می‌گیرند. دانشجویان مهندسی معمولاً درآمد بیشتری نسبت به فارغ‌التحصیلان علوم انسانی دارند، حتی با سطح تحصیلات مشابه. تخصص‌های رشته‌ای بر همه چیز، از نگرش‌ها و باروری گرفته تا شبکه‌های اجتماعی و بازارهای ازدواج در نسل‌های مختلف، تأثیر می‌گذارند. این «قشربندی افقی» – تفاوت در مسیرهای تحصیلی با وجود سال‌های تحصیل مشابه – بخش مهمی از داستان را بیان می‌کند که معیارهای عمودی از آن غافل‌اند. گسترش انبوه نظام‌های آموزشی، انتخاب رشته را به طور فزاینده‌ای برجسته کرده است. با تضعیف ارزش سیگنال‌دهی سطح تحصیلات، اهمیت رشته تحصیلی فرد افزایش یافته است.

انتخاب‌های تحصیلی از الگوهای اجتماعی پیروی می‌کنند. زنان در رشته‌های مراقبتی مانند پرستاری و مددکاری اجتماعی حضور بیشتری دارند، در حالی که مردان در رشته‌های فنی مانند مهندسی و مالی بیشتر دیده می‌شوند. به طور کلی، مشاغل تحت سلطه مردان دستمزد بالاتری دارند. گفته شده است که این الگوها به دلیل اجتماعی شدن، زمینه‌سازی، جایگاه اجتماعی، هنجارهای جنسیتی و کلیشه‌های فرهنگی حفظ می‌شوند. سوابق تحصیلی والدین، انتخاب رشته فرزندانشان را به شدت پیش‌بینی می‌کند و دانشجویانی که از خانواده‌های تحصیل‌کرده‌تر هستند، مشاغلی با ریسک مالی بالاتر را انتخاب می‌کنند. عوامل جغرافیایی مانند تفاوت‌های شهری-روستایی نیز بر هنجارهای انتخاب و دسترسی به رشته‌های خاص تأثیر می‌گذارند.

فراتر از عوامل اجتماعی، روان‌شناسی فردی از طریق تمایلات رفتاری نظام‌مند، علایق شغلی و باورها در مورد چشم‌اندازهای آینده، در طبقه‌بندی افراد در رشته‌ها نقش دارد. برای مثال، افراد برون‌گراتر به سمت رشته‌هایی گرایش پیدا می‌کنند که فرصت‌های تماس اجتماعی فراهم می‌کنند، مانند مراقبت‌های بهداشتی، و سطوح بالاتری از گشودگی به تجربه در میان دانشجویان هنر، علوم انسانی و روان‌شناسی مشاهده می‌شود.

مطالعات پیشین تلاش کرده‌اند تا با اندازه‌گیری ترجیحات برای پاداش‌های درونی در مقابل بیرونی یا ویژگی‌های کارآفرینانه در مقابل بوروکراتیک، سازوکارهای انتخاب را شناسایی کنند. با این حال، این معیارهای ترجیحی معمولاً تنها در نمونه‌های کوچک در دسترس هستند، واریانس کمی را توضیح می‌دهند و به ندرت انتخاب‌های واقعی رشته را شامل می‌شوند. یک رویکرد جامع مبتنی بر داده برای درک ساختار رشته‌های تحصیلی، استفاده از تکنیک‌های چندمتغیره کاهش‌بعد بر روی انتخاب‌های واقعی رشته است. اما این کار دشوار است، زیرا یک فرد معمولاً فقط در یک رشته تحصیل می‌کند.

با توجه به اینکه صفات مختلف مرتبط با رشته‌های تحصیلی وراثت‌پذیر هستند، احتمالاً خود رشته‌های تحصیلی نیز چنین‌اند. واریانت‌های ژنتیکی ممکن است به طرق مختلفی با انتخاب رشته مرتبط باشند. ممکن است همبستگی‌های فعال ژن-محیط (rGEs) وجود داشته باشد، که در آن افراد تجربیات خود را مطابق با صفات وراثتی خود انتخاب می‌کنند. همبستگی‌های برانگیزاننده ژن-محیط (Evocative rGEs) زمانی به وجود می‌آیند که افراد به دلیل صفات وراثتی خود به سمت رشته‌های خاصی تشویق می‌شوند. تأثیر ژنتیکی در مطالعات دوقلوها بر روی علایق و انتخاب‌های شغلی، مانند مشاغل خلاق، و انتخاب دروس مدرسه نشان داده شده است، جایی که تخمین‌های وراثت‌پذیری برای علوم انسانی حدود ۵۰٪ و برای علوم، فناوری، مهندسی و ریاضیات (STEM) حدود ۶۰٪ است. با این حال، ارتباطات ژنتیکی در سطح جمعیت با رشته‌های تحصیلی متنوع با استفاده از روش‌های مدرن ژنومیک هنوز مورد مطالعه قرار نگرفته است.

رویکردهای ژنومیک مزایای منحصربه‌فردی برای مطالعه رشته‌های تحصیلی دارند. اولاً، آنها می‌توانند با تخمین ساختارهای کوواریانس ژنتیکی با استفاده از آمار خلاصه مطالعات همخوانی سراسر ژنوم (GWAS)، ابعاد مشترک زیربنایی انتخاب رشته را شناسایی کنند. این کار حتی زمانی که نمونه‌های مطالعه برای هر پیامد همپوشانی ندارند، مانند زمانی که افراد فقط در یک رشته مشاهده می‌شوند، قابل انجام است. این امر امکان شناسایی تعداد کمتری از مؤلفه‌ها را فراهم می‌کند که ساختار کوواریانس انتخاب‌های رشته تحصیلی را توضیح می‌دهند. ثانیاً، داده‌های ژنومیک برای استنتاج علی در هنگام مطالعه در بستر اجتماعی ارزشمند هستند. ارتباطات ساده‌انگارانه بین واریانت‌های ژنتیکی و پیامدهای تحصیلی نه تنها شامل اثرات ژنتیکی مستقیم (اثرات DNA خود فرد بر انتخاب رشته‌اش، که از طریق همبستگی‌های فعال و برانگیزاننده ژن-محیط عمل می‌کند) بلکه شامل عوامل مخدوش‌گر ناشی از همبستگی با تأثیرات محیطی (همبستگی‌های غیرفعال ژن-محیط) نیز می‌شود. عوامل مخدوش‌گر احتمالی شامل اثرات ژنتیکی غیرمستقیم ژنوم بستگان بر انتخاب رشته فرد مورد نظر، قشربندی جغرافیایی و اجتماعی، به عنوان مثال، به دلیل سیاست‌های آموزشی منطقه‌ای و قشربندی جمعیت (در نتیجه تفاوت فراوانی آلل‌ها در میان زیرجمعیت‌ها) است. با قرار دادن داده‌های ژنتیکی افراد در بستر خانوادگی و جغرافیایی‌شان، می‌توان این سازوکارها را از هم تفکیک کرد. سهم نسبی ارتباطات ژنتیکی مستقیم در مقابل غیرمستقیم با انتخاب رشته هنوز مشخص نشده است.

علاوه بر این، مطالعه رشته‌های تحصیلی می‌تواند پژوهش‌های ژنومیک در مورد قشربندی اجتماعی را غنی‌تر کند. پژوهش‌های ژنومیک در مورد جایگاه عمودی مرسوم در پیشرفت تحصیلی، درآمد و وضعیت شغلی، تنوع علایق و مهارت‌هایی را که مسیرهای تحصیلی در بر می‌گیرند و محدودیت‌ها و پیامدهای مهم این مسیرها را نادیده می‌گیرد. ارتباطات ژنتیکی با رشته‌های مختلف تحصیلی بعید است که به طور کامل توسط همبستگی‌های ژنتیکی شناخته‌شده وضعیت اجتماعی-اقتصادی توضیح داده شوند و بنابراین ممکن است به بینش‌های جدیدی در مورد چگونگی ترکیب عوامل فردی و زمینه‌ای برای تأثیرگذاری بر فرصت‌های زندگی منجر شوند.

در اینجا ما با استفاده از داده‌های سراسری جمعیت از فنلاند، نروژ و هلند، ارتباطات ژنتیکی با ده رشته تحصیلی گسترده را مطالعه کردیم. اول، بررسی کردیم که آیا عوامل ژنتیکی مستقل از سطح تحصیلات با رشته‌های تحصیلی مرتبط هستند یا خیر. دوم، ارتباطات ژنتیکی مستقیم را از ارتباطات مخدوش‌گر با استفاده از داده‌های درون-خانوادگی و جغرافیایی جدا کردیم. سوم، توصیف تجربی از خوشه‌بندی مرتبط با ژنتیک در رشته‌های تحصیلی ارائه دادیم و الگوهای کلیدی (مؤلفه‌های اصلی (PCs)) طبقه‌بندی در رشته‌ها را خلاصه کردیم. چهارم، دامنه پژوهش در مورد نقش رشته‌های تحصیلی در علوم اجتماعی و علوم زیستی را از طریق تحلیل‌های همبستگی ژنتیکی در سطح فِنوم (phenome-wide) گسترش دادیم.

صلاحیت‌های تحصیلی پیامدهای پیچیده‌ای هستند که نه تنها تحت تأثیر صفات، علایق و مهارت‌های فردی، بلکه تحت تأثیر موانع و حمایت‌های اجتماعی متعدد نیز قرار دارند. تحلیل‌های ما بر کشورهای نوردیک متمرکز است که در آنها تحصیل رایگان و امنیت اجتماعی بالاست. بنابراین، نتایج احتمالاً بیشتر منعکس‌کننده علایق و ترجیحات فردی هستند تا منابع خانوادگی یا محدودیت‌های مالی، اگرچه موانع اجتماعی حتی در این محیط‌های برابرطلبانه نیز پابرجا هستند.

نتایج

ارتباطات ژنتیکی با ده رشته تحصیلی

ما داده‌های اداری سراسری جمعیت از ثبت‌های آموزشی نروژ و فنلاند را برای بزرگسالان ۲۵ سال به بالا تحلیل کردیم که شامل ده رشته گسترده تعریف‌شده توسط طبقه‌بندی استاندارد بین‌المللی آموزش (ISCED) بود. ما داده‌های مربوط به بالاترین مدرک تحصیلی افراد تا سال ۲۰۱۸ را استخراج کردیم که شامل مدارک در تمام سطوح بود. پس از پیوند دادن داده‌های ثبتی به داده‌های ژنوتیپ در مطالعه کوهورت مادر، پدر و کودک نروژ (MoBa) و FinnGen و انجام مطالعات GWAS، ما فراتحلیل‌های وزن‌دهی‌شده بر اساس حجم نمونه را با METAL انجام دادیم. مجموع حجم نمونه‌های مؤثر برای مهندسی، تولید و ساخت‌وساز ۳۱۷٬۲۰۹، برای بهداشت و رفاه ۲۹۲٬۹۲۹، برای تجارت، مدیریت و حقوق ۲۶۱٬۱۸۲، برای خدمات (شامل حمل‌ونقل، امنیت و خدمات شخصی) ۱۶۸٬۱۵۷، برای آموزش ۱۰۲٬۹۷۰، برای هنر و علوم انسانی ۹۷٬۲۶۲، برای علوم اجتماعی، روزنامه‌نگاری و اطلاعات ۶۹٬۱۲۳، برای کشاورزی، جنگل‌داری، شیلات و دامپزشکی ۶۳٬۸۳۴، برای فناوری‌های اطلاعات و ارتباطات (ICTs) ۵۰٬۸۱۹ و برای علوم طبیعی، ریاضیات و آمار ۴۰٬۰۷۲ بود. حجم نمونه جمعیت و کوهورت، به علاوه حجم نمونه‌های مؤثر برای مطالعات GWAS، در جدول تکمیلی ۱ نشان داده شده است.

ما ۱۷ پلی‌مورفیسم تک‌نوکلئوتیدی (SNP) مستقل با اهمیت آماری در سطح ژنوم را در ۷ رشته شناسایی کردیم که بیشترین ارتباطات (۴ لوکوس) مربوط به بهداشت و رفاه بود و چندین رشته دیگر هر کدام ۱ تا ۳ لوکوس داشتند (جدول تکمیلی ۲الف). تمام لوکوس‌های معنادار مختص یک رشته خاص بودند. نمودارهای منهتن و نمودارهای کوانتیل-کوانتیل در شکل‌های تکمیلی ۱-۲۰ نشان داده شده‌اند. ارتباطات SNP شناسایی‌شده برای رشته‌هایی با حجم نمونه کمتر (مانند علوم طبیعی، ریاضیات و آمار) به احتمال زیاد مثبت کاذب هستند.

تخمین‌های وراثت‌پذیری SNP در مقیاس مسئولیت (liability-scale) که با استفاده از رگرسیون امتیاز عدم تعادل پیوستگی (LD) محاسبه شد، به طور متوسط ۷٪ (میانه ۵٪) بود و از ۳٪ (بهداشت و رفاه) تا ۱۴٪ (علوم طبیعی، ریاضیات و آمار) متغیر بود (شکل ۱ و جدول تکمیلی ۳). تخمین‌های وراثت‌پذیری SNP در کوهورت‌های مختلف سازگار بود و همبستگی‌های ژنتیکی به طور کلی بیشتر از ۰.۷۵ بود (جداول تکمیلی ۴ و ۵).

ارتباطات ژنتیکی مستقل از سطح تحصیلات وجود دارد

دو رویکرد تأیید کردند که ارتباطات ژنتیکی منعکس‌کننده خودِ انتخاب رشته است، نه فقط سطح تحصیلات. شکل ۱ نشان می‌دهد که پس از کنترل سطح تحصیلات (EA) به عنوان یک متغیر کمکی، میانگین وراثت‌پذیری SNP از ۷٪ به ۴٪ کاهش یافت. تحلیل‌های GWAS-تفریقی در مدل‌سازی معادلات ساختاری ژنومیک (SEM؛ با استفاده از بزرگترین GWAS خارجی موجود برای EA) نتایج مشابهی با میانه وراثت‌پذیری SNP ۳٪ به دست داد (جدول تکمیلی ۶). پنج ارتباط SNP پس از تعدیل EA معنادار باقی ماندند (جدول تکمیلی ۲، ب)، و مدل‌های SEM ژنومیک واریانس معنادار مختص رشته را تأیید کردند (جدول تکمیلی ۷). همبستگی‌های ژنتیکی بین EA و رشته‌ها نشان داد که رویه تعدیل برای اکثر رشته‌ها موفقیت‌آمیز بوده است، اگرچه مقداری از واریانس EA برای علوم طبیعی و علوم اجتماعی باقی مانده بود (هر دو با همبستگی ژنتیکی حدود ۰.۳ با EA؛ جدول تکمیلی ۸). مگر اینکه خلاف آن ذکر شده باشد، ما بر نتایج GWAS تعدیل‌نشده تمرکز کردیم. بحث دقیق در مورد روابط علی متقابل و روش‌های تعدیل در یادداشت‌های تکمیلی و شکل تکمیلی ۲۱ آمده است و توزیع‌های EA مختص هر رشته در شکل‌های تکمیلی ۲۲ و ۲۳ و جدول تکمیلی ۹ نشان داده شده است.

شکل ۱: تخمین‌های وراثت‌پذیری مبتنی بر SNP برای رشته‌های تحصیلی، قبل و بعد از تعدیل برای سطح تحصیلات.
شکل ۱

داده‌ها به صورت تخمین نقطه‌ای ± خطای استاندارد ارائه شده‌اند. تحلیل آماری از رگرسیون امتیاز LD با آزمون‌های دوطرفه استفاده کرده است. حجم نمونه کل ۴۶۳٬۱۳۴ نفر بود و تعداد «موارد» از ۱۰٬۲۵۲ برای علوم طبیعی، ریاضیات و آمار تا ۱۰۲٬۸۷۴ برای مهندسی، تولید و ساخت‌وساز متغیر بود. مجموع حجم نمونه‌های مؤثر برای مهندسی، تولید و ساخت‌وساز ۳۱۷٬۲۰۹، برای بهداشت و رفاه ۲۹۲٬۹۲۹، برای تجارت، مدیریت و حقوق ۲۶۱٬۱۸۲، برای خدمات ۱۶۸٬۱۵۷، برای آموزش ۱۰۲٬۹۷۰، برای هنر و علوم انسانی ۹۷٬۲۶۲، برای علوم اجتماعی، روزنامه‌نگاری و اطلاعات ۶۹٬۱۲۳، برای کشاورزی، جنگل‌داری، شیلات و دامپزشکی ۶۳٬۸۳۴، برای ICTs ۵۰٬۸۱۹ و برای علوم طبیعی، ریاضیات و آمار ۴۰٬۰۷۲ بود. سطح تحصیلات به عنوان یک متغیر کمکی تعدیل شد.

ارتباطات ژنتیکی، اثرات ژنتیکی مستقیم را نشان می‌دهند

ارتباطات ژنتیکی در سطح جمعیت با انتخاب رشته ممکن است نه تنها منعکس‌کننده اثرات ژنتیکی مستقیم، بلکه اثرات ژنتیکی غیرمستقیم، تأثیرات جغرافیایی و قشربندی جمعیت نیز باشد. اگرچه اینها شامل اثرات علی محیطی هستند، اما هنگام تخمین اثرات ژنتیکی مستقیم، به عنوان عوامل مخدوش‌گر عمل می‌کنند. ما از دو رویکرد مختلف برای درک سهم نسبی اثرات ژنتیکی غیرمستقیم در یافته‌های اصلی خود استفاده کردیم.

در کوهورت مستقل Lifelines (تعداد = ۳۶٬۵۰۱)، ۸ از ۱۰ شاخص چندژنی (PGIs) با رشته‌های مربوطه خود در سطح P < ۰.۰۰۵ مرتبط بودند (جدول تکمیلی ۱۰)، اگرچه اندازه‌های اثر کوچک تا ناچیز بود. بزرگترین ارتباطات برای هنر و علوم انسانی (تغییر در لگاریتم شانس = ۰.۲۲، خطای استاندارد = ۰.۰۳ و R² = ۰.۰۰۵۲۹، که R² ضریب تعیین کاذب برای مدل لجستیک است) و علوم طبیعی، ریاضیات و آمار (تغییر در لگاریتم شانس = ۰.۱۷، خطای استاندارد = ۰.۰۴، R² = ۰.۰۰۲۸۳) بود. سپس، در یک زیرنمونه از ۱۷٬۷۰۵ فرد، ما مجموع شاخص‌های PGI والدین آنها را به عنوان یک متغیر کنترل وارد کردیم. این کار از تنوع ژنتیکی تصادفی درون خانواده برای تخمین اثرات ژنتیکی مستقیم بدون عوامل مخدوش‌گر بهره برد. اثرات ژنتیکی مستقیم به طور معناداری با تخمین‌های جمعیتی تفاوت نداشت، که نشان‌دهنده عدم وجود شواهد برای اثرات ژنتیکی غیرمستقیم بر ارتباطات جمعیتی است (شکل ۲ و جدول تکمیلی ۱۱؛ نتایج بوت‌استرپ را در جدول تکمیلی ۱۲ ببینید). با این حال، توان آماری برای تحلیل‌های درون خانواده در زیرنمونه کمتر بود و تنها دو ارتباط PGI-رشته در سطح P < ۰.۰۰۵ از نظر آماری معنادار باقی ماندند. نتایج هنگام استفاده از مدل‌های خطی به جای لجستیک مشابه بود (جداول تکمیلی ۱۳ و ۱۴).

شکل ۲: ارتباطات PGI با رشته‌های تحصیلی در یک کوهورت مستقل هلندی.
شکل ۲

داده‌ها به صورت تخمین اثر با بازه‌های اطمینان ۹۹.۵٪ ارائه شده‌اند. تحلیل آماری از رگرسیون لجستیک با آزمون‌های دوطرفه استفاده کرده است. مقایسه‌های چندگانه با استفاده از تصحیح بونفرونی (α = ۰.۰۰۵ برای ۱۰ فرضیه؛ * نشان‌دهنده اهمیت آماری در سطح ۰.۰۰۵ است) تعدیل شدند (تعداد = ۳۶٬۵۰۱ برای تخمین اثرات جمعیتی و ۱۷٬۷۰۵ برای تخمین اثرات ژنتیکی مستقیم و اثرات ژنتیکی غیرمستقیم والدین). اثرات ژنتیکی مستقیم، تخمین‌های علی درون خانواده هستند، در حالی که اثرات ژنتیکی غیرمستقیم والدین می‌توانند تحت تأثیر قشربندی جمعیت و سایر همبستگی‌های ژن-محیط قرار گیرند. ارتباطات معنادار PGI درون خانواده برای هنر و علوم انسانی (تغییر در لگاریتم شانس = ۰.۲۴۵، P = ۰.۰۰۰۸) و مهندسی، تولید و ساخت‌وساز (تغییر در لگاریتم شانس = ۰.۱۵، P = ۰.۰۰۰۲) مشاهده شد.

علاوه بر این، ما همسرگزینی همسان در زمینه رشته‌های تحصیلی را بررسی کردیم. ما آزمایش کردیم که آیا همان شاخص‌های PGI رشته تحصیلی همسر یا شریک زندگی فرد را پیش‌بینی می‌کنند (تعداد = ۲۸٬۵۸۱). برای رشته‌های آموزش، هنر و علوم انسانی، و خدمات، شاخص PGI با رشته تحصیلی همسر یا شریک زندگی در سطح P < ۰.۰۰۵ مرتبط است (جدول تکمیلی ۱۵).

ما مطالعات GWAS رشته‌های تحصیلی را در MoBa با کنترل (۱) شهرداری محل تولد و (۲) محل تولد و رشته‌های تحصیلی والدین انجام دادیم. سپس با استفاده از آمارهای خلاصه حاصل، وراثت‌پذیری SNP را برای تقریب واریانس ژنتیکی درون-منطقه‌ای و درون-منطقه‌ای-و-خانوادگی محاسبه کردیم. شکل ۳ نشان می‌دهد که شواهد کمی برای وجود عوامل مخدوش‌گر وجود داشت: تخمین‌های وراثت‌پذیری پس از افزودن کنترل‌های جغرافیایی و والدین به طور قابل توجهی پایین‌تر نبودند. مدل‌سازی نسبت‌های وراثت‌پذیری در Genomic SEM طبق مرجع نشان داد که هیچ یک از تخمین‌های تعدیل‌شده به طور معناداری با تخمین‌های اصلی تفاوت نداشت، به جز برای علوم اجتماعی، روزنامه‌نگاری و اطلاعات. برای این رشته، وراثت‌پذیری SNP از ۱۱٪ به ۷٪ کاهش یافت (P = ۰.۰۳؛ برای نتایج وراثت‌پذیری و نسبت‌ها و مقادیر P به ترتیب به جداول تکمیلی ۱۶ و ۱۷ مراجعه کنید).

شکل ۳: تخمین‌های وراثت‌پذیری SNP برای رشته‌های تحصیلی با کنترل محل تولد و رشته‌های تحصیلی والدین.
شکل ۳

داده‌ها به صورت تخمین نقطه‌ای با بازه‌های اطمینان ۹۵٪ ارائه شده‌اند. تحلیل آماری از رگرسیون امتیاز LD با آزمون‌های دوطرفه استفاده کرده است. مجموع حجم نمونه‌های مؤثر از ۴۰٬۰۷۲ برای علوم طبیعی، ریاضیات و آمار تا ۳۱۷٬۲۰۹ برای مهندسی، تولید و ساخت‌وساز متغیر بود.

حتی پس از در نظر گرفتن عوامل مخدوش‌گر محیطی، اثرات ژنتیکی مستقیم از طریق محیط واسطه می‌شوند (برای توضیح چگونگی اعمال سازوکارهای همبستگی ژن-محیط در اینجا به شکل تکمیلی ۲۴ مراجعه کنید).

مؤلفه‌های فنی-اجتماعی و عملی-انتزاعی در طبقه‌بندی افراد

ما طبقه‌بندی ژنتیکی در رشته‌های تحصیلی را از طریق همبستگی ژنتیکی و تحلیل مؤلفه‌های اصلی (PCA) خلاصه کردیم. ابتدا، همبستگی‌های ژنتیکی دوتایی بین رشته‌ها را با استفاده از نتایج GWAS-تفریقی تخمین زدیم تا مؤلفه‌های کلیدی مدارک تحصیلی فراتر از سطح تحصیلات را شناسایی کنیم. شکل ۴ نشان می‌دهد که رشته‌های STEM همبستگی مثبتی داشتند (برای مثال، ICTs و علوم طبیعی (همبستگی رتبه‌ای اسپیرمن (rg) = ۰.۵۱، خطای استاندارد = ۰.۱۱))، همانطور که هنر و علوم انسانی با علوم اجتماعی همبستگی داشتند (برای همبستگی‌های ژنتیکی بین رشته‌ها به جدول تکمیلی ۱۸ مراجعه کنید). دوم، برای قابل فهم‌تر کردن روابط متقابل و شناسایی الگوهای کلیدی طبقه‌بندی در رشته‌ها، ما PCA را به کار بردیم. دو محور اول تغییرات (PCs) در مجموع ۶۴٪ از واریانس را توضیح می‌دهند (برای نتایج PCA به جدول تکمیلی ۱۹ مراجعه کنید). اگرچه تحلیل موازی نشان داد که سه مؤلفه اصلی قابل استخراج هستند (شکل تکمیلی ۲۵)، ما برای سادگی و قابلیت تفسیر بر دو مؤلفه اصلی اول تمرکز کردیم.

شکل ۴: همبستگی‌های ژنتیکی بین رشته‌های تحصیلی تعدیل‌شده برای سطح تحصیلات با استفاده از GWAS تفریقی.
شکل ۴

داده‌ها به صورت ضرایب همبستگی ژنتیکی ارائه شده‌اند. تحلیل آماری از رگرسیون امتیاز LD با آزمون‌های دوطرفه استفاده کرده است.

شکل ۵ سهم ارتباطات ژنتیکی هر رشته را در دو مؤلفه اصلی اول نشان می‌دهد. همبستگی بین یک رشته تحصیلی و یک مؤلفه اصلی به عنوان مختصات متغیر روی آن مؤلفه استفاده می‌شود. مؤلفه اصلی اول (PC1) (محور افقی در شکل ۵)، که ما آن را «فنی در برابر اجتماعی» می‌نامیم، منعکس‌کننده تنوع ژنتیکی مرتبط با مدارک در مهندسی، تولید و ساخت‌وساز و علوم طبیعی، ریاضیات و آمار در مقابل آموزش و بهداشت و رفاه است. مؤلفه اصلی دوم (PC2) (محور عمودی در شکل ۵)، که ما آن را «عملی در برابر انتزاعی» می‌نامیم، منعکس‌کننده تنوع ژنتیکی مرتبط با مدارک در خدمات و بهداشت و رفاه در مقابل علوم اجتماعی، روزنامه‌نگاری و اطلاعات و هنر و علوم انسانی است. ساختار همبستگی‌های ژنتیکی بین رشته‌ها بدون کنترل برای سطح تحصیلات در شکل تکمیلی ۲۶ نشان داده شده است.

شکل ۵: دو مؤلفه اصلی اول از تنوع ژنتیکی مرتبط با رشته‌های تحصیلی.
شکل ۵

داده‌ها به صورت بارهای عاملی مؤلفه‌های اصلی (PC loadings) ارائه شده‌اند. تحلیل آماری از PCA استفاده کرده است. متغیرهای با همبستگی مثبت با هم گروه‌بندی شده‌اند و متغیرهای با همبستگی منفی در طرفین مخالف مبدأ نمودار قرار گرفته‌اند؛ متغیرهایی که از مبدأ دورتر هستند به خوبی نمایش داده شده‌اند. مجموع حجم نمونه‌های مؤثر به شرح زیر است: برای PC1 = ۱۰٬۴۱۳ و برای PC2 = ۷٬۳۵۳.

ما مطالعات GWAS مؤلفه‌های اصلی را انجام دادیم (طبق مرجع). PC1 شش ارتباط SNP با اهمیت آماری در سطح ژنوم نشان داد و PC2 هیچ ارتباطی نشان نداد (برای SNPهای اصلی به جدول تکمیلی ۲ج، برای نمودارهای منهتن به شکل‌های تکمیلی ۲۷ و ۲۸ و برای همبستگی‌های ژنتیکی بین مؤلفه‌های اصلی و رشته‌های تحصیلی منفرد به جدول تکمیلی ۱۸ مراجعه کنید).

همبستگی‌های ژنتیکی دو مؤلفه اصلی

شکل ۶ همبستگی‌های ژنتیکی با این دو مؤلفه اصلی و ۹۶ فنوتیپ انسانی در سطح فِنوم را نشان می‌دهد که حوزه‌هایی از جمله شخصیت، سلامت روان، مصرف مواد، سلامت و باروری را در بر می‌گیرد (جدول تکمیلی ۲۰).

شکل ۶: همبستگی‌های ژنتیکی بین دو مؤلفه اصلی تخصص‌های رشته تحصیلی و ۹۶ فنوتیپ انسانی.
شکل ۶

داده‌ها به صورت ضرایب همبستگی با بازه‌های اطمینان ۹۵٪ ارائه شده‌اند. تحلیل آماری از رگرسیون امتیاز LD با آزمون‌های دوطرفه استفاده کرده است. تصحیح FDR برای مقایسه‌های چندگانه در ۹۶ فنوتیپ اعمال شد. GWASهای رشته‌های تحصیلی برای سطح تحصیلات تعدیل شدند. ADHD، اختلال کم‌توجهی و/یا بیش‌فعالی؛ ALS، اسکلروز جانبی آمیوتروفیک؛ BMI، شاخص توده بدنی؛ cog، شناختی؛ FDR، نرخ کشف کاذب؛ HDL، لیپوپروتئین با چگالی بالا؛ LDL، لیپوپروتئین با چگالی پایین؛ MDD، اختلال افسردگی اساسی؛ OCD، اختلال وسواس فکری-عملی؛ PTSD، اختلال استرس پس از سانحه؛ ISEI، شاخص بین‌المللی اجتماعی-اقتصادی وضعیت شغلی؛ SIOPS، مقیاس بین‌المللی استاندارد اعتبار شغلی؛ CAMSIS، مقیاس تعامل اجتماعی و قشربندی کمبریج.

همبستگی ژنتیکی مثبت با PC1 نشان‌دهنده ارتباط با رشته‌های فنی است، در حالی که همبستگی منفی با PC1 نشان‌دهنده ارتباط با رشته‌های اجتماعی است. PC1 با برون‌گرایی و سازگاری همبستگی ژنتیکی منفی داشت (به ترتیب rg = -۰.۴۲ و -۰.۳۷). همبستگی‌های ژنتیکی منفی معناداری نیز با مصرف آزمایشی حشیش (rg = -۰.۲۳)، وابستگی به الکل (rg = -۰.۲۰) و شش تشخیص روانپزشکی (میانگین rg = -۰.۱۸) مشاهده شد، در حالی که همبستگی ژنتیکی با تعداد سیگار در روز مثبت بود (rg = ۰.۱۴). PC1 با حافظه و ضریب هوشی کودکی و بزرگسالی همبستگی ژنتیکی مثبت داشت (به ترتیب rg = ۰.۳۷ و ۰.۱۹)، اما با درآمد و مهارت‌های غیرشناختی همبستگی ژنتیکی منفی داشت (به ترتیب rg = -۰.۱۳ و -۰.۱۰).

همبستگی ژنتیکی مثبت با PC2 نشان‌دهنده ارتباط با رشته‌های عملی است، در حالی که همبستگی منفی با PC2 نشان‌دهنده ارتباط با رشته‌های تحصیلی انتزاعی است. PC2 با شخصیت باز، اوتیسم، اسکیزوفرنی، اختلال دوقطبی و مصرف آزمایشی حشیش همبستگی ژنتیکی منفی داشت (به ترتیب rg = -۰.۳۱، -۰.۲۷، -۰.۱۶، -۰.۱۲ و -۰.۱۳). همبستگی‌های ژنتیکی منفی نیز با دو شاخص باروری مشاهده شد: سن در اولین تولد و سن در اولین رابطه جنسی (rg = -۰.۱۹ و -۰.۱۵). PC2 با ملاقات دوستان یا خانواده و رضایت از روابط خانوادگی همبستگی ژنتیکی مثبت داشت (rg = ۰.۲۴ و ۰.۲۳) و با شاخص توده بدنی بالاتر و نسبت دور کمر به باسن (rg = ۰.۱۹ و ۰.۱۷).

اگرچه آمارهای خلاصه PC2 برای سطح تحصیلات با استفاده از GWAS تفریقی تعدیل شده بودند، PC2 همچنان به طور معناداری با وضعیت شغلی، سطح تحصیلات و ضریب هوشی کودکی همبستگی ژنتیکی (منفی) دارد (rg = -۰.۲۶، -۰.۲۱، -۰.۲۹)، و همچنین با خلاقیت شغلی (rg = -۰.۳۵). قابل ذکر است که PC2 با یک عامل پنهان که ثبات اجتماعی و اقتصادی را در Biobank بریتانیا نشان می‌دهد، همبستگی ژنتیکی مثبت داشت (rg = ۰.۱۸؛ این به اصطلاح عامل ۱۵ به شبکه‌های حمایت اجتماعی، تنهایی، مالکیت خانه، درآمد خانوار و هرگز طلاق نگرفتن مربوط می‌شود)، اما با دو عامل دیگر که نماینده شغل یا محیط کار (F5) و سطح تحصیلات (F10) هستند، همبستگی منفی داشت (rg = -۰.۱۸ برای هر دو).

شواهد محدود برای تفاوت‌های جنسیتی

مؤلفه اجتماعی-فنی (PC1) تفکیک جنسیتی قوی نشان می‌دهد: ۸۴٪ از مدارک مهندسی به مردان و ۸۸٪ از مدارک بهداشت و رفاه به زنان تعلق دارد (شکل تکمیلی ۲۹). برای بررسی نقش جنسیت در ساختار ارتباطات ژنتیکی با رشته‌های تحصیلی، ما دو تحلیل انجام دادیم. اول، PCA را با حذف رشته‌هایی که به شدت دارای سوگیری جنسیتی بودند (≥۷۰٪ یک جنس: مهندسی، بهداشت و آموزش) تکرار کردیم. دوم، GWASهای تفکیک‌شده بر اساس جنسیت انجام دادیم و PCA را تکرار کردیم. هر دو تحلیل ساختار ژنتیکی سازگاری را در بین جنسیت‌ها نشان دادند (شکل‌های تکمیلی ۳۰-۳۲). تخمین‌های وراثت‌پذیری SNP بین مردان و زنان مشابه بود، اما همبستگی‌های ژنتیکی بین دو جنس به طور گسترده‌ای از ۰.۱۷ (مهندسی) تا ۰.۷۲ (علوم طبیعی) متغیر بود (جدول تکمیلی ۲۱). با این حال، چندین عامل نتیجه‌گیری‌های قوی در مورد تفاوت‌های جنسیتی را محدود می‌کنند. حجم نمونه برای تحلیل‌های مختص جنسیت پایین بود (حداقل ۹۵۲ مورد ICT برای زنان) و رشته‌های گسترده شامل زیررشته‌های ناهمگنی با توزیع جنسیتی متفاوت هستند. همبستگی‌های ژنتیکی پایین ممکن است منعکس‌کننده صفات وراثتی متفاوت برای انتخاب زیررشته‌ها (به عنوان مثال، ساخت‌وساز در مقابل مهندسی) باشد تا تفاوت‌های جنسیتی بنیادین در ارتباطات ژنتیکی.

بحث

طبقه‌بندی در رشته‌های تحصیلی هم برای افراد و هم برای جامعه مهم است: بر سلامت، بهزیستی و موفقیت، و همچنین دانش و مهارت‌های موجود در عرضه نیروی کار تأثیر می‌گذارد. با استفاده از داده‌های سراسری جمعیت از فنلاند و نروژ، ما ارتباطات ژنتیکی با تخصص‌های رشته‌ای را مستقل از سطح تحصیلات نشان دادیم. تحلیل‌های درون-خانوادگی در یک کوهورت مستقل هلندی نشان داد که اینها منعکس‌کننده اثرات ژنتیکی مستقیم هستند نه عوامل مخدوش‌گر. ما دو بعد کلیدی را کشف کردیم که طبقه‌بندی در رشته‌ها را توصیف می‌کنند: فنی در برابر اجتماعی و عملی در برابر انتزاعی. همبستگی‌های ژنتیکی گسترده بین این مؤلفه‌ها و شخصیت، باروری، سلامت روان، مصرف مواد و وضعیت اجتماعی-اقتصادی، فرضیه‌های فراوانی را برای تحلیل‌های بعدی در مورد علایق شغلی و قشربندی افقی فراهم می‌کند.

ما دریافتیم که تخمین‌های وراثت‌پذیری SNP برای انتخاب رشته تحصیلی به طور متوسط ۷٪ است. اینها تخمین‌های حداقل از نقش عوامل ژنتیکی هستند زیرا روش ما فقط اثرات تجمعی واریانت‌های رایج را که توسط آرایه‌های ژنوتیپ‌سنجی مشخص می‌شوند، در بر می‌گیرد، نه کل وراثت‌پذیری با مفهوم گسترده (مشکل وراثت‌پذیری گمشده). در دو رویکرد مختلف، یعنی ارتباطات PGI درون-خانوادگی و GWASهای با کنترل محل تولد و رشته‌های والدین، ما شواهدی برای مخدوش شدن اثرات ژنتیکی مشاهده نکردیم. با این حال، فقدان توان آماری برای تحلیل‌های درون-خانوادگی ما را از نتیجه‌گیری‌های قوی باز داشت و نتایج همبستگی ژنتیکی نشان‌دهنده تعامل قابل توجه با عوامل اجتماعی-اقتصادی بود. مطالعات آینده در مقیاس بزرگ و مبتنی بر خانواده باید این اثرات را کمی‌سازی کنند. با توجه به نتایج خودمان و شواهد جامعه‌شناختی پیشین مبنی بر اینکه بازتولید خانوادگی انتخاب رشته یک کانال انتقال مستقل از سطح تحصیلات است، اثرات ژنتیکی غیرمستقیم بر انتخاب رشته تحصیلی ممکن است کوچکتر از اثرات آن بر سطح تحصیلات باشد. با این وجود، عوامل محیطی والدین احتمالاً میانجی‌های کلیدی اثرات ژنتیکی مستقیم هستند.

تحلیل ژنتیکی روابطی را آشکار کرد که مطالعه آنها به صورت فنوتیپی دشوار است، مانند همپوشانی بین علوم اجتماعی و هنر و علوم انسانی. از طریق کاهش ابعاد همبستگی‌های ژنتیکی، ما شواهد جدیدی در مورد الگوهای طبقه‌بندی در رشته‌ها ارائه دادیم. ما دو بعد مهم یافتیم: فنی در برابر اجتماعی (PC1) و عملی در برابر انتزاعی (PC2). PC1 منعکس‌کننده تمایز در رشته‌هایی است که با اشیاء در مقابل افراد سروکار دارند (مثلاً مهندسی در برابر آموزش)، در حالی که PC2 تمایز در فعالیت‌های عملی و کاربردی در مقابل نظری و اکتشافی را نشان می‌دهد (مثلاً خدمات در برابر علوم اجتماعی). این مؤلفه‌های اصلی به خوبی با نظریه‌های اصلی در علوم اجتماعی مطابقت داشتند. مدل علایق شغلی واقع‌گرا، جستجوگر، هنری، اجتماعی، کارآفرین و قراردادی، که به طور گسترده توسط مشاوران شغلی استفاده می‌شود، شامل علایق اجتماعی و واقع‌گرا (مانند PC1) و علایق جستجوگر یا هنری و واقع‌گرا یا قراردادی (مانند PC2) است. این مؤلفه‌های اصلی همچنین با نظریه جامعه‌شناختی که منابع آموزشی اصلی را که افراد در آنها سرمایه‌گذاری می‌کنند (ارتباطی، فنی، فرهنگی و اقتصادی) مشخص می‌کند، مطابقت دارد. این همگرایی بین تحلیل ژنتیکی بدون فرضیه و نظریه علوم اجتماعی، اعتبار جدیدی برای چارچوب‌های موجود فراهم می‌کند. شناسایی الگوهای طبقه‌بندی اجتماعی بدون نیاز به نظریه یا اندازه‌گیری مستقیم ترجیحات، نشان می‌دهد که چگونه رویکردهای ژنتیکی ممکن است مکمل تحقیقات علوم اجتماعی باشند (برای نتایج مشابه در مورد نابرابری‌های اجتماعی و بهداشتی، به مرجع مراجعه کنید).

با نشان دادن اینکه چگونه مدارک فنی-اجتماعی و عملی-انتزاعی در سطح ژنتیکی با ۹۶ فنوتیپ انسانی همبستگی دارند، ما دامنه تحقیقات علوم اجتماعی در مورد رشته‌های تحصیلی را گسترش دادیم. اگرچه مطالعات، علل و پیامدهای علایق و مدارک تحصیلی، مانند شخصیت، درآمد و باروری را بررسی کرده‌اند، اما این مطالعات به دلیل دشواری اندازه‌گیری پیامدهای در سطح فِنوم در مقیاس بزرگ در یک نمونه، محدود بوده‌اند. بنابراین ما حوزه‌های جدیدی مانند سلامت روان، مصرف مواد، رضایت از روابط و اندازه بدن را وارد کردیم.

بسیاری از نتایج همبستگی ژنتیکی با این تفسیر سازگار است که مؤلفه‌های اصلی، علایق شغلی وراثتی افراد را منعکس می‌کنند. مؤلفه فنی-اجتماعی با صفات اجتماعی که در اوایل زندگی شکل می‌گیرند مانند برون‌گرایی، سازگاری و فراوانی دیدارهای اجتماعی، همبستگی ژنتیکی دارد. مؤلفه عملی-انتزاعی تمایلات فردی به سمت شخصیت باز و خلاقیت را نشان می‌دهد. روابط ژنتیکی مثبت با اسکیزوفرنی و اختلال دوقطبی با شواهدی که نشان می‌دهد بستگان افراد مبتلا به احتمال بیشتری مشاغل خلاقانه دارند، همخوانی دارد. علایق شغلی و تناسب بین کار فرد و علایقش نقش مهمی در انتخاب‌های شغلی، بهره‌وری و یافتن معنا در زندگی ایفا می‌کند. شناسایی ارتباطات سراسر ژنوم با علایق به دلیل عدم وجود نمونه‌های ژنوتیپ‌شده با توان کافی، امکان‌پذیر نبوده است. ما یک GWAS جدید بر روی یک نماینده (پراکسی) از علاقه از طریق انتخاب رشته تحصیلی ارائه دادیم.

نتایج همچنین الگوهای گسترده‌تر قشربندی اجتماعی را منعکس می‌کنند. مؤلفه انتزاعی-عملی (PC2) به شاخص‌های سنتی «عمودی» اجتماعی-اقتصادی از جمله وضعیت شغلی مربوط می‌شود. این ممکن است تا حدی منعکس‌کننده حذف ناقص واریانس سطح تحصیلات باشد، اگرچه همبستگی ژنتیکی بین PC2 و EA کوچک باقی می‌ماند و رشته‌های انتزاعی-عملی به وضوح بر اساس سطح تحصیلات الگو ندارند (حدود ۴۰٪ از فارغ‌التحصیلان خدمات و کشاورزی دارای مدرک کارشناسی هستند در مقابل ۷۶٪ برای بهداشت و رفاه). بنابراین، این یافته‌ها ممکن است نشان‌دهنده این باشند که چگونه منابع اجتماعی و اقتصادی در مسیرهای تحصیلی انتزاعی اهمیت بیشتری دارند. برخلاف رشته‌های عملی مانند آموزش و مراقبت‌های بهداشتی که به مشاغل دولتی رفاهی گرایش دارند، مدارک انتزاعی اغلب به مشاغل نخبه در رسانه‌ها، سیاست، پژوهش، حقوق و هنر منجر می‌شوند که معمولاً برای خانواده‌های مرفه در دسترس‌تر هستند. جالب است که نتایج ژنتیکی ما تصویر ظریف‌تری نسبت به شاخص‌های مرسوم جایگاه اجتماعی ترسیم می‌کنند و به طور بالقوه معایب مسیرهای تحصیلی نخبه را شناسایی می‌کنند: تمایل به رشته‌های انتزاعی به جای عملی با بی‌ثباتی اجتماعی-اقتصادی، از جمله تنهایی، طلاق، رضایت کمتر از روابط و خطرات بالاتر اختلالات روانپزشکی مرتبط است.

چرا واریانت‌های ژنتیکی با رشته تحصیلی مرتبط هستند؟ در زمینه‌های نوردیک با تحصیل رایگان و شبکه‌های ایمنی قوی، اثرات ژنتیکی احتمالاً از طریق ترجیحات و مهارت‌های فردی عمل می‌کنند تا محدودیت‌های منابع. با این حال، سازوکارها اساساً اجتماعی باقی می‌مانند—تمایلات ژنتیکی از طریق همبستگی‌های ژن-محیط که از اوایل زندگی آغاز می‌شوند، با محیط‌ها تعامل دارند. هنجارهای جنسیتی یک میانجی اجتماعی کلیدی هستند، با کلیشه‌هایی که از همان ابتدا بر انتخاب رشته تحصیلی تأثیر می‌گذارند. به عنوان مثال، هم دختران و هم پسران تمایل دارند از مسیرهای تحصیلی زنانه دور شوند و شکاف جنسیتی در رشته‌های STEM تا حدی به دلیل بهره‌مندی پسران از سوگیری‌های معلمان است. نتایج همچنین می‌توانند اثرات پایین‌دستی پیش‌نیازهای برنامه‌های آموزشی را منعکس کنند و ترک تحصیل به دلیل عدم تناسب فرد-محیط یا تبعیض را نشان دهند. نتایج، تأثیرات احتمالی را که از طریق زمینه‌های اجتماعی واسطه می‌شوند، منعکس می‌کنند، نه جبرگرایی ژنتیکی.

همانطور که در سند پرسش‌های متداول ما بحث شده است، تفسیرهای جبرگرایانه از ارتباطات ژنتیکی با پیامدهای پیچیده‌ای مانند رشته‌های تحصیلی، اشتباه است. عوامل ژنتیکی تخصص‌های رشته‌ای را تعیین نمی‌کنند، بلکه به طور احتمالی بر تمایلات افراد تأثیر می‌گذارند که از طریق تعامل و واسطه‌گری زمینه اجتماعی و ساختاری، با پیامدهای تحصیلی همبسته می‌شوند. اگر زمینه اجتماعی تغییر کند، ممکن است ارتباطات ژنتیکی نیز تغییر کنند. عوامل ژنتیکی مرتبط با انتخاب رشته ممکن است متفاوت به نظر برسند اگر افراد تشویق شوند تا طیف وسیع‌تری از موضوعات را کشف کنند، اگر مهارت‌های دخیل در رشته‌های خاص متفاوت باشند، یا هنجارهای جنسیتی یا بازده اقتصادی رشته‌ها تغییر کند. در کشورهایی که نابرابری اجتماعی بیشتر است و پیامدهای اجتماعی-اقتصادی برخی انتخاب‌های رشته‌ای پرخطرتر از کشورهای نوردیک است، وراثت‌پذیری انتخاب رشته ممکن است کمتر باشد و پیوند با علایق و ترجیحات فردی ممکن است کمتر برجسته باشد.

مطالعه ما چندین محدودیت دارد. اول، دسته‌بندی‌های گسترده رشته‌ای ممکن است سیگنال‌های ژنتیکی خاص را پنهان کنند—به عنوان مثال، مهندسی و ساخت‌وساز با وجود گروه‌بندی با هم، تفاوت‌های قابل توجهی دارند. با افزایش حجم نمونه در آینده، مطالعه گروه‌های همگن‌تر در دسته‌بندی‌های رشته‌ای محدودتر با استفاده از روش‌های GWAS امکان‌پذیر خواهد شد. دوم، اگرچه این یک مزیت مطالعه است که ما از دو رویکرد سختگیرانه برای کنترل عوامل مخدوش‌گر ناشی از همبستگی غیرفعال ژن-محیط و قشربندی جمعیت استفاده کردیم، این تحلیل‌ها توان آماری کافی نداشتند. علاوه بر این، تخمین‌های وراثت‌پذیری SNP تعدیل‌شده برای محل تولد و رشته‌های والدین هنوز هم می‌توانند مخدوش باشند اگر رشته‌های والدین همبستگی ژنتیکی کاملی با رشته‌های فرزندان نداشته باشند (به عنوان مثال، تفاوت‌های نسلی) یا تحت تأثیرات اجتماعی بستگان دیگر مانند عمه‌ها، عموها و پسرعموها باشند. سوم، نتایج از جمعیت‌های اروپایی در جوامع برابرطلب ممکن است به زمینه‌های متنوع یا نظام‌های رفاهی مختلف تعمیم نیابد. چهارم، اگر یک SNP با بودن در یک رشته ارتباط مثبت داشته باشد، به طور مکانیکی با بودن در رشته‌های دیگر ارتباط منفی دارد. کارهای آینده باید بررسی کنند که چگونه این موضوع رگرسیون ظاهراً نامرتبط، ساختار ژنتیکی رشته‌ها را تحت تأثیر قرار می‌دهد، به عنوان مثال، از طریق رگرسیون چندجمله‌ای.

این یافته‌ها مسیرهای تحقیقاتی جدیدی را در زمینه علایق شغلی و قشربندی افقی باز می‌کنند. ما ابعاد کیفی آموزشی را برای تکمیل ادبیات کمی GWAS در مورد پیشرفت‌های تحصیلی و مالی معرفی کردیم. آمارهای خلاصه ما مطالعاتی در مورد توسعه علایق در اوایل زندگی، تعاملات ژن-محیط و اثرات علی انتخاب رشته بر سلامت و درآمد را امکان‌پذیر می‌سازد. پیشرفت نیازمند روش‌های مبتنی بر خانواده در مقیاس بزرگ است که دیدگاه‌های بین‌رشته‌ای در مورد ترجیحات فردی و هنجارهای اجتماعی را ادغام کند.

برای پاسخ به سؤالات رایج در مورد تفسیر ارتباطات ژنتیکی با رشته‌های تحصیلی، به سند پرسش‌های متداول ما در یادداشت‌های تکمیلی یا به صورت آنلاین در https://www.thehastingscenter.org/genomic-findings-on-social-and-behavioral-outcomes-faqs/ و https://github.com/rosacheesman/Fields_genetics/wiki/Frequently-Asked-Questions-(FAQ) مراجعه کنید.

روش‌ها

اخلاق

این مطالعه با تمام مقررات اخلاقی مربوطه مطابقت دارد. مطالعه کوهورت مادر، پدر و کودک نروژ (MoBa) توسط کمیته‌های منطقه‌ای اخلاق در پژوهش‌های پزشکی و بهداشتی تأیید شده است (پروتکل شماره 2017/2205) و تحت قانون ثبت سلامت نروژ عمل می‌کند، و مدیریت داده‌ها توسط دانشگاه اسلو تحت توافق‌نامه‌هایی با آمار نروژ انجام می‌شود. FinnGen تأییدیه کمیته هماهنگ‌کننده اخلاق منطقه بیمارستانی هلسینکی و یوسیما را دریافت کرده است (پروتکل شماره HUS/990/2017)، و شرکت‌کنندگان تحت قانون بیوبانک فنلاند و چندین مجوز سازمانی از مقامات بهداشتی فنلاند رضایت آگاهانه ارائه داده‌اند. Lifelines توسط کمیته اخلاق پزشکی مرکز پزشکی دانشگاه گرونینگن (UMCG) تأیید شده است (2007/152). همه شرکت‌کنندگان رضایت آگاهانه ارائه دادند و داده‌ها در امکانات امن مطابق با مقررات ملی حفاظت از داده‌ها پردازش شدند. برای جزئیات کامل تأییدیه‌های اخلاقی به یادداشت تکمیلی مراجعه کنید.

زمینه‌ها

تحلیل‌های اصلی ما بر اساس داده‌های فنلاند و نروژ بود که هر دو دولت‌های رفاهی سوسیال دموکرات هستند و با «مدل اسکاندیناوی» آموزش برای همه مطابقت دارند. در مقایسه با سایر کشورهای پردرآمد، نابرابری اقتصادی پایین است و دسترسی به آموزش کمتر توسط موانع اقتصادی محدود می‌شود. به عنوان مثال، نروژ و فنلاند شهریه رایگان، وام‌های مقرون‌به‌صرفه و یارانه‌های عمومی سخاوتمندانه برای دانشجویان دارند. با این حال، با وجود معکوس شدن شکاف جنسیتی در پیشرفت تحصیلی، تفکیک جنسیتی در رشته‌های تحصیلی همچنان ادامه دارد. به همین ترتیب، بازارهای کار نوردیک از جمله جنسیتی‌ترین بازارها هستند.

ما همچنین یک نمونه هلندی را تحلیل کردیم. هلند به عنوان یک دولت رفاهی محافظه‌کار تعریف شده است. نسبت به دولت‌های رفاهی سوسیال دموکرات، قشربندی اجتماعی در آموزش بیشتر است، که تا حدی به دلیل تفکیک زودهنگام تحصیلی و شهریه‌ها است.

نمونه‌ها

FinnGen

FinnGen (https://www.finngen.fi/en)، که در سال ۲۰۱۷ راه‌اندازی شد، یک پروژه تحقیقاتی عمومی-خصوصی است که داده‌های ژنوم و مراقبت‌های بهداشتی دیجیتال حدود ۵۰۰٬۰۰۰ فنلاندی را ترکیب می‌کند. این پروژه تحقیقاتی سراسری با هدف ارائه بینش‌های جدید پزشکی و درمانی مرتبط با بیماری‌های انسانی انجام می‌شود. FinnGen یک مشارکت پیش‌رقابتی از بیوبانک‌های فنلاند و سازمان‌های پشتیبان آنها (دانشگاه‌ها و بیمارستان‌های دانشگاهی) و شرکای صنعت داروسازی بین‌المللی و تعاونی بیوبانک فنلاند (FINBB) است. تمام شرکای FinnGen در https://www.finngen.fi/en/partners فهرست شده‌اند. این پروژه از داده‌های ثبت سلامت طولی سراسری که از سال ۱۹۶۹ از هر ساکن فنلاند جمع‌آوری شده، استفاده می‌کند. تحلیل‌ها بر روی افراد بالای ۲۵ سال با داده‌های کامل برای ژنوتیپ‌سنجی سراسر ژنوم و سوابق تحصیلی کامل انجام شد.

مطالعه کوهورت مادر، پدر و کودک نروژ

ما بزرگسالانی را که در MoBa شرکت کرده بودند، مطالعه کردیم. MoBa یک مطالعه کوهورت بارداری مبتنی بر جمعیت و آینده‌نگر است که توسط مؤسسه بهداشت عمومی نروژ انجام شده است. زنان باردار از سراسر نروژ بین سال‌های ۱۹۹۹ تا ۲۰۰۹ جذب شدند. در ۴۱٪ از بارداری‌ها، زنان با شرکت اولیه موافقت کردند. از پدرانی که برای شرکت دعوت شدند، ۸۲.۹٪ موافقت کردند. کل کوهورت شامل تقریباً ۱۱۴٬۵۰۰ کودک، ۹۵٬۲۰۰ مادر و ۷۵٬۲۰۰ پدر است. تحلیل‌ها بر روی والدین MoBa بالای ۲۵ سال با داده‌های کامل برای ژنوتیپ‌سنجی سراسر ژنوم و سوابق اداری کامل که از طریق سیستم شماره شناسایی ملی نروژ به MoBa پیوند داده شده بود، انجام شد (تعداد = ۱۲۵٬۰۱۶).

Lifelines هلند

Lifelines یک مطالعه کوهورت چندرشته‌ای، آینده‌نگر و مبتنی بر جمعیت است که در یک طرح منحصربه‌فرد سه نسلی، سلامت و رفتارهای مرتبط با سلامت ۱۶۷٬۷۲۹ نفر را که در شمال هلند زندگی می‌کنند، بررسی می‌کند. این مطالعه از طیف وسیعی از رویه‌های تحقیقی برای ارزیابی عوامل زیست‌پزشکی، جامعه‌شناختی، رفتاری، فیزیکی و روان‌شناختی که به سلامت و بیماری جمعیت عمومی کمک می‌کنند، با تمرکز ویژه بر چندبیماری و ژنتیک پیچیده استفاده می‌کند. شرکت‌کنندگان از جمعیت شمالی هلند نمونه‌گیری شدند و نمونه نهایی حدود ۱۰٪ از جمعیت منطقه را در بر می‌گیرد. بین سال‌های ۲۰۰۶ و ۲۰۱۳، پزشکان عمومی که به طور تصادفی انتخاب شده بودند، تمام بیماران ثبت‌شده خود در سنین ۲۵ تا ۴۹ سال را برای شرکت در مطالعه دعوت کردند. ما نمونه خود را به پاسخ‌دهندگان ژنوتیپ‌شده Lifelines که ≥۲۵ سال داشتند، محدود کردیم (تعداد = ۶۳٬۹۲۷). شاخص‌های PGI و ده مؤلفه اصلی اول داده‌های ژنتیکی به یک فایل داده اداری حاوی رشته‌های تحصیلی (‘HOOGSTEOPLTAB 2022, v1’) که توسط آمار هلند نگهداری می‌شود، پیوند داده شد. به دلیل وجود داده‌های گمشده در رشته‌های تحصیلی، به ویژه برای نسل‌های قدیمی‌تر، نمونه نهایی کل تعداد = ۳۶٬۵۰۱ بود.

کنترل کیفیت داده‌های ژنتیکی

FinnGen

نسخه ۱۱ FinnGen شامل داده‌های ژنوتیپ برای ۴۷۳٬۶۸۱ نفر پس از کنترل کیفیت (QC) است. در مجموع ۳۸۷٬۶۰۱ نفر با یک آرایه سفارشی FinnGen Thermo Fisher Axiom v2 ژنوتیپ‌سنجی شدند. داده‌های مربوط به ۸۶٬۰۸۰ نفر دیگر از مجموعه‌های قدیمی به دست آمد. اطلاعات بیشتر در https://finngen.gitbook.io/finngen-handbook/finngen-data-specifics/red-library-data-individual-level-data/genotype-data/affymetrix-chip-and-its-design موجود است.

MoBa

نمونه‌های خون از هر دو والدین در دوران بارداری و از مادران و کودکان (بند ناف) در هنگام تولد گرفته شد. داده‌های آرایه ژنوتیپ‌سنجی با کنترل کیفیت برای کل ۲۰۷٬۵۶۹ شرکت‌کننده منحصر به فرد MoBa اخیراً تولید شد. فازبندی و انتساب با IMPUTE4.1.2_r300.3 و با استفاده از پنل عمومی Haplotype Reference Consortium نسخه ۱.۱ به عنوان مرجع انجام شد. برای شناسایی یک زیرجمعیت با تبار مرتبط با اروپا، PCA با 1,000 Genomes فاز ۱ پس از هرس LD انجام شد. در طول کنترل کیفیت پس از انتساب، آستانه‌های زیر برای حذف SNP استفاده شد: امتیاز کیفیت انتساب (INFO) ≤۰.۸؛ فرکانس آلل مینور (MAF) <۱٪؛ نرخ فراخوانی <۹۵٪.

Lifelines هلند

نمونه‌های خون از شرکت‌کنندگان Lifelines در اولین بازدید ارزیابی جمع‌آوری شد. ژنوتیپ‌ها به عنوان بخشی از دو کوهورت جداگانه منتشر شدند. کوهورت CytoSNP بر روی آرایه Illumina CytoSNP-12v2 اندازه‌گیری شد که حدود ۳۰۰٬۰۰۰ SNP را اندازه‌گیری می‌کند. کوهورت UMCG Genetics Lifelines Initiative (UGLI) بر روی آرایه Infinium Global Screening Array MultiEthnic Disease اندازه‌گیری شد که حدود ۷۰۰٬۰۰۰ SNP را اندازه‌گیری می‌کند. داده‌های با کنترل کیفیت برای هر دو کوهورت منتشر شد. گزارش‌های QC برای CytoSNP و UGLI به ترتیب در http://wiki.lifelines.nl/doku.php?id=gwas و http://wiki.lifelines.nl/lib/exe/fetch.php?media=qc_report_ugli_r1.pdf موجود است. قبل از ساخت PGI و در هر کوهورت، ما SNPهای چندآللی، SNPهای با MAF < ۱٪، SNPهای با امتیاز INFO < ۰.۸ یا SNPهایی که در تعادل هاردی-واینبرگ نبودند (P < ۱۰-۶) را حذف کردیم. ما همچنین افرادی را با نرخ هموزیگوسیتی مقادیر ±۳ انحراف معیار حذف کردیم (حذف ۶۵۵ پاسخ‌دهنده). ما همچنین ۱٬۲۸۹ پاسخ‌دهنده از کوهورت CytoSNP را که در کوهورت UGLI نیز موجود بودند، حذف کردیم. پس از تکمیل تمام این مراحل QC، ما کوهورت‌های CytoSNP و UGLI را در یک فایل داده واحد ادغام کردیم و فقط از SNPهایی استفاده کردیم که هر دو کوهورت پس از QC مشترک داشتند (در مجموع حدود ۶.۴ میلیون SNP).

معیارها

رشته‌های تحصیلی گسترده

در هر سه کوهورت، ما داده‌های ثبتی را در مورد کدهای رشته تحصیلی گسترده که نماینده رشته تحصیلی بالاترین مدرک هر فرد تا سال ۲۰۱۸ بود، استخراج کردیم. ما کدهای رشته را در تمام سطوح بالاترین مدرک (یعنی نه فقط در سطح دانشگاه) استخراج کردیم.

برای هماهنگ‌سازی داده‌ها و تسهیل مطالعات تکراری آینده در کوهورت‌های دیگر، ما کدهای رشته گسترده را از سیستم‌های کدگذاری سطح ملی به کدهای رشته گسترده تعریف‌شده توسط ISCED 2013 (https://uis.unesco.org/sites/default/files/documents/international-standard-classification-of-education-fields-of-education-and-training-2013-detailed-field-descriptions-2015-en.pdf) تبدیل کردیم.

در FinnGen، ما از داده‌های اداری پیوندداده‌شده از آمار فنلاند برای تعریف مدارک تحصیلی افراد استفاده کردیم. سوابق رشته تحصیلی فنلاند در https://www2.stat.fi/fi/luokitukset/koulutusala/ شرح داده شده است. در MoBa، ما از داده‌های اداری پیوندداده‌شده از طبقه‌بندی استاندارد آموزش نروژ (NUS2000) استفاده کردیم. داده‌های اداری کیفیت بالایی داشتند و دچار فرسایش نمونه نشدند. اطلاعات بیشتر در مورد کدگذاری NUS و تبدیل آن به ISCED در http://www.ssb.no/en/utdanning/norwegian-standard-classification-of-education موجود است. در مطالعه حاضر، داده‌های گمشده فقط برای افرادی رخ می‌دهد که رشته‌هایشان دقیقاً با سیستم ISCED مطابقت ندارد، به عنوان مثال به دلیل بین‌رشته‌ای بودن (مثلاً ۱۶٬۰۰۰ فرد ژنوتیپ‌شده در MoBa با مدارکی تحت عنوان «برنامه‌های بین‌رشته‌ای» و «مدارک شامل بهداشت و رفاه»). توجه داشته باشید که سوابق اداری هلند در مورد آموزش ناقص است، به طوری که ما معیارهای رشته تحصیلی را فقط برای ۵۶٪ از نمونه اصلی Lifelines در اختیار داشتیم (تعداد = ۳۶٬۳۷۳).

ما برای هر یک از کدهای تخصص رشته گسترده ISCED یک متغیر باینری ایجاد کردیم و افراد را اگر آن رشته را انتخاب کرده بودند ۱ و در غیر این صورت ۰ امتیاز دادیم. دسته ۰ شامل افرادی بود که برنامه‌های عمومی را مطالعه می‌کردند (که به خودی خود یک تخصص نیست). این شامل طیف وسیعی از مدارک، به عنوان مثال، دیپلم دبیرستان غیرتخصصی و آموزش مهارت‌های توسعه حرفه‌ای است.

ما همچنین متغیرهای سطح تحصیلات هماهنگ‌شده را در تمام مجموعه داده‌ها ایجاد کردیم. ما اطلاعات سطح تحصیلات را از متغیر دقیقی که کد رشته را در بر داشت، گرفتیم و آن را به دسته‌های ISCED EduYears (سال‌های تحصیلات تکمیل‌شده) تبدیل کردیم، مطابق با فراتحلیل‌های GWAS بین‌المللی.

داده‌های جغرافیایی و والدین در MoBa

برای آزمایش اینکه آیا ارتباطات ژنتیکی منعکس‌کننده اثرات مستقیم هستند یا عوامل مخدوش‌گر ناشی از عوامل خانوادگی و جغرافیایی، ما از ثبت‌های جمعیت و آموزش نروژ متغیرهای کمکی ایجاد کردیم. ما متغیرهای ساختگی برای شهرداری‌های محل تولد (۲۱۶ کد که نماینده پایین‌ترین سطح اداری نروژ هستند) برای کنترل محیط‌های محلی مشترک و برای رشته‌های تحصیلی والدین برای کنترل انتقال خانوادگی مهارت‌ها، منابع و شبکه‌های خاص آموزشی ایجاد کردیم. پیوند و ساختار داده‌های ژنتیکی-جغرافیایی قبلاً شرح داده شده است. اگرچه شهریه رایگان نروژ و جمعیت پراکنده با تنوع جغرافیایی در فرصت‌های آموزشی، زمینه مفیدی برای این تحلیل‌ها فراهم می‌کند، رویکرد ما ممکن است به طور کامل تأثیرات ناپایدار زمانی یا محلی‌تر را در بر نگیرد.

شاخص‌های PGI در Lifelines هلند

برای اعتبارسنجی نتایج تحلیل GWA ما، ارتباطات بین شاخص‌های PGI برای انتخاب رشته تحصیلی و انتخاب‌های واقعی رشته تحصیلی را در یک کوهورت مستقل آزمایش کردیم. شاخص‌های PGI با استفاده از آمارهای خلاصه GWAS برای هر رشته مربوطه (که برای EA تصحیح نشده بود)، با استفاده از SBayesR در نرم‌افزار GCTB نسخه 2.05beta_Linux ساخته شدند. SBayesR از کوچک‌سازی بیزی استفاده می‌کند و به صراحت LD را برای تخمین اندازه‌های اثر SNP در حضور مارکرهای همبسته، با استفاده از امتیازات LD افراد با تبار مرتبط با اروپا که توسط Biobank بریتانیا تخمین زده شده، مدل می‌کند. برای آزمایش اثر مستقیم PGI، ما PGI میانه والدین را به عنوان یک متغیر کنترل اضافه کردیم. PGI والدین با استفاده از ترکیبی از ژنوتیپ‌های مشاهده‌شده و منتسب‌شده (از والدین و خواهر و برادرها)، با استفاده از snipar ساخته شد. Snipar از داده‌های خواهر و برادر یا داده‌های والدین موجود برای انتساب ژنوتیپ‌ها برای والدین مشاهده‌نشده استفاده می‌کند. PGI والدین را می‌توان برای افرادی که حداقل یک خواهر یا برادر یا حداقل یک والد داشتند که در Lifelines نیز ژنوتیپ شده بودند، منتسب کرد (تعداد = ۱۷٬۷۰۵).

تحلیل‌ها

فراتحلیل‌های GWA

ما تحلیل‌های GWA (GWAS) را برای ده فنوتیپ دوگانه رشته تحصیلی گسترده در MoBa و FinnGen انجام دادیم، با استفاده از مدل‌هایی که برای تحلیل کارآمد از نظر منابع فنوتیپ‌های مورد-شاهدی در مجموعه داده‌های در مقیاس بیوبانک توسعه یافته‌اند. در MoBa، از رویکرد FastGWA-GLMM (یک روش مدل خطی مختلط تعمیم‌یافته (GLMM) برای GWASهای در مقیاس بزرگ در نرم‌افزار GCTA نسخه 1.91.7beta (–fastGWA-mlm-binary)) استفاده شد. این یک مدل رگرسیون لجستیک با پیچیدگی اضافی استفاده از یک ماتریس پراکنده برای در نظر گرفتن خویشاوندی ژنتیکی متراکم در MoBa بدون حذف بستگان است. FastGWA-GLMM همچنین از روش تقریب نقطه زینی برای در نظر گرفتن تورم در آماره‌های آزمون به دلیل عدم تعادل مورد-شاهدی استفاده می‌کند. در FinnGen، از گزینه باینری در نرم‌افزار REGENIE (نسخه 2.2.4) استفاده شد. REGENIE یک روش یادگیری ماشین است که رگرسیون ریج سراسر ژنوم را پیاده‌سازی می‌کند و از آزمون رگرسیون لجستیک فیرث برای در نظر گرفتن عدم تعادل مورد-شاهدی استفاده می‌کند. این دو روش از نظر نرخ مثبت کاذب و توان آماری به طور مشابه مؤثر هستند.

برای امکان فراتحلیل آمارهای خلاصه GWAS MoBa و FinnGen، ما QC و هماهنگ‌سازی را انجام دادیم. ما واریانت‌های با MAF پایین < ۱٪، کیفیت انتساب ضعیف (INFO < ۰.۸)، واریانت‌های چندآللی و واریانت‌های با آلل‌های مبهم (مثلاً آلل‌های غیر از A، C، G یا T) را حذف کردیم و وارونگی رشته و علامت را حل کردیم. مجموعه داده‌ها بر اساس chr:pos از ساختار ژنوم ۳۷ به عنوان شناسه SNP هماهنگ شدند. سپس فراتحلیل‌های وزن‌دهی‌شده بر اساس حجم نمونه از MoBa و FinnGen با استفاده از نرم‌افزار METAL انجام شد. ما از تنظیم SCHEME SAMPLESIZE برای تبدیل اندازه‌های اثر به نمرات z قبل از فراتحلیل استفاده کردیم.

برای شناسایی ارتباطات مستقل با اهمیت آماری در سطح ژنوم در نتایج فراتحلیل، ما خوشه‌بندی را با استفاده از پارامترهای استاندارد در نرم‌افزار FUMA انجام دادیم: leadP = ۵ × ۱۰-۸، gwasP = ۰.۰۵، r۲ = ۰.۶، r۲_۲ = ۰.۱، refpanel = 1KG/Phase3.

ما حجم نمونه‌های مؤثر خاص هر کوهورت را طبق مرجع محاسبه کردیم و سپس آنها را برای به دست آوردن مجموع حجم نمونه‌های مؤثر برای هر GWAS رشته تحصیلی جمع کردیم.

در MoBa، ما همچنین از FastGWA-GLMM برای تحلیل‌های اضافی زیر استفاده کردیم: GWASهای ده رشته با کنترل برای سطح تحصیلات؛ GWASهای ده رشته با کنترل برای متغیرهای جغرافیایی و والدین؛ و GWASهای ده رشته به طور جداگانه برای مردان و زنان.

در تمام تحلیل‌های GWAS (به جز تحلیل‌های تفکیک‌شده بر اساس جنسیت)، ما جنسیت، سن، مؤلفه‌های اصلی تبار ژنتیکی (۲۰ در MoBa، ۱۰ در FinnGen) و شناسه‌های بچ را کنترل کردیم.

تحلیل‌های GWAS-تفریقی با کنترل سطح تحصیلات

برای شناسایی سیگنال‌های ژنتیکی مرتبط با رشته‌های تحصیلی مستقل از سطح تحصیلات، ما از GWASهای تفریقی در Genomic SEM (بسته‌ای در R-4.3.2) با استفاده از آمارهای خلاصه GWAS برای رشته‌های تحصیلی و سطح تحصیلات استفاده کردیم. این رویکرد تجزیه کولسکی ژنومیک برای اولین بار برای ایجاد یک GWAS از مهارت‌های غیرشناختی با «تفریق» مؤلفه ژنتیکی عملکرد شناختی از ارتباط هر SNP با سطح تحصیلات به کار رفت. در اینجا ما مؤلفه ژنتیکی سطح تحصیلات را از ارتباط هر SNP با یک رشته تحصیلی معین «تفریق» کردیم. برای هر یک از ده رشته، ما یک مدل کولسکی در سطح SNP برازش دادیم که دو متغیر مشاهده‌شده (رشته و سطح تحصیلات) را بر روی دو متغیر پنهان (یک عامل مختص رشته و یک عامل سطح تحصیلات) رگرس کرد. کوواریانس‌های بین متغیرهای پنهان روی ۰ ثابت شدند تا تمام واریانس توسط عوامل پنهان توضیح داده شود. برای جزئیات کامل مشخصات مدل و تصویری از مدل به شکل تکمیلی ۲۱ و یادداشت‌های تکمیلی همراه آن مراجعه کنید.

تحلیل‌های وراثت‌پذیری مبتنی بر SNP

سهم کلی SNPهای رایج در انتخاب رشته از آمارهای خلاصه GWAS با رگرسیون امتیاز LD، از طریق Genomic SEM نسخه 0.0.3f در R-4.3.2 تخمین زده شد. به طور متوسط، SNPهایی با امتیازات LD بالاتر (همبستگی بیشتر با سایر SNPها) به احتمال زیاد با یک واریانت علی واقعی همبسته هستند. به این ترتیب، هنگامی که آماره‌های آزمون GWA (χ²) بر روی امتیازات LD رگرس می‌شوند، شیب خط، تخمینی از وراثت‌پذیری را ارائه می‌دهد که می‌تواند توسط SNPهای رایج توضیح داده شود. وراثت‌پذیری نشان‌دهنده درصد واریانس توضیح داده شده توسط واریانت‌های ژنتیکی رایج است.

ما وراثت‌پذیری‌های مبتنی بر SNP رشته‌های تحصیلی را پس از کنترل برای EA به دو روش تخمین زدیم: از طریق GWASهای تفریقی و تعدیل فنوتیپی. ما توجه داریم که توصیه نمی‌شود تخمین‌های وراثت‌پذیری را بر اساس رویکرد اول قرار دهیم، زیرا واریانس محیطی تعریف نشده است. با این وجود، ما تخمین‌های وراثت‌پذیری مبتنی بر GWASهای تفریقی را گزارش کردیم زیرا آنها برای تفسیر مؤلفه‌های اصلی پایین‌دستی و تحلیل‌های همبستگی ژنتیکی مرتبط هستند.

تحلیل‌های ژنتیکی با تعدیل محل تولد و رشته‌های والدین

برای مطالعه اینکه چه مقدار از ارتباطات ژنتیکی با انتخاب‌های رشته گسترده از طریق عوامل اجتماعی مشاهده‌نشده در منطقه جغرافیایی که افراد در آن متولد شده‌اند، واسطه می‌شود، ما تحلیل‌های GWAS را فقط در MoBa تکرار کردیم، با کنترل کدهای شهرداری و کدهای رشته والدین به عنوان متغیرهای ساختگی و آزمایش برای وراثت‌پذیری تضعیف‌شده با رگرسیون امتیاز LD. ما این کار را به صورت تکراری انجام دادیم، ابتدا با کنترل دورترین عامل (شهرداری محل تولد)، سپس با افزودن رشته‌های والدین. به دنبال روش‌های قبلی که در Biobank بریتانیا به کار رفته بود، ما از Genomic SEM برای مقایسه تخمین‌های وراثت‌پذیری SNP با و بدون کنترل‌ها و با در نظر گرفتن وابستگی بین تخمین‌ها استفاده کردیم. ما از تابع p.adjust در R با روش ‘fdr’ برای کنترل نرخ کشف کاذب (نسبت مورد انتظار اکتشافات کاذب در میان فرضیه‌های رد شده) استفاده کردیم و نتایج با P تعدیل‌شده < ۰.۰۵ را معنادار در نظر گرفتیم.

تحلیل‌های PGI

در Lifelines هلند، ما ارتباطات PGI با رشته‌های تحصیلی را با استفاده از رگرسیون لجستیک، با کنترل ده مؤلفه اصلی، چندجمله‌ای‌های سن، جنسیت و تعاملات آنها آزمایش کردیم. ما واریانس توضیح داده شده را با استفاده از R² کاذب مک‌فادن افزایشی کمی‌سازی کردیم. این به صورت 1-L1/L0 تعریف می‌شود، که در آن L1 درستنمایی مدل و L0 درستنمایی مدل فقط با یک عرض از مبدأ برازش‌شده است. برای تخمین اثرات ژنتیکی مستقیم، ما کنترل‌هایی برای PGIهای منتسب‌شده والدین اضافه کردیم و اندازه‌های اثر درون-خانوادگی را با سطح جمعیت مقایسه کردیم، با بازه‌های اطمینان از ۱٬۰۰۰ تکرار بوت‌استرپ و تصحیح بونفرونی (P < ۰.۰۰۵) برای تصحیح برای آزمایش ۱۰ فرضیه. ما همچنین ارتباطات PGI را با رشته تحصیلی همسر یا شریک زندگی آزمایش کردیم (تعداد = ۲۸٬۵۸۱؛ رگرسیون لوجیت)، و همسران یا شرکای زندگی را به عنوان اولین هم‌والد شناسایی‌شده از طریق پیوند جمعیت هلند تعریف کردیم، اگرچه این ارتباطات احتمالاً الگوهای گسترده‌تر همسرگزینی همسان را منعکس می‌کنند تا اثرات ژنتیکی مستقیم بر انتخاب شریک زندگی.

ساختار ژنتیکی رشته‌ها: همبستگی‌های ژنتیکی و GWASهای PCA

ما ساختار GWASهای رشته‌ها (نتایج فراتحلیل) را با محاسبه همبستگی‌های ژنتیکی با استفاده از رگرسیون امتیاز LD در Genomic SEM نسخه 0.0.3f در R-4.3.2 بررسی کردیم. برای جفت‌های صفات، حاصلضرب نمرات z GWA در هر SNP را می‌توان بر روی امتیاز LD رگرس کرد، که تخمینی از همبستگی ژنتیکی بین دو صفت را ارائه می‌دهد.

ما ابعاد ارتباطات ژنتیکی با ده رشته تحصیلی را با اعمال PCA (با استفاده از eigen() در R-4.3.2) بر روی ماتریس استانداردشده همبستگی‌های ژنتیکی بین رشته‌ها (پس از GWAS تفریقی برای حذف واریانس ژنتیکی EA) بررسی کردیم. برای به دست آوردن آمارهای خلاصه GWAS برای PC1 و PC2، ما سپس GWASهای PCA را طبق مرجع انجام دادیم (جزئیات بیشتر در https://annafurtjes.github.io/genomicPCA/). این رویکرد یک تابع فراتحلیل GWA را که برای فراتحلیل در چندین صفت طراحی شده است، تطبیق می‌دهد. به جای وزن‌دهی بر اساس وراثت‌پذیری SNP هنگام میانگین‌گیری از اثرات SNP، بارهای استانداردشده بر روی مؤلفه اصلی مورد نظر، وزن‌ها را فراهم می‌کنند. این تابع با تعدیل برای عرض از مبدأ رگرسیون امتیاز LD، همپوشانی نمونه را در آمارهای خلاصه GWAS در نظر می‌گیرد. آمارهای خلاصه GWAS حاصل برای دو مؤلفه مستقل رشته تحصیلی به ترتیب دارای حجم نمونه مؤثر ۱۰٬۴۱۳ و ۷٬۳۵۳ بودند (طبق مرجع).

ما به دلایل متعددی انتخاب کردیم که از PCA به جای تحلیل عاملی تأییدی (CFA) برای مطالعه ابعاد رشته‌های تحصیلی استفاده کنیم. اول، PCA شامل فرضیات کمتری نسبت به CFA است. در حالی که CFA عوامل پنهانی را مدل می‌کند که فرض می‌شود نماینده صفات واقعی اندازه‌گیری‌شده توسط انتخاب رشته هستند، PCA به سادگی ابعاد داده‌ها را با یافتن محورهایی که حداکثر واریانس را توضیح می‌دهند، کاهش می‌دهد. علاوه بر این، CFA ممکن است نیاز به افزودن بارهای متقاطع تا حدودی موقتی بر اساس شاخص‌های اصلاح برای دستیابی به برازش خوب داشته باشد، در حالی که PCA شامل ملاحظات برازش مدل نیست. دوم، تعداد محدود رشته‌های ممکن (ده شاخص) PCA را مناسب‌تر می‌کند. CFA به طور ایده‌آل برای مطالعه عوامل پنهانی طراحی شده است که می‌توانند توسط تعداد گسترده‌ای، به طور بالقوه بی‌نهایت، از شاخص‌ها اندازه‌گیری شوند، که در اینجا چنین نیست.

همبستگی‌های ژنتیکی

ما همبستگی‌های ژنتیکی بین عوامل پنهان رشته‌های تحصیلی و ۹۶ فنوتیپ انسانی را با استفاده از رگرسیون امتیاز LD تخمین زدیم. ما از آمارهای خلاصه GWAS عمومی استفاده کردیم که توان آماری خوبی داشتند و طیف جامعی از حوزه‌های تنوع انسانی را پوشش می‌دادند. برای فهرست مراجع مطالعات GWAS با حجم نمونه‌ها به جدول تکمیلی ۲۱ مراجعه کنید.

خلاصه گزارش‌دهی

اطلاعات بیشتر در مورد طراحی پژوهش در خلاصه گزارش‌دهی Nature Portfolio که به این مقاله پیوند داده شده است، موجود است.

ممکن است شما دوست داشته باشید
ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.