متا‑تحلیل کارآمد محاسباتی آزمون‌های مبتنی بر ژن با بهره‌گیری از آمارهای خلاصه در مطالعات ژنتیکی بزرگ‌مقیاس

0
  • Tyler A. Joseph1
  • Joelle Mbatchou1
  • Arkopravo Ghosh1
  • Anthony Marcketta1
  • Christopher E. Gillies1
  • Jing Tang1
  • Priyanka Nakka1
  • Xinyuan Zhang1
  • Jack A. Kosmicki1
  • Carlo Sidore1
  • Lauren Gurski1
  • Regeneron Genetics Center
  • Maya Ghoussaini1
  • Manuel A. R. Ferreira1
  • Gonçalo Abecasis1 و
  • Jonathan Marchini1

Nature Genetics (2025) این مقاله را ارجاع دهید

Subjects

  • مطالعات همبستگی سراسری ژنوم
  • نرم‌افزار

Abstract

متا‑تحلیل آزمون‌های مبتنی بر ژن با استفاده از آمارهای خلاصهٔ تک‌تغییری یک استراتژی قدرتمند برای مطالعات ارتباط‌پذیری ژنتیکی است. با این حال، روش‌های فعلی برای هر مطالعه و هر ویژگی مورد علاقه، نیازمند به اشتراک‌گذاری ماتریس کوواریانس بین تغییرات هستند. در مطالعات بزرگ‌مقیاس که دارای ویژگی‌های متعدد هستند، این ماتریس‌ها می‌توانند محاسبه، ذخیره و به‌اشتراک‌گذاری آن‌ها دشوار باشد. برای رفع این چالش، ما REMETA را معرفی می‌کنیم—ابزاری کارآمد برای متا‑تحلیل آزمون‌های مبتنی بر ژن. REMETA از یک فایل مرجع کوواریانس پراکندهٔ تک برای هر مطالعه استفاده می‌کند که برای هر فنوتیپ با استفاده از آمارهای خلاصهٔ تک‌تغییری بازمقیاس می‌شود. ما روش‌های جدیدی برای ویژگی‌های دودویی با عدم تعادل بین موارد و کنترل‌ها، و برای برآورد فراوانی آلل، شمارش ژنوتیپ و اندازهٔ اثر آزمون‌های بار توسعه دادیم. کارایی و مزایای رویکرد خود را از طریق متا‑تحلیل پنج ویژگی در ۴۶۹٬۳۷۶ نمونه در بایوفاند یونايتد كينغدوم نشان می‌دهیم. نرم‌افزار متن‌باز REMETA متا‑تحلیل را در مطالعات بزرگ‌مقیاس توالی‌سازی اگزوم از مطالعات متنوعی که ترکیب‌پذیر نیستند، تسهیل خواهد کرد.

Main

در طول ده سال گذشته، مطالعات ارتباطی اگزوم‌در‌سراسری (ExWAS) به‌طور مؤثری توانستند ژن‌های مرتبط با بیماری‌ها را شناسایی کنند1. با تمرکز بر تغییرات پروتئینی، ExWAS اغلب سیگنال‌های ارتباطی قابل تفسیر ارائه می‌دهد که می‌تواند به شناسایی اهداف درمانی و راهنمایی درمان بیماری کمک کند. به‌عنوان مثال، کشف تغییرات نادر کدگذاری پروتئین در GPR75 که با کاهش شاخص توده بدنی (BMI) مرتبط است، نشان می‌دهد که مهار GPR75 می‌تواند به‌عنوان یک استراتژی درمانی برای چاقی مطرح شود2. به‌طور مشابه، تغییرات نادر کدگذاری پروتئین در CIDEB با محافظت در برابر بیماری کبدی مرتبط هستند و CIDEB را به‌عنوان یک هدف درمانی پیشنهاد می‌کنند3.

هنگامی که با ژنوتایپ‌سازی آرایه‌ای همراه با ایمپوتیشن ترکیب می‌شود، ExWAS قدرت ارتباطی مشابه با توالی‌گذاری تمام‌ژنوم برای آزمون‌های تک‌تغییری و مبتنی بر ژن دارد4.

به علت نادر بودن اکثر تغییرات پروتئینی، ExWAS سعی می‌کند با ترکیب تغییرات در یک ژن، قدرت آماری را افزایش دهد. آزمون‌های مختلف بسته به ساختار ژنتیکی ویژگی، توان تشخیص متفاوتی خواهند داشت. «آزمون‌های بار» به‌طور گسترده‌ای برای این منظور استفاده می‌شوند و در مواقعی که تغییرات علّی عملکرد ژن را در همان جهت اثر تغییر می‌دهند، قدرت خوبی دارند5,6. آزمون‌های مؤلفه‌وار (variance component tests) توزیع اندازهٔ اثرات را مدل می‌کنند و می‌توانند در زمانی که تغییرات علّی در جهت‌های متضاد عمل می‌کنند، قدرت بیشتری داشته باشند7,8. به‌علاوه، روش‌هایی که آزمون‌های تک‌تغییری را در یک مقدار P ترکیب می‌کنند، وقتی تنها تعداد کمی از تغییرات علّی وجود دارد، می‌توانند بسیار قدرتمند باشند9. از آنجا که ساختار ژنتیکی واقعی ناشناخته است، ترکیبی از انواع آزمون‌های مبتنی بر ژن می‌تواند در یک آزمون جامع ترکیب شود تا برای تصحیح آزمون‌های متعدد مناسب باشد10,11. یک جزء کلیدی این رویکرد استفاده از حاشیه‌گذاری‌های تغییرات (annotation) برای گروه‌بندی تغییرات مخرب پروتئین در هر ژن است. پیش‌بینی اثر تغییرات بر ساختار پروتئین یک حوزه پژوهشی فعال است و منابع حاشیه‌گذاری مختلفی وجود دارد12,13,14.

متا‑تحلیل ExWAS در میان مجموعه داده‌های متنوع از نظر نژاد، همچنین قدرت را برای کشف اهداف دارویی جدید افزایش می‌دهد. متا‑تحلیل اندازهٔ اثر، که به عنوان متا‑تحلیل وزن‌دار معکوس واریانس نیز شناخته می‌شود، می‌تواند برای ترکیب آزمون‌های بار در میان مطالعات با استفاده از برآوردهای اندازهٔ اثر و خطاهای استانداردشان به‌کار رود. برای سایر آزمون‌هایی که برآورد اندازهٔ اثر ارائه نمی‌دهند، مانند روش‌های مؤلفه‌وار، روش‌های متنوعی برای ترکیب مقادیر P در میان مطالعات وجود دارد. این رویکردها، که ما آن‌ها را «متا‑تحلیل استاندارد» می‌نامیم، ساده و سریع به‌کار می‌روند و نتایج معقولی تولید می‌کنند2,3.

با این حال، متا‑تحلیل آزمون‌های مبتنی بر ژن می‌تواند چالش‌برانگیز باشد اگر مطالعات مشارکت‌کننده از منابع حاشیه‌گذاری متفاوت یا معیارهای مختلفی برای گروه‌بندی تغییرات استفاده کنند. ناسازگاری در تغییراتی که در آزمون‌ها گنجانده می‌شوند، می‌تواند تفسیر و تحلیل‌های بعدی را دشوار سازد. به عنوان مثال، بسیاری از آزمون‌ها از یک آستانهٔ فراوانی آلل برای گنجاندن یک تغییر در مجموعه ژنی استفاده می‌کنند. اختلاف در فراوانی‌های آلل میان مطالعات می‌تواند تغییرات انتخاب‌شده در هر مطالعه را تغییر دهد. علاوه بر این، منابع حاشیه‌گذاری به‌محض پیشرفت‌های جدید به‌روز می‌شوند. به‌روزرسانی یک متا‑تحلیل برای استفاده از حاشیه‌گذاری‌های جدید نیازمند بازتحلیل تمام ژن‌ها در تمام مطالعات و ویژگی‌هاست که می‌تواند هزینه‌بر و زمان‌بر باشد.

این مشکلات می‌توانند با استفاده از آزمون‌های مبتنی بر ژن که از آمارهای خلاصهٔ تک‌تغییری بهره می‌برند، برطرف شوند. برخی آزمون‌های مبتنی بر ژن می‌توانند از برآوردهای مقیاس‌دار اندازهٔ اثر (یعنی آماره‌های امتیاز) هر تغییر تک‌تغییری در یک ژن، و مقادیر همبستگی (LD) بین این آمارهای خلاصه محاسبه شوند15,16. آمارهای خلاصه می‌توانند در میان مطالعات برای متا‑تحلیل ترکیب شوند، که امکان کنترل دقیق بر تغییرات گنجانده‌شده در یک آزمون را بدون نیاز به انجام دوبارهٔ تحلیل ارتباطی (یعنی بدون نیاز به بازگرداندن به داده‌های ژنتیکی یا فنوتیپی خام) فراهم می‌کند. آزمون‌های مبتنی بر ژن از آمارهای خلاصه می‌توانند برای آزمون حاشیه‌ای هر ژن به‌صورت منفرد یا مشروط بر مجموعه‌ای از تغییرات مشخص به‌کار روند. برنامه‌های نرم‌افزاری RAREMETAL16 و metaSTAAR17 این رویکرد را پیاده‌سازی می‌کنند. اما اطلاعات LD مورد نیاز بسته به مجموعه دقیق شرکت‌کنندگان و ویژگی تجزیه‌وتحلیل متفاوت است. بنابراین، یک ماتریس مشابه LD باید برای هر مطالعه و هر ویژگی محاسبه شود — که می‌تواند در مطالعاتی با تعداد زیادی ویژگی، محاسبه، ذخیره و مدیریت آن دشوار باشد.

در این مقاله، ما رویکرد جدیدی برای این مشکل ارائه می‌دهیم که چندین ویژگی کلیدی دارد. ابتدا نشان می‌دهیم که فایل‌های مرجع LD پراکندهٔ استخراج‌شده از تمام شرکت‌کنندگان یک مطالعه می‌توانند به‌دقت جایگزین فایل‌های LD دقیق برای یک مطالعه شوند، حتی اگر فقط زیرمجموعه‌ای از شرکت‌کنندگان مورد استفاده قرار گیرد. چنین ماتریس‌های مرجع LD می‌توانند یک‌بار پیش‌محاسبه شوند و برای تحلیل‌های بعدی مورد استفاده قرار گیرند، که می‌تواند به‌طور قابل‌توجهی نیازهای محاسباتی و ذخیره‌سازی آزمون‌های مبتنی بر ژن را کاهش دهد. این همچنین به اشتراک‌گذاری آسان فایل‌های LD بین گروه‌های پژوهشی کمک می‌کند، زیرا تنها یک فایل LD برای هر مطالعه به‌جای هر فنوتیپ و مطالعه لازم است.

دوم، ما فرمت باینری فشردهٔ بر پایهٔ هر کروموزوم را برای ذخیره‌سازی و به‌اشتراک‌گذاری مؤثر ماتریس‌های LD مورد نیاز برای آزمون‌های مبتنی بر ژن توسعه دادیم. این فرمت هم برای سناریوهای آزمون منفرد و هم مشروط به‌کار می‌رود و به‌صورت ایندکس‌دار است تا دسترسی سریع به اطلاعات LD هر ژن امکان‌پذیر شود.

سوم، از آنجا که مقادیر P برای تفسیر پیگیر آزمون‌های مبتنی بر ژن کافی نیستند، ما روش تقریباً محاسبهٔ فراوانی‌های آلل، شمارش ژنوتیپ‌ها و اندازهٔ اثر آزمون‌های بار را از آمارهای خلاصه توسعه می‌دهیم.

چهارم، ما این رویکرد را برای متا‑تحلیل ویژگی‌های دودویی با عدم تعادل شدید کیس‑کنترل گسترش دادیم و نشان می‌دهیم که این تقریب به‌خوبی کالیبره می‌شود.

در نهایت، برای ساده‌سازی استفاده، ما این رویکرد را در یک بسته نرم‌افزاری متن‌باز به نام REMETA18 پیاده‌سازی کرده‌ایم که به‌صورت یکپارچه با نرم‌افزار REGENIE کار می‌کند.

Results

مروری بر روش‌ها

گردش کار REGENIE/REMETA در شرایطی قابل‌استفاده است که T ویژگی در K مطالعه با ژنوتایپ‌های آرایه‌ای و داده‌های توالی‌سازی تمام اگزوم (WES) در P ژن اندازه‌گیری شده‌اند، و شامل سه گام زیر می‌شود (شکل ۱).

شکل ۱
شکل ۱: نمای کلی گردش کار REMETA.

گردش کار REMETA شامل سه گام است: (1) ساخت ماتریس LD در REMETA، (2) آزمون ارتباطی تک‌تغییری با REGENIE و (3) متا‑تحلیل. REMETA از مجموعه‌های ژنی، حاشیه‌گذاری‌های تغییرات و یک فایل اختیاری فراوانی آلل برای ساختن آزمون‌های مبتنی بر ژن از آمارهای خلاصه تک‌تغییری و ماتریس‌های LD در طول متا‑تحلیل استفاده می‌کند. مقادیر P در سراسر ماسک‌ها و آزمون‌ها با استفاده از ACAT ترکیب می‌شوند تا یک مقدار P «GENE_P» برای هر ژن تولید شود و تعداد آزمون‌های متعدد محدود گردد. فایل تعریف GENE_P مشخص می‌کند که کدام ماسک‌ها در GENE_P گنجانده شوند.

ساخت ماتریس LD

گام اول ماتریس‌های مرجع LD را برای هر مطالعه در REMETA می‌سازد. این گام تنها یک‌بار برای هر مطالعه لازم است. ماتریس‌های جداگانه برای هر یک از T ویژگی‌ها لازم نیستند، همانند رویکردهای موجود17، که به‌طور قابل‌توجهی هزینه محاسبه و فضای ذخیره‌سازی را کاهش می‌دهد. ما قالب باینری سفارشی برای ماتریس‌های LD توسعه دادیم که ایندکس‌دار است تا بتوان ماتریس‌های LD برای ژن‌های منفرد را به‌سرعت استخراج کرد. فایل‌های LD می‌توانند فقط از مجموعه دادهٔ WES ساخته شوند؛ که برای آزمون هر ژن به‌صورت منفرد کافی است، یا از مجموعه دادهٔ WES به‌همراه یک فایل از تغییرات ایمپوت شده در تمام ژنوم برای محاسبهٔ آزمون‌های مبتنی بر ژن به‌صورت مشروط بر لoci‌های GWAS استفاده شوند.

آزمون ارتباطی تک‌تغییری

گام دوم شامل اجرای REGENIE مرحله ۱ بر روی ژنوتایپ‌های آرایه‌ای برای هر مطالعه و برای T ویژگی با هر کوواریهٔ مناسب است. این گام به‌اکثریت رابطه‌پذیری، ساختار جمعیت و پلی‌ژنیتی پرداخته و نمرات پلی‌ژنیک تولید می‌کند که سپس به‌عنوان کوواریه‌های افزوده در REGENIE مرحله ۲ به‌کار می‌روند؛ جایی که آزمون ارتباطی تغییرات تک‌تغیری در مجموعه دادهٔ WES برای هر فنوتیپ انجام می‌شود. مهم است که در این گام تمام تغییرات پلی‌مورفیك بدون فیلتر بر شمارش آلل‌های جزئی تجزیه و تحلیل شوند؛ حذف هر تغییری در این مرحله به این معناست که آن تغییر در هیچ‌یک از آزمون‌های بعدی مبتنی بر ژن با استفاده از REMETA گنجانده نشود. یکی از مزایای کلیدی استفاده از REGENIE این است که می‌توان چندین ویژگی را به‌صورت همزمان اجرا کرد، که هزینه محاسباتی را کاهش می‌دهد و ساده‌تر است. ما پرچم htp را به مرحله ۲ REGENIE اضافه کرده‌ایم تا خروجی آمارهای خلاصهٔ دقیق‌تری که REMETA نیاز دارد، تولید کند.

متا‑تحلیل

گام سوم متا‑تحلیل مبتنی بر ژن را با استفاده از REMETA انجام می‌دهد. ورودی‌های این گام شامل فایل‌های آمارهای خلاصهٔ REGENIE برای هر ویژگی و هر مطالعه، فایل‌های LD REMETA برای هر مطالعه، مجموعه‌های ژنی و فایل‌های حاشیه‌گذاری تغییرات، و یک فهرست اختیاری از تغییرات برای شرطی‌سازی است. REMETA از فایل‌های مرجع LD برای هر مطالعه استفاده می‌کند، مقیاس‌بندی و تحولاتی را که بر اساس ویژگی مورد متا‑تحلیل است اعمال می‌کند و آزمون‌های بار، آزمون ترکیبی بهینهٔ هستهٔ توالی (SKATO) به‌عنوان آزمون مؤلفه‌وار، و آزمون تجمیعی کاوشی (ACATV) را با استفاده از دسته‌های فراوانی آلل مشخص‌شده توسط کاربر محاسبه می‌نماید. آزمون‌ها می‌توانند در یک مقدار P کلی «GENE P» برای هر ژن ترکیب شوند. به‌طور کلی، این گام کنترل دقیق‌تری بر نحوهٔ انجام متا‑تحلیل به کاربران می‌دهد.

آزمون‌های مبتنی بر ژن تقریباً با استفاده از LD هر مطالعه

ماتریس Cov(S) باید برای هر ویژگی و هر مطالعه در تحلیل محاسبه و ذخیره شود. بنابراین ما قصد داشتیم Cov(S) را با ماتریسی که یک بار برای هر مطالعه محاسبه می‌شود، تقریب بزنیم. همان‌طور که دیگران اشاره کرده‌اند15,19، در نبود کوواریانتهای دیگر (به‌جز یک مقدار ثابت) Cov(S)=ν Cov(G^T) که در آن ν یک اسکالر وابسته به فنوتیپ است. این نشان می‌دهد که می‌توانیم Cov(G^T) را یکبار محاسبه کنیم و سپس برای هر فنوتیپ تنظیم کنیم. انتخاب طبیعی این است که Cov(G^T) را تنظیم کنیم تا قطری همانند Cov(S) داشته باشد. این رویکرد همان چیزی است که ما اتخاذ می‌کنیم.

فرض کنید G ماتریس ژنتوتایپی به ابعاد n × p شامل تمام تغییرات یک ژن باشد، S_{t} آماره‌های امتیاز همه تغییرات در یک ژن برای یک فنوتیپ خاص t باشد و Φ_{t}=Cov(S_{t}) کوواریانس آن‌ها. ما پیشنهاد می‌کنیم سه قطعه اطلاعات برای ساختن آزمون‌های مبتنی بر ژن نگهداری شود: S_{t}، D_t=diag(Φ_{t}) و Cov(G^T). سپس ما Cov(S) را به‌صورت تقریبی (توجه داشته باشید Corr(G^T) به‌راحتی از Cov(G^T) محاسبه می‌شود) محاسبه می‌کنیم:

به این ترتیب، برای T ویژگی‌ها، نیازهای زمان و فضای محاسباتی از … به … کاهش می‌یابد.

متا‑تحلیل اندازهٔ اثر

اندازهٔ اثرات با استفاده از متا‑تحلیل وزن‌دار معکوس واریانس ترکیب می‌شود. به‌طور خاص، اگر β_{1},…,β_{K} و SE_{1},…,SE_{K} به ترتیب اندازهٔ اثر و خطاهای استاندارد برای یک تغییر در K مطالعه باشند، وزن w_{k}=1/(SE_{k})^{2} محاسبه می‌شود؛ β = (∑_{k}w_{k}β_{k})/(∑_{k}w_{k})؛ se = (1/∑_{k}w_{k})^{1/2}؛ Q = (β/se)^{2}~χ^{2}(1).

P value meta‑analysis

متا‑تحلیل مقادیر P با استفاده از روش Stouffer انجام می‌شود. در روش Stouffer، مقادیر P ابتدا به نمرات z تبدیل می‌شوند، سپس با وزن‌گذاری بر مبنای اندازه نمونه‌های هر مطالعه ترکیب می‌شوند. فرض کنید p_{1},…,p_{K} مقادیر P برای یک آزمون در K مطالعه با اندازه نمونه‌های N_{1},…,N_{K} باشند. ما محاسبه می‌کنیم Z_{k}=Φ^{-1}(p_{k})؛ w_{k}=√N_{k}؛ Z = (∑_{k}w_{k}Z_{k})/√(∑_{k}w_{k}^{2})~N(0,1).

متا‑تحلیل آزمون‌های مبتنی بر ژن

فرض کنید S_{k} بردار ج‑بعدی (j × 1) آماره‌های امتیاز برای تغییرات در یک آزمون مبتنی بر ژن در مطالعه k باشد. برای متا‑تحلیل WST و SKATO در میان مطالعات، می‌توان آماره‌های امتیاز را به‌صورت S=∑_{k}S_{k} ترکیب کرد؛ Cov(S)=∑_{k}Cov(S_{k}). سپس مقادیر P می‌توانند همان‌گونه که در مورد تک‌مطالعه توضیح داده شد، محاسبه شوند.

برآورد اندازهٔ اثر

در آزمون مجموع، فرض می‌شود هر تغییر در یک ماسک دارای همان اندازهٔ اثر باشد. بنابراین، اگر β اندازهٔ اثر واقعی باشد که می‌خواهیم برآورد کنیم، و β̂_{1},…,β̂_{p} برآوردهای اثر حاشیه‌ای تغییرات در ماسک باشند، آنگاه E[β̂_{j}]=β برای هر تغییر j در ماسک صادق است. همچنین برای هر ترکیب متقارن w_{1},…,w_{p} از اندازهٔ اثرها داریم E[∑_{j}w_{j}β̂_{j}]=β. می‌توانیم از این مشاهد برای یافتن برآوردی استفاده کنیم که Var(∑_{j}w_{j}β̂_{j}) را به‌حداقل برساند. اگر همبستگی بین اندازهٔ اثرها در ماسک وجود نداشته باشد، این معادل یک متا‑تحلیل وزن‌دار معکوس واریانس تغییرات در ماسک می‌شود. ما از خطا استاندارد s=√Var(∑_{j}w_{j}β̂_{j}) برای مقیاس‌گذاری نمرهٔ z آزمون مجموع استفاده می‌کنیم. به‌طور خاص، اگر z نمرهٔ z آزمون مجموع باشد، برآورد اندازهٔ اثر β̂=s z است. در عمل، ما متوجه شدیم که تنظیم وزن‌ها به صورت w_{j}∝1/SE_{j}^{2}، که همان وزن‌های مورد استفاده در متا‑تحلیل وزن‌دار معکوس واریانس است، برآوردهای دقیقی از اندازهٔ اثر تولید می‌کند.

تحلیل شرطی

REMETA LD تغییرات داخل یک ژن و در یک ناحیهٔ حاشیه‌ای مشخص توسط کاربر را ذخیره می‌کند. به‌شرطی که یک تغییر در ماتریس LD یک ژن ذخیره شده باشد، می‌توان از آن برای انجام تجزیه‌وتحلیل مشروط آزمون‌های مبتنی بر ژن استفاده کرد. اگر S_{g} آماره‌های امتیاز در یک آزمون مبتنی بر ژن و S_{c} آماره‌های امتیاز تغییرات برای شرطی‌سازی باشند، آنگاه تحت فرض صفر S_{g}|S_{c}=S_{g}−Cov(S_{g},S_{c})Cov(S_{c})^{-1}S_{c}. کوواریانس مشروط برابر است با Cov(S_{g}|S_{c})=Cov(S_{g})−Cov(S_{g},S_{c})Cov(S_{c})^{-1}Cov(S_{g},S_{c})^{T}. برای متا‑تحلیل، ما تجزیه‌وتحلیل مشروط را همزمان بر تمام مطالعات، یعنی بر مجموع آماره‌های امتیاز در میان مطالعات، انجام می‌دهیم.

برآورد شمارش ژنوتیپ‌ها و فراوانی آلل

اگر شمارش ژنوتیپ‌های تک‌تغییری شناخته شوند، می‌توان از آن‌ها برای برآورد شمارش ژنوتیپ‌های ماسک بار استفاده کرد. فرض کنید G_{1},…,G_{p} بردارهای ژنوتیپ برای p تغییر در ماسک باشند، و Y=max{G_{1},…,G_{p}}∈{0,1,2} بردار ژنوتیپ ماسک باشد که بیشترین ژنوتیپ میان عناصر بردارهای تغییر گرفته شده است. علاوه بر این، N_{G_{j}=1} تعداد افراد هتروزیگوت برای تغییر j باشد و N_{Y=1} تعداد افراد هتروزیگوت برای ماسک بار باشد. هدف ما برآورد N_{Y=1} از N_{G_{1}=1},…,N_{G_{p}=1} است. به‌طور خاص، می‌خواهیم ضرایب c_{j} را طوری پیدا کنیم که N_{Y=1}=∑_{j}c_{j}N_{G_{j}=1}. استراتژی ما این است که c_{j} را به‌صورت توالی محاسبه کنیم، به‌طوری که هر c_{j} نسبت بخشی از N_{G_{j}=1} که هنوز شمارش نشده است تخمین بزند. به‌طور خاص، c_{j}=Pr(G_{1}≠1,…,G_{j-1}≠1|G_{j}=1)≈∏_{m=1}^{j-1}Pr(G_{m}≠1|G_{j}=1). این تقریب انتخاب شده است چون جملات Pr(G_{m}≠1|G_{j}=1) می‌توانند از ماتریس LD محاسبه شوند (مورد همزیستی برای هموزیگوت‌ها مشابه است).

گسترش به ویژگی‌های دودویی با عدم تعادل کیس‑کنترل

برای ویژگی‌های دودویی نامتعادل، استفاده از تقریب نرمال برای توزیع آمارهٔ امتیاز می‌تواند منجر به اشکال نوع ۱ شود. روش SPA نشان داده است که یک استراتژی مؤثر برای کنترل اشکال نوع ۱ هم برای تک‌تغییری27 و هم برای آزمون‌های مبتنی بر ژن28 است. SPA تابع تولید مجموع کومننت آمارهٔ امتیاز را برای تقریب توزیع صفر استفاده می‌کند. برای یک تغییر j، تابع تولید مجموع کومننت آمارهٔ امتیاز برای رگرسیون لجستیک برابر است با K(t)=∑_{i=1}^{n}log(E_{H_{0}}[e^{tS_{j}}])=∑_{i=1}^{n}log(1-μ̂_{i}+μ̂_{i}e^{g_{ij}t})-t∑_{i=1}^{n}g_{ij}μ̂_{i}. در چارچوب مدل ارتباطی که یک تک‌نوکلئوتید (SNP) را تنها با یک مقدار ثابت (intercept) به‌عنوان کوواریه بررسی می‌کند، ماتریس کوواریانس آماره‌های امتیاز معادل یک مقیاس‌گذاری مجدد ماتریس کوواریانس ژنوتیپ‌های آزمون است15,19. بنابراین، یک استراتژی طبیعی این است که کوواریانس ژنوتیپ‌ها را یک بار برای هر مطالعه محاسبه کنیم و سپس برای هر ویژگی تنظیم کنیم. برای تنظیم، ما واریانس آماره‌های امتیاز را برای هر ویژگی (روش‌ها) ذخیره می‌کنیم. به‌صورت کلی، این تنظیم اختلافات در اندازه نمونه و واریانس فنوتیپ را اصلاح می‌کند. برای کاهش بیشتر نیازهای ذخیره‌سازی، می‌توان ماتریس کوواریانس را به‌صورت پراکنده ذخیره کرد، به‌طوری که فقط ورودی‌های بین جفت‌های تغییرات اگزوم که r^{2}>10^{-4} (قابل تنظیم از طریق یک پارامتر خط فرمان) نگهداری شوند. ما به این ماتریس کوواریانس پراکندهٔ ژنوتیپ که یک بار برای هر مطالعه محاسبه می‌شود «LD مرجع» می‌نامیم، و ماتریس کوواریانس آماره‌های امتیاز را «LD دقیق» می‌نامیم. هدف ارزیابی این است که تا چه حد مقادیر P محاسبه‌شده با استفاده از ماتریس LD مرجع، نزدیک به مقادیر P محاسبه‌شده با ماتریس LD دقیق هستند.

حاشیه‌گذاری‌های تغییرات و مجموعه‌های ژنی

ما تغییرات را بر پایهٔ حاشیه‌گذاری‌ها و فراوانی آلل به‌صورت مجموعه‌ها (یا ماسک‌ها) برای آزمون‌های مبتنی بر ژن گروه‌بندی کردیم. تغییرات بر اساس هفت دستهٔ حاشیه‌گذاری: تغییرات پیش‌بینی‌شدهٔ از دست رفتن عملکرد (pLoF)، تغییرات مخرب میسنس، تغییرات ممکن است مخرب میسنس، تمام تغییرات میسنس و ترکیبی pLoF با هر دستهٔ میسنس گروه‌بندی شدند. تغییرات با استفاده از VEP12 و بر مبنای ترانسکریپت‌های کانونی حاشیه‌گذاری شدند. تغییراتی که به‌صورت stop‑gained، start‑lost، splice donor، splice acceptor، stop‑lost یا frameshift بودند، به‌عنوان pLoF درنظر گرفته شدند. برای تغییرات میسنس، نتایج پنج الگوریتم پیش‌بینی برای تعیین شدت آن‌ها استفاده شد: SIFT30، PolyPhen2 HDIV، PolyPhen2 HVAR31، LRT32 و MutationTaster33. تغییرات در دستهٔ میسنس مخرب گنجانده می‌شوند اگر توسط هر پنج الگوریتم به‌عنوان مخرب پیش‌بینی شوند، در دستهٔ میسنس ممکن است مخرب اگر حداقل توسط یک الگوریتم پیش‌بینی شوند، و در دستهٔ تمام میسنس اگر توسط هیچ الگوریتمی به‌عنوان مخرب پیش‌بینی نشوند. برای مقایسه بین REGENIE و REMETA، ما چهار بینهٔ فراوانی آلل در نظر گرفتیم: AAF <1%، AAF <0.1%، AAF <0.001% و سِنگل‌ها. برای مقایسه بین متا‑تحلیل استاندارد و REMETA، پنج بینهٔ فراوانی آلل در نظر گرفته شد: AAF <1%، AAF <0.5%، AAF <0.1%، AAF <0.001% و سِنگل‌ها.

تحلیل و متا‑تحلیل UK Biobank

ما داده‌های WES از نسخهٔ نهایی خط لوله OQFE را همراه با ژنوتایپ‌های ایمپوت‌شده برای ۴۶۹٬۳۷۲ نمونه در UKB تجزیه‌وتحلیل کردیم. جزئیات توالی‌سازی اگزوم34، فنوتیپ‌سازی و ژنوتایپ‌سازی آرایه‌ای35، و ایمپوتیشن در برابر TOPMed و تخصیص نژاد1 پیش‌تر توصیف شده‌اند. هر دو متغیر BMI و LDL با روش تبدیل معکوس‑نرمال رتبه‑بندی شده‌اند. آزمون ارتباطی در REGENIE با استفاده از کوواریه‌های سن، سن²، جنس، تعامل سن‑با‑جنس، دسته‌بندی اگزوم، ده ترکیب برتر PC آرایه‌ای و بیست ترکیب برتر PC اگزوم انجام شد.

Reporting summary

اطلاعات بیشتر دربارهٔ طراحی پژوهش در خلاصهٔ گزارش Nature Portfolio که به این مقاله پیوست است، قابل دسترسی است.

ممکن است شما دوست داشته باشید
ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.