متا‑تحلیل کارآمد محاسباتی آزمونهای مبتنی بر ژن با بهرهگیری از آمارهای خلاصه در مطالعات ژنتیکی بزرگمقیاس
- Tyler A. Joseph1
- Joelle Mbatchou1
- Arkopravo Ghosh1
- Anthony Marcketta1
- Christopher E. Gillies1
- Jing Tang1
- Priyanka Nakka1
- Xinyuan Zhang1
- Jack A. Kosmicki1
- Carlo Sidore1
- Lauren Gurski1
- Regeneron Genetics Center
- Maya Ghoussaini1
- Manuel A. R. Ferreira1
- Gonçalo Abecasis1 و
- …
- Jonathan Marchini1
Nature Genetics (2025) این مقاله را ارجاع دهید
Subjects
- مطالعات همبستگی سراسری ژنوم
- نرمافزار
Abstract
متا‑تحلیل آزمونهای مبتنی بر ژن با استفاده از آمارهای خلاصهٔ تکتغییری یک استراتژی قدرتمند برای مطالعات ارتباطپذیری ژنتیکی است. با این حال، روشهای فعلی برای هر مطالعه و هر ویژگی مورد علاقه، نیازمند به اشتراکگذاری ماتریس کوواریانس بین تغییرات هستند. در مطالعات بزرگمقیاس که دارای ویژگیهای متعدد هستند، این ماتریسها میتوانند محاسبه، ذخیره و بهاشتراکگذاری آنها دشوار باشد. برای رفع این چالش، ما REMETA را معرفی میکنیم—ابزاری کارآمد برای متا‑تحلیل آزمونهای مبتنی بر ژن. REMETA از یک فایل مرجع کوواریانس پراکندهٔ تک برای هر مطالعه استفاده میکند که برای هر فنوتیپ با استفاده از آمارهای خلاصهٔ تکتغییری بازمقیاس میشود. ما روشهای جدیدی برای ویژگیهای دودویی با عدم تعادل بین موارد و کنترلها، و برای برآورد فراوانی آلل، شمارش ژنوتیپ و اندازهٔ اثر آزمونهای بار توسعه دادیم. کارایی و مزایای رویکرد خود را از طریق متا‑تحلیل پنج ویژگی در ۴۶۹٬۳۷۶ نمونه در بایوفاند یونايتد كينغدوم نشان میدهیم. نرمافزار متنباز REMETA متا‑تحلیل را در مطالعات بزرگمقیاس توالیسازی اگزوم از مطالعات متنوعی که ترکیبپذیر نیستند، تسهیل خواهد کرد.
Main
در طول ده سال گذشته، مطالعات ارتباطی اگزومدرسراسری (ExWAS) بهطور مؤثری توانستند ژنهای مرتبط با بیماریها را شناسایی کنند1. با تمرکز بر تغییرات پروتئینی، ExWAS اغلب سیگنالهای ارتباطی قابل تفسیر ارائه میدهد که میتواند به شناسایی اهداف درمانی و راهنمایی درمان بیماری کمک کند. بهعنوان مثال، کشف تغییرات نادر کدگذاری پروتئین در GPR75 که با کاهش شاخص توده بدنی (BMI) مرتبط است، نشان میدهد که مهار GPR75 میتواند بهعنوان یک استراتژی درمانی برای چاقی مطرح شود2. بهطور مشابه، تغییرات نادر کدگذاری پروتئین در CIDEB با محافظت در برابر بیماری کبدی مرتبط هستند و CIDEB را بهعنوان یک هدف درمانی پیشنهاد میکنند3.
هنگامی که با ژنوتایپسازی آرایهای همراه با ایمپوتیشن ترکیب میشود، ExWAS قدرت ارتباطی مشابه با توالیگذاری تمامژنوم برای آزمونهای تکتغییری و مبتنی بر ژن دارد4.
به علت نادر بودن اکثر تغییرات پروتئینی، ExWAS سعی میکند با ترکیب تغییرات در یک ژن، قدرت آماری را افزایش دهد. آزمونهای مختلف بسته به ساختار ژنتیکی ویژگی، توان تشخیص متفاوتی خواهند داشت. «آزمونهای بار» بهطور گستردهای برای این منظور استفاده میشوند و در مواقعی که تغییرات علّی عملکرد ژن را در همان جهت اثر تغییر میدهند، قدرت خوبی دارند5,6. آزمونهای مؤلفهوار (variance component tests) توزیع اندازهٔ اثرات را مدل میکنند و میتوانند در زمانی که تغییرات علّی در جهتهای متضاد عمل میکنند، قدرت بیشتری داشته باشند7,8. بهعلاوه، روشهایی که آزمونهای تکتغییری را در یک مقدار P ترکیب میکنند، وقتی تنها تعداد کمی از تغییرات علّی وجود دارد، میتوانند بسیار قدرتمند باشند9. از آنجا که ساختار ژنتیکی واقعی ناشناخته است، ترکیبی از انواع آزمونهای مبتنی بر ژن میتواند در یک آزمون جامع ترکیب شود تا برای تصحیح آزمونهای متعدد مناسب باشد10,11. یک جزء کلیدی این رویکرد استفاده از حاشیهگذاریهای تغییرات (annotation) برای گروهبندی تغییرات مخرب پروتئین در هر ژن است. پیشبینی اثر تغییرات بر ساختار پروتئین یک حوزه پژوهشی فعال است و منابع حاشیهگذاری مختلفی وجود دارد12,13,14.
متا‑تحلیل ExWAS در میان مجموعه دادههای متنوع از نظر نژاد، همچنین قدرت را برای کشف اهداف دارویی جدید افزایش میدهد. متا‑تحلیل اندازهٔ اثر، که به عنوان متا‑تحلیل وزندار معکوس واریانس نیز شناخته میشود، میتواند برای ترکیب آزمونهای بار در میان مطالعات با استفاده از برآوردهای اندازهٔ اثر و خطاهای استانداردشان بهکار رود. برای سایر آزمونهایی که برآورد اندازهٔ اثر ارائه نمیدهند، مانند روشهای مؤلفهوار، روشهای متنوعی برای ترکیب مقادیر P در میان مطالعات وجود دارد. این رویکردها، که ما آنها را «متا‑تحلیل استاندارد» مینامیم، ساده و سریع بهکار میروند و نتایج معقولی تولید میکنند2,3.
با این حال، متا‑تحلیل آزمونهای مبتنی بر ژن میتواند چالشبرانگیز باشد اگر مطالعات مشارکتکننده از منابع حاشیهگذاری متفاوت یا معیارهای مختلفی برای گروهبندی تغییرات استفاده کنند. ناسازگاری در تغییراتی که در آزمونها گنجانده میشوند، میتواند تفسیر و تحلیلهای بعدی را دشوار سازد. به عنوان مثال، بسیاری از آزمونها از یک آستانهٔ فراوانی آلل برای گنجاندن یک تغییر در مجموعه ژنی استفاده میکنند. اختلاف در فراوانیهای آلل میان مطالعات میتواند تغییرات انتخابشده در هر مطالعه را تغییر دهد. علاوه بر این، منابع حاشیهگذاری بهمحض پیشرفتهای جدید بهروز میشوند. بهروزرسانی یک متا‑تحلیل برای استفاده از حاشیهگذاریهای جدید نیازمند بازتحلیل تمام ژنها در تمام مطالعات و ویژگیهاست که میتواند هزینهبر و زمانبر باشد.
این مشکلات میتوانند با استفاده از آزمونهای مبتنی بر ژن که از آمارهای خلاصهٔ تکتغییری بهره میبرند، برطرف شوند. برخی آزمونهای مبتنی بر ژن میتوانند از برآوردهای مقیاسدار اندازهٔ اثر (یعنی آمارههای امتیاز) هر تغییر تکتغییری در یک ژن، و مقادیر همبستگی (LD) بین این آمارهای خلاصه محاسبه شوند15,16. آمارهای خلاصه میتوانند در میان مطالعات برای متا‑تحلیل ترکیب شوند، که امکان کنترل دقیق بر تغییرات گنجاندهشده در یک آزمون را بدون نیاز به انجام دوبارهٔ تحلیل ارتباطی (یعنی بدون نیاز به بازگرداندن به دادههای ژنتیکی یا فنوتیپی خام) فراهم میکند. آزمونهای مبتنی بر ژن از آمارهای خلاصه میتوانند برای آزمون حاشیهای هر ژن بهصورت منفرد یا مشروط بر مجموعهای از تغییرات مشخص بهکار روند. برنامههای نرمافزاری RAREMETAL16 و metaSTAAR17 این رویکرد را پیادهسازی میکنند. اما اطلاعات LD مورد نیاز بسته به مجموعه دقیق شرکتکنندگان و ویژگی تجزیهوتحلیل متفاوت است. بنابراین، یک ماتریس مشابه LD باید برای هر مطالعه و هر ویژگی محاسبه شود — که میتواند در مطالعاتی با تعداد زیادی ویژگی، محاسبه، ذخیره و مدیریت آن دشوار باشد.
در این مقاله، ما رویکرد جدیدی برای این مشکل ارائه میدهیم که چندین ویژگی کلیدی دارد. ابتدا نشان میدهیم که فایلهای مرجع LD پراکندهٔ استخراجشده از تمام شرکتکنندگان یک مطالعه میتوانند بهدقت جایگزین فایلهای LD دقیق برای یک مطالعه شوند، حتی اگر فقط زیرمجموعهای از شرکتکنندگان مورد استفاده قرار گیرد. چنین ماتریسهای مرجع LD میتوانند یکبار پیشمحاسبه شوند و برای تحلیلهای بعدی مورد استفاده قرار گیرند، که میتواند بهطور قابلتوجهی نیازهای محاسباتی و ذخیرهسازی آزمونهای مبتنی بر ژن را کاهش دهد. این همچنین به اشتراکگذاری آسان فایلهای LD بین گروههای پژوهشی کمک میکند، زیرا تنها یک فایل LD برای هر مطالعه بهجای هر فنوتیپ و مطالعه لازم است.
دوم، ما فرمت باینری فشردهٔ بر پایهٔ هر کروموزوم را برای ذخیرهسازی و بهاشتراکگذاری مؤثر ماتریسهای LD مورد نیاز برای آزمونهای مبتنی بر ژن توسعه دادیم. این فرمت هم برای سناریوهای آزمون منفرد و هم مشروط بهکار میرود و بهصورت ایندکسدار است تا دسترسی سریع به اطلاعات LD هر ژن امکانپذیر شود.
سوم، از آنجا که مقادیر P برای تفسیر پیگیر آزمونهای مبتنی بر ژن کافی نیستند، ما روش تقریباً محاسبهٔ فراوانیهای آلل، شمارش ژنوتیپها و اندازهٔ اثر آزمونهای بار را از آمارهای خلاصه توسعه میدهیم.
چهارم، ما این رویکرد را برای متا‑تحلیل ویژگیهای دودویی با عدم تعادل شدید کیس‑کنترل گسترش دادیم و نشان میدهیم که این تقریب بهخوبی کالیبره میشود.
در نهایت، برای سادهسازی استفاده، ما این رویکرد را در یک بسته نرمافزاری متنباز به نام REMETA18 پیادهسازی کردهایم که بهصورت یکپارچه با نرمافزار REGENIE کار میکند.
Results
مروری بر روشها
گردش کار REGENIE/REMETA در شرایطی قابلاستفاده است که T ویژگی در K مطالعه با ژنوتایپهای آرایهای و دادههای توالیسازی تمام اگزوم (WES) در P ژن اندازهگیری شدهاند، و شامل سه گام زیر میشود (شکل ۱).

گردش کار REMETA شامل سه گام است: (1) ساخت ماتریس LD در REMETA، (2) آزمون ارتباطی تکتغییری با REGENIE و (3) متا‑تحلیل. REMETA از مجموعههای ژنی، حاشیهگذاریهای تغییرات و یک فایل اختیاری فراوانی آلل برای ساختن آزمونهای مبتنی بر ژن از آمارهای خلاصه تکتغییری و ماتریسهای LD در طول متا‑تحلیل استفاده میکند. مقادیر P در سراسر ماسکها و آزمونها با استفاده از ACAT ترکیب میشوند تا یک مقدار P «GENE_P» برای هر ژن تولید شود و تعداد آزمونهای متعدد محدود گردد. فایل تعریف GENE_P مشخص میکند که کدام ماسکها در GENE_P گنجانده شوند.
ساخت ماتریس LD
گام اول ماتریسهای مرجع LD را برای هر مطالعه در REMETA میسازد. این گام تنها یکبار برای هر مطالعه لازم است. ماتریسهای جداگانه برای هر یک از T ویژگیها لازم نیستند، همانند رویکردهای موجود17، که بهطور قابلتوجهی هزینه محاسبه و فضای ذخیرهسازی را کاهش میدهد. ما قالب باینری سفارشی برای ماتریسهای LD توسعه دادیم که ایندکسدار است تا بتوان ماتریسهای LD برای ژنهای منفرد را بهسرعت استخراج کرد. فایلهای LD میتوانند فقط از مجموعه دادهٔ WES ساخته شوند؛ که برای آزمون هر ژن بهصورت منفرد کافی است، یا از مجموعه دادهٔ WES بههمراه یک فایل از تغییرات ایمپوت شده در تمام ژنوم برای محاسبهٔ آزمونهای مبتنی بر ژن بهصورت مشروط بر لociهای GWAS استفاده شوند.
آزمون ارتباطی تکتغییری
گام دوم شامل اجرای REGENIE مرحله ۱ بر روی ژنوتایپهای آرایهای برای هر مطالعه و برای T ویژگی با هر کوواریهٔ مناسب است. این گام بهاکثریت رابطهپذیری، ساختار جمعیت و پلیژنیتی پرداخته و نمرات پلیژنیک تولید میکند که سپس بهعنوان کوواریههای افزوده در REGENIE مرحله ۲ بهکار میروند؛ جایی که آزمون ارتباطی تغییرات تکتغیری در مجموعه دادهٔ WES برای هر فنوتیپ انجام میشود. مهم است که در این گام تمام تغییرات پلیمورفیك بدون فیلتر بر شمارش آللهای جزئی تجزیه و تحلیل شوند؛ حذف هر تغییری در این مرحله به این معناست که آن تغییر در هیچیک از آزمونهای بعدی مبتنی بر ژن با استفاده از REMETA گنجانده نشود. یکی از مزایای کلیدی استفاده از REGENIE این است که میتوان چندین ویژگی را بهصورت همزمان اجرا کرد، که هزینه محاسباتی را کاهش میدهد و سادهتر است. ما پرچم htp را به مرحله ۲ REGENIE اضافه کردهایم تا خروجی آمارهای خلاصهٔ دقیقتری که REMETA نیاز دارد، تولید کند.
متا‑تحلیل
گام سوم متا‑تحلیل مبتنی بر ژن را با استفاده از REMETA انجام میدهد. ورودیهای این گام شامل فایلهای آمارهای خلاصهٔ REGENIE برای هر ویژگی و هر مطالعه، فایلهای LD REMETA برای هر مطالعه، مجموعههای ژنی و فایلهای حاشیهگذاری تغییرات، و یک فهرست اختیاری از تغییرات برای شرطیسازی است. REMETA از فایلهای مرجع LD برای هر مطالعه استفاده میکند، مقیاسبندی و تحولاتی را که بر اساس ویژگی مورد متا‑تحلیل است اعمال میکند و آزمونهای بار، آزمون ترکیبی بهینهٔ هستهٔ توالی (SKATO) بهعنوان آزمون مؤلفهوار، و آزمون تجمیعی کاوشی (ACATV) را با استفاده از دستههای فراوانی آلل مشخصشده توسط کاربر محاسبه مینماید. آزمونها میتوانند در یک مقدار P کلی «GENE P» برای هر ژن ترکیب شوند. بهطور کلی، این گام کنترل دقیقتری بر نحوهٔ انجام متا‑تحلیل به کاربران میدهد.
آزمونهای مبتنی بر ژن تقریباً با استفاده از LD هر مطالعه
ماتریس Cov(S) باید برای هر ویژگی و هر مطالعه در تحلیل محاسبه و ذخیره شود. بنابراین ما قصد داشتیم Cov(S) را با ماتریسی که یک بار برای هر مطالعه محاسبه میشود، تقریب بزنیم. همانطور که دیگران اشاره کردهاند15,19، در نبود کوواریانتهای دیگر (بهجز یک مقدار ثابت) Cov(S)=ν Cov(G^T) که در آن ν یک اسکالر وابسته به فنوتیپ است. این نشان میدهد که میتوانیم Cov(G^T) را یکبار محاسبه کنیم و سپس برای هر فنوتیپ تنظیم کنیم. انتخاب طبیعی این است که Cov(G^T) را تنظیم کنیم تا قطری همانند Cov(S) داشته باشد. این رویکرد همان چیزی است که ما اتخاذ میکنیم.
فرض کنید G ماتریس ژنتوتایپی به ابعاد n × p شامل تمام تغییرات یک ژن باشد، S_{t} آمارههای امتیاز همه تغییرات در یک ژن برای یک فنوتیپ خاص t باشد و Φ_{t}=Cov(S_{t}) کوواریانس آنها. ما پیشنهاد میکنیم سه قطعه اطلاعات برای ساختن آزمونهای مبتنی بر ژن نگهداری شود: S_{t}، D_t=diag(Φ_{t}) و Cov(G^T). سپس ما Cov(S) را بهصورت تقریبی (توجه داشته باشید Corr(G^T) بهراحتی از Cov(G^T) محاسبه میشود) محاسبه میکنیم:
به این ترتیب، برای T ویژگیها، نیازهای زمان و فضای محاسباتی از … به … کاهش مییابد.
متا‑تحلیل اندازهٔ اثر
اندازهٔ اثرات با استفاده از متا‑تحلیل وزندار معکوس واریانس ترکیب میشود. بهطور خاص، اگر β_{1},…,β_{K} و SE_{1},…,SE_{K} به ترتیب اندازهٔ اثر و خطاهای استاندارد برای یک تغییر در K مطالعه باشند، وزن w_{k}=1/(SE_{k})^{2} محاسبه میشود؛ β = (∑_{k}w_{k}β_{k})/(∑_{k}w_{k})؛ se = (1/∑_{k}w_{k})^{1/2}؛ Q = (β/se)^{2}~χ^{2}(1).
P value meta‑analysis
متا‑تحلیل مقادیر P با استفاده از روش Stouffer انجام میشود. در روش Stouffer، مقادیر P ابتدا به نمرات z تبدیل میشوند، سپس با وزنگذاری بر مبنای اندازه نمونههای هر مطالعه ترکیب میشوند. فرض کنید p_{1},…,p_{K} مقادیر P برای یک آزمون در K مطالعه با اندازه نمونههای N_{1},…,N_{K} باشند. ما محاسبه میکنیم Z_{k}=Φ^{-1}(p_{k})؛ w_{k}=√N_{k}؛ Z = (∑_{k}w_{k}Z_{k})/√(∑_{k}w_{k}^{2})~N(0,1).
متا‑تحلیل آزمونهای مبتنی بر ژن
فرض کنید S_{k} بردار ج‑بعدی (j × 1) آمارههای امتیاز برای تغییرات در یک آزمون مبتنی بر ژن در مطالعه k باشد. برای متا‑تحلیل WST و SKATO در میان مطالعات، میتوان آمارههای امتیاز را بهصورت S=∑_{k}S_{k} ترکیب کرد؛ Cov(S)=∑_{k}Cov(S_{k}). سپس مقادیر P میتوانند همانگونه که در مورد تکمطالعه توضیح داده شد، محاسبه شوند.
برآورد اندازهٔ اثر
در آزمون مجموع، فرض میشود هر تغییر در یک ماسک دارای همان اندازهٔ اثر باشد. بنابراین، اگر β اندازهٔ اثر واقعی باشد که میخواهیم برآورد کنیم، و β̂_{1},…,β̂_{p} برآوردهای اثر حاشیهای تغییرات در ماسک باشند، آنگاه E[β̂_{j}]=β برای هر تغییر j در ماسک صادق است. همچنین برای هر ترکیب متقارن w_{1},…,w_{p} از اندازهٔ اثرها داریم E[∑_{j}w_{j}β̂_{j}]=β. میتوانیم از این مشاهد برای یافتن برآوردی استفاده کنیم که Var(∑_{j}w_{j}β̂_{j}) را بهحداقل برساند. اگر همبستگی بین اندازهٔ اثرها در ماسک وجود نداشته باشد، این معادل یک متا‑تحلیل وزندار معکوس واریانس تغییرات در ماسک میشود. ما از خطا استاندارد s=√Var(∑_{j}w_{j}β̂_{j}) برای مقیاسگذاری نمرهٔ z آزمون مجموع استفاده میکنیم. بهطور خاص، اگر z نمرهٔ z آزمون مجموع باشد، برآورد اندازهٔ اثر β̂=s z است. در عمل، ما متوجه شدیم که تنظیم وزنها به صورت w_{j}∝1/SE_{j}^{2}، که همان وزنهای مورد استفاده در متا‑تحلیل وزندار معکوس واریانس است، برآوردهای دقیقی از اندازهٔ اثر تولید میکند.
تحلیل شرطی
REMETA LD تغییرات داخل یک ژن و در یک ناحیهٔ حاشیهای مشخص توسط کاربر را ذخیره میکند. بهشرطی که یک تغییر در ماتریس LD یک ژن ذخیره شده باشد، میتوان از آن برای انجام تجزیهوتحلیل مشروط آزمونهای مبتنی بر ژن استفاده کرد. اگر S_{g} آمارههای امتیاز در یک آزمون مبتنی بر ژن و S_{c} آمارههای امتیاز تغییرات برای شرطیسازی باشند، آنگاه تحت فرض صفر S_{g}|S_{c}=S_{g}−Cov(S_{g},S_{c})Cov(S_{c})^{-1}S_{c}. کوواریانس مشروط برابر است با Cov(S_{g}|S_{c})=Cov(S_{g})−Cov(S_{g},S_{c})Cov(S_{c})^{-1}Cov(S_{g},S_{c})^{T}. برای متا‑تحلیل، ما تجزیهوتحلیل مشروط را همزمان بر تمام مطالعات، یعنی بر مجموع آمارههای امتیاز در میان مطالعات، انجام میدهیم.
برآورد شمارش ژنوتیپها و فراوانی آلل
اگر شمارش ژنوتیپهای تکتغییری شناخته شوند، میتوان از آنها برای برآورد شمارش ژنوتیپهای ماسک بار استفاده کرد. فرض کنید G_{1},…,G_{p} بردارهای ژنوتیپ برای p تغییر در ماسک باشند، و Y=max{G_{1},…,G_{p}}∈{0,1,2} بردار ژنوتیپ ماسک باشد که بیشترین ژنوتیپ میان عناصر بردارهای تغییر گرفته شده است. علاوه بر این، N_{G_{j}=1} تعداد افراد هتروزیگوت برای تغییر j باشد و N_{Y=1} تعداد افراد هتروزیگوت برای ماسک بار باشد. هدف ما برآورد N_{Y=1} از N_{G_{1}=1},…,N_{G_{p}=1} است. بهطور خاص، میخواهیم ضرایب c_{j} را طوری پیدا کنیم که N_{Y=1}=∑_{j}c_{j}N_{G_{j}=1}. استراتژی ما این است که c_{j} را بهصورت توالی محاسبه کنیم، بهطوری که هر c_{j} نسبت بخشی از N_{G_{j}=1} که هنوز شمارش نشده است تخمین بزند. بهطور خاص، c_{j}=Pr(G_{1}≠1,…,G_{j-1}≠1|G_{j}=1)≈∏_{m=1}^{j-1}Pr(G_{m}≠1|G_{j}=1). این تقریب انتخاب شده است چون جملات Pr(G_{m}≠1|G_{j}=1) میتوانند از ماتریس LD محاسبه شوند (مورد همزیستی برای هموزیگوتها مشابه است).
گسترش به ویژگیهای دودویی با عدم تعادل کیس‑کنترل
برای ویژگیهای دودویی نامتعادل، استفاده از تقریب نرمال برای توزیع آمارهٔ امتیاز میتواند منجر به اشکال نوع ۱ شود. روش SPA نشان داده است که یک استراتژی مؤثر برای کنترل اشکال نوع ۱ هم برای تکتغییری27 و هم برای آزمونهای مبتنی بر ژن28 است. SPA تابع تولید مجموع کومننت آمارهٔ امتیاز را برای تقریب توزیع صفر استفاده میکند. برای یک تغییر j، تابع تولید مجموع کومننت آمارهٔ امتیاز برای رگرسیون لجستیک برابر است با K(t)=∑_{i=1}^{n}log(E_{H_{0}}[e^{tS_{j}}])=∑_{i=1}^{n}log(1-μ̂_{i}+μ̂_{i}e^{g_{ij}t})-t∑_{i=1}^{n}g_{ij}μ̂_{i}. در چارچوب مدل ارتباطی که یک تکنوکلئوتید (SNP) را تنها با یک مقدار ثابت (intercept) بهعنوان کوواریه بررسی میکند، ماتریس کوواریانس آمارههای امتیاز معادل یک مقیاسگذاری مجدد ماتریس کوواریانس ژنوتیپهای آزمون است15,19. بنابراین، یک استراتژی طبیعی این است که کوواریانس ژنوتیپها را یک بار برای هر مطالعه محاسبه کنیم و سپس برای هر ویژگی تنظیم کنیم. برای تنظیم، ما واریانس آمارههای امتیاز را برای هر ویژگی (روشها) ذخیره میکنیم. بهصورت کلی، این تنظیم اختلافات در اندازه نمونه و واریانس فنوتیپ را اصلاح میکند. برای کاهش بیشتر نیازهای ذخیرهسازی، میتوان ماتریس کوواریانس را بهصورت پراکنده ذخیره کرد، بهطوری که فقط ورودیهای بین جفتهای تغییرات اگزوم که r^{2}>10^{-4} (قابل تنظیم از طریق یک پارامتر خط فرمان) نگهداری شوند. ما به این ماتریس کوواریانس پراکندهٔ ژنوتیپ که یک بار برای هر مطالعه محاسبه میشود «LD مرجع» مینامیم، و ماتریس کوواریانس آمارههای امتیاز را «LD دقیق» مینامیم. هدف ارزیابی این است که تا چه حد مقادیر P محاسبهشده با استفاده از ماتریس LD مرجع، نزدیک به مقادیر P محاسبهشده با ماتریس LD دقیق هستند.
حاشیهگذاریهای تغییرات و مجموعههای ژنی
ما تغییرات را بر پایهٔ حاشیهگذاریها و فراوانی آلل بهصورت مجموعهها (یا ماسکها) برای آزمونهای مبتنی بر ژن گروهبندی کردیم. تغییرات بر اساس هفت دستهٔ حاشیهگذاری: تغییرات پیشبینیشدهٔ از دست رفتن عملکرد (pLoF)، تغییرات مخرب میسنس، تغییرات ممکن است مخرب میسنس، تمام تغییرات میسنس و ترکیبی pLoF با هر دستهٔ میسنس گروهبندی شدند. تغییرات با استفاده از VEP12 و بر مبنای ترانسکریپتهای کانونی حاشیهگذاری شدند. تغییراتی که بهصورت stop‑gained، start‑lost، splice donor، splice acceptor، stop‑lost یا frameshift بودند، بهعنوان pLoF درنظر گرفته شدند. برای تغییرات میسنس، نتایج پنج الگوریتم پیشبینی برای تعیین شدت آنها استفاده شد: SIFT30، PolyPhen2 HDIV، PolyPhen2 HVAR31، LRT32 و MutationTaster33. تغییرات در دستهٔ میسنس مخرب گنجانده میشوند اگر توسط هر پنج الگوریتم بهعنوان مخرب پیشبینی شوند، در دستهٔ میسنس ممکن است مخرب اگر حداقل توسط یک الگوریتم پیشبینی شوند، و در دستهٔ تمام میسنس اگر توسط هیچ الگوریتمی بهعنوان مخرب پیشبینی نشوند. برای مقایسه بین REGENIE و REMETA، ما چهار بینهٔ فراوانی آلل در نظر گرفتیم: AAF <1%، AAF <0.1%، AAF <0.001% و سِنگلها. برای مقایسه بین متا‑تحلیل استاندارد و REMETA، پنج بینهٔ فراوانی آلل در نظر گرفته شد: AAF <1%، AAF <0.5%، AAF <0.1%، AAF <0.001% و سِنگلها.
تحلیل و متا‑تحلیل UK Biobank
ما دادههای WES از نسخهٔ نهایی خط لوله OQFE را همراه با ژنوتایپهای ایمپوتشده برای ۴۶۹٬۳۷۲ نمونه در UKB تجزیهوتحلیل کردیم. جزئیات توالیسازی اگزوم34، فنوتیپسازی و ژنوتایپسازی آرایهای35، و ایمپوتیشن در برابر TOPMed و تخصیص نژاد1 پیشتر توصیف شدهاند. هر دو متغیر BMI و LDL با روش تبدیل معکوس‑نرمال رتبه‑بندی شدهاند. آزمون ارتباطی در REGENIE با استفاده از کوواریههای سن، سن²، جنس، تعامل سن‑با‑جنس، دستهبندی اگزوم، ده ترکیب برتر PC آرایهای و بیست ترکیب برتر PC اگزوم انجام شد.
Reporting summary
اطلاعات بیشتر دربارهٔ طراحی پژوهش در خلاصهٔ گزارش Nature Portfolio که به این مقاله پیوست است، قابل دسترسی است.