معلومة

كيف يتم الكشف عن متغيرات النوكليوتيدات المفردة (SNVs)؟


هذه الصورة مأخوذة من هذه الورقة.

وصف هذه الصورة كالتالي: -
تتم محاذاة قراءات تسلسل الحمض النووي من عينة الورم إلى جينوم مرجعي (يظهر باللون الرمادي). تشير الاختلافات أحادية النوكليوتيدات بين القراءات والجينوم المرجعي إلى متغيرات النوكليوتيدات المفردة في السلالة الجرثومية (SNVs ، الدوائر الخضراء) ، SNV الجسدية (الدوائر الحمراء) ، أو أخطاء التسلسل (الماس الأسود). (أ) في عينة الورم النقية ، يشير الموقع الذي يحتوي على عدم تطابق أو بدائل نوكليوتيد مفردة في نصف القراءات التي تغطي الموقع تقريبًا إلى سلالة جرثومية متغايرة الزيجوت SNV أو SNV جسدي متغاير الزيجوت - بافتراض عدم وجود انحراف في رقم النسخ في الموقع. تميز خوارزميات اكتشاف SNVs الحقيقية عن أخطاء التسلسل من خلال طلب قراءات متعددة مع نفس الاستبدال أحادي الحرف ليتم محاذاتها في الموضع (المربعات الرمادية). (ب) مع انخفاض نقاء الورم ، يتناقص جزء القراءات التي تحتوي على طفرات جسدية: تظهر الخلايا السرطانية والعادية ، والقراءات الناشئة عن كل منهما ، باللونين الأزرق والبرتقالي ، على التوالي. عدد القراءات التي تبلغ عن طفرة جسدية ينخفض ​​مع نقاء الورم ، مما يقلل من الجاذبية لتمييز الطفرات الجسدية الحقيقية عن أخطاء التسلسل. في هذا المثال ، تم اكتشاف SNV جسدي واحد متغاير متغاير وخط جرثومي متغاير الزيجوت واحد (مربعات رمادية) حيث لا يمكن تمييز الطفرة في المجموعة الوسطى من r eads المحاذاة عن أخطاء التسلسل.

هذا هو فهمي أدناه. هل انا صائب؟

هناك العديد من القراءات التي تمت مواءمتها بحيث تكون لموقع معين في الجينوم المرجعي ، (هنا الرابعة) ، إذا كان نصف القراءات التي تغطي هذا الموقع تقريبًا أو أكثر يحتوي على عدم تطابق نيوكليوتيد واحد مع الجينوم المرجعي ، فهو إذن SNV متغاير الزيجوت .
على سبيل المثال: -


لا يرتبط الرابط الخاص بك بالورقة ، ويبدو أنك تتجاهل نصف ما تحاول الصورة أن تعبر عنه.

النقطة المهمة هي أنه نظرًا لأن الأورام غير متجانسة ، فقد يكون لديك 40٪ فقط من الخلايا متغايرة الزيجوت بالنسبة إلى SNV معين ، مما يعني أنه يمكن ملاحظتها فقط في 20٪ من القراءات. ولكن إذا أظهرت عدة قراءات مع مواقع بدء مختلفة نفس SNV ، فمن المحتمل أن تكون حقيقية. إذا كانت التغطية منخفضة لدرجة أنك تحصل على قراءة واحدة فقط تُظهر SNV حقيقيًا ، فلن تتمكن من تمييزها عن الضوضاء.


الإجابة الحالية صحيحة ، لكني أريد أن أتوسع في هذا قليلاً.

في العالم المثالي ، ستكون عينة الأنسجة متجانسة تمامًا (كل خلية لها نفس الحمض النووي الجيني تمامًا مع عدم وجود اختلافات) ، ولن ترتكب آلات تسلسل الحمض النووي أي أخطاء ، وستقوم تجارب التسلسل بأخذ عينات من كل جزء من الجينوم (بالتساوي) إلى عمق مستوى التغطية. في هذا العالم المثالي ، يعد التمييز بين SNV المتغاير الزيجوت عن SNV المتماثل أمرًا تافهًا: بالنسبة إلى SNVs متماثلة اللواقح ، فإن 100٪ من القراءات المتوافقة مع موضع الاهتمام سيكون لها نفس النيوكليوتيد الذي يختلف عن المرجع ؛ بالنسبة لـ SNV المتغايرة الزيجوت ، سيكون هناك تقسيم مثالي بنسبة 50٪ / 50٪ بين القراءات التي تتطابق مع المرجع والقراءات التي تتطابق مع النيوكليوتيدات البديلة.

المشكلة الكبيرة هي أن أيا من هذه المثل الثلاثة لا ينطبق في العالم الحقيقي. لا تقوم تجارب التسلسل بأخذ عينات من الجينوم بشكل متساوٍ ، لذلك فإن بعض المناطق لديها العديد من خرائط القراءات (نقول أن هذه المناطق لديها "تغطية عالية") في حين أن المناطق الأخرى لديها خرائط قليلة للقراءات ("تغطية منخفضة"). أيضًا ، ترتكب آلات تسلسل الحمض النووي أخطاءً ، بترتيب 1٪ لآلة Illumina و 10-30٪ لمسلسلات القراءة الطويلة مثل PacBio و Oxford Nanopore. نظرًا لأن أخطاء التسلسل عشوائية ، فمن السهل عادةً تمييزها عن التباين الجيني الحقيقي ، ولكن فقط في المناطق ذات التغطية المتوسطة إلى العالية. أخيرًا ، لا يمكننا دائمًا افتراض أن جميع الخلايا في العينة سيكون لها حمض نووي متطابق - وهذا صحيح بشكل خاص مع أنسجة الورم.

لكل هذه الأسباب ، لا يمكننا التمييز بين SNV متغايرة الزيجوت من خلال طلب تطابق 50٪ من القراءات بالضبط مع نيوكليوتيد بديل. كما تنص swbarnes2 ، قد يكون أقل بكثير من 50٪ ، ولكن مع التغطية الكافية يمكنك اتخاذ قرار واثق.


كيفية اكتشاف متغيرات COVID-19 المثيرة للقلق

لقد حان وقت كتابة هذا العنوان بعد عام واحد من نشر مدونة مماثلة حول كيفية التحقق من صحة اختبار COVID-19 في بداية الوباء. من نواحٍ عديدة ، فإن التحديات متشابهة: محدودية الكواشف / مواد التحكم ، وارتفاع عدد الحالات. على الأقل الآن ، هناك دعم متزايد في طريقة التمويل من الحكومة الفيدرالية يمكن أن يساعد في المراقبة والمراقبة. سأقوم بتلخيص الأساليب الحالية المتاحة لاكتشاف المتغيرات المثيرة للقلق والمتغيرات الناشئة.

تسلسل الجينوم الكامل

الطريقة الأساسية المستخدمة من قبل الكثيرين هي تسلسل الجينوم الكامل. يتميز بقدرته على إجراء فحص شامل لكل حرف (نيوكليوتيد) من جينوم SARS-CoV-2 (بطول 30 كيلو قاعدة). في مؤسستنا ، كنت أعمل على الجهد المبذول لتسلسل جميع عيناتنا الإيجابية. في حين أنه يمكن تحقيقه ، إلا أنه ليس بسيطًا وغير ممكن في معظم المواقع. تشمل القيود ما يلي:

  • المالية: يجب أن تمتلك بالفعل أجهزة التسلسل باهظة الثمن
  • الخبرة: مطلوب أفراد متقدمون في التشخيص الجزيئي والذين يقومون بإجراء اختبار NGS
  • تحليلات البيانات: موظفو المعلوماتية الحيوية اللازمين لإنشاء خطوط الأنابيب وتحليل البيانات والإبلاغ عنها بتنسيق سهل الهضم.
  • التوقيت: تستغرق العملية عادةً أسبوعًا في أحسن الأحوال وعدة أسابيع إذا كان هناك تراكم أو عدم وجود عينات كافية لتشغيل التسلسل ليكون قابلاً للتطبيق من الناحية المالية.
  • الحساسية: حد الكشف عن NGS هو 30 دورة تصوير مقطعي ، والتي بالنسبة لنا تشمل فقط حوالي 1/2/3 من جميع عينات COVID19 الإيجابية.

الخلاصة: WGS هو الأفضل في اكتشاف السلالات أو الطفرات الجديدة / الناشئة عندما لا تكون التكلفة / الوقت مصدر قلق.

فحص الطفرة

بدأت مؤسسات أخرى جهودًا لفحص المتغيرات المثيرة للقلق من خلال الكشف عن الطفرات المميزة. على سبيل المثال ، طفرة N501Y في بروتين سبايك شائعة لدى الرائد المتغيرات المثيرة للقلق (المملكة المتحدة B.1.1.7 ، البرازيل P.1 ، S Africa B.1.351) و E484K موجودة في البرازيل (صفحة 1) ، جنوب أفريقيا (ب 1.351) ومتغير نيويورك (ب. 1.526). وبالتالي ، اتخذت العديد من المؤسسات (المدرجة أدناه) مناهج لـ 1) فحص هذه الطفرات ثم 2) أداء WGS بالتتابع.

مؤسسةطريقةالأهداف
Hackensack Meridian Health (HMH)مجسات منارة الجزيئية ، درجة حرارة الانصهارمنارات جزيئية N501Y ، E484K
روتجرز ، نيو جيرسيمجسات منارة الجزيئية ، درجة حرارة الانصهارمنارات N501Y الجزيئية
فانكوفرمسبار + منحنى الانصهار (فحوصات طفرة VirSNiP SARS-CoV-2)شاشة N501Y + مسبار منعكس qPCR ، فحص منحنى الذوبان
ييلفحص مسبار RT-qPCRS: 144del ، ORF1Adel
كولومبيافحص مسبار RT-qPCRN501Y ، E484K

كما ترون ، تستخدم HMH و Rutgers و Vancouver المقايسات التي تستخدم تحقيقات خاصة بالأليلات المميزة جنبا إلى جنب مع منحنيات درجة حرارة الانصهار لاكتشاف التغيير الناجم عن طفرة. عادةً ما يتم إجراء تحليل منحنى الذوبان بعد qPCR لضمان تكوين منتج PCR واحد صحيح. يتم حساب هذا المقياس بناءً على التغيير في التألق الذي يحدث عندما تكون علامة الفلورسنت قادرة على الارتباط بالحمض النووي المستهدف. وهكذا Tm (درجة حرارة الانصهار) مماثلة لدرجة حرارة التلدين. في هذه الحالة حيث توجد طفرة في موقع ربط المسبار (جزء الحمض النووي) ، يتم تعطيل الارتباط ويحدث عند درجة حرارة منخفضة كما يتضح من التحول الهبوطي بمقدار 5 درجات مئوية في الرسم البياني أدناه.

الشكل 1. رسم تخطيطي يوضح تحول درجة حرارة الانصهار لتسلسل المسبار المصمم لربط المسبار الطبيعي والمتحور (متغير E484K) بتركيزات متناقصة. الشكل 2. تحول مماثل إلى أسفل في درجة حرارة الانصهار لمقايسة روتجرز عندما يواجه مسبار من النوع البري تسلسل متحولة مقابل تسلسل WT.

هذه الأساليب سريعة ، ولكنها يمكن أن تؤدي فقط 2-3 تفاعلات لكل بئر وتتطلب الكثير من نفس النفقات مثل فحوصات RT-qPCR التشخيصية. تصف معظم الدراسات هذه الطريقة كطريقة لفحص العينات لتكون متسلسلة NGS ، لكنها لن تكون جيدة في اكتشاف السلالات الناشئة. على سبيل المثال ، الطفرة N501Y غير موجودة في متغيرات نيويورك ولا كاليفورنيا.

Multiplex RT-qPCR يمكن أن تحل بعض هذه المشاكل. في كولومبيا وييل ، تم تصميم أهداف متعددة لاكتشاف B.1.1.7 (N501Y فقط في كولومبيا و S144del + ORF1A del at Yale) مقابل متغيرات البرازيل / جنوب إفريقيا (N501Y & amp E484K في كولومبيا و ORF1A فقط في Yale). مع وصول المتغيرات الجديدة ، وجدنا سلالة نيويورك تحمل كلا من حذف ORF1A وطفرة E484K. من الواضح الآن أن هناك بعض المناطق الساخنة للطفرة داخل جينوم SARS-CoV-2 ، والتي يمكن أن تعقد التفسيرات. وبالتالي، لا تزال فحوصات RT-PCR هذه مفيدة للفحص ، ولكنها لا تحل محل الحاجة إلى تسلسل الجينوم الكامل.

بالنظر إلى الطيف المتداخل للطفرات ، سيكون من المفيد اختبار عدة علامات دفعة واحدة في رد فعل واحد. عند نقطة معينة ، فإن هذا من شأنه أن "النمط الجيني" المتغير وكذلك WGS. تم اقتصار المقايسات المذكورة أعلاه على هدفين / رد فعل بسبب قنوات الكشف عن الضوء المحدودة. لذلك ، قمت بإنشاء اختبار متعدد الإرسال يمكن زيادته ليشمل 30-40 هدفًا ضمن تفاعل واحد دون الحاجة إلى تحقيقات باهظة الثمن. هذه الطريقة متعدد تحليل جزء PCR، والتي تستخدم تقليديا لأخذ البصمات الشرعي أو تتبع زرع نخاع العظم. في هذه الطريقة ، يتم تضخيم الحمض النووي بأطوال مختلفة بواسطة تفاعل البوليميراز المتسلسل ، بعد ذلك مفصولة عن طريق الرحلان الكهربائي الشعري-نفس الآلة التي تقوم بتنفيذ تسلسل سانجر.

يمكن إجراء تحليل شظية ل الكشف عن طفرات الحذف / الإدراج و تعدد أشكال النوكليوتيدات المفردة (SNPs) بواسطة البادئات الخاصة بالأليل أو مع أنزيمات التقييد هذا فقط يقطع سلسلة WT أو Mutant.

لقد صممت الاختبار لاستهداف 3 طفرات حذف في B.1.1.7: S: D69_70 و S: D144 و ORF1A: D3675_3677. كل حذف له طول محدد وإذا كانت هناك 3/3 طفرات ، فهناك خصوصية 95٪ لسلالة B.1.1.7. تم اختبار العينات من ديسمبر إلى الوقت الحاضر وفي الدفعة الأولى ، اكتشفت النمط B.1.1.7 المميز (النمط المتوقع والنمط المرصود أدناه).

الصورة النظرية للشكل الذي سيبدو عليه اختبار تحليل الشظايا في ب 1.1.1.7. نتائج عينة فعلية للمريض أدناه ، والتي أظهرت عمليات الحذف المتوقعة تمامًا كما هو متوقع:

لقد قمنا باختبار وتسلسل أكثر من 500 عينة إيجابية ، ووجدنا مستويات متزايدة من انتشار سلالة B.1.1.7 تصل إلى ما يقرب من 30٪ بحلول منتصف شهر مارس. تم التحقق من صحة جميع عينات B.1.1.7 التي تم فحصها بواسطة WGS. تم تفصيل هذه النتائج والقدرة على اكتشاف متغيرات نيويورك وكاليفورنيا في ما قبل الطباعة الأخيرة.

الانتشار الأسبوعي للعزلات المتوافقة مع B.1.1.7 في شمال تكساس.

الآثار المترتبة على مراقبة المتغيرات المستقبلية

نظرًا لأن B.1.1.7 أصبح السلالة السائدة ، وتتزايد جهود التسلسل. أود أن أزعم أنه يجب استخدام المقايسات لما هم الأفضل فيه. على سبيل المثال ، يمكن اعتبار مضيعة للوقت والموارد NGS لتسلسل جميع المتغيرات عندما & gt50٪ ستكون B.1.1.7 إذا كانت الاختبارات الأخرى يمكن أن تتحقق من الإجهاد بشكل أسرع بنسبة 10-20٪ من التكلفة. بدلا من ذلك ، أعتقد يجب أن تركز WGS على اكتشاف المتغيرات الناشئة التي هي الأنسب لها. في جميع أنحاء الولايات المتحدة ، كانت أعداد الحالات تتناقص ويمكن زيادة عدد العينات القابلة للاختبار باستخدام اختبار PCR أكثر حساسية يمكن ذلك.

  1. كلارك AE وآخرون. يحدد تحليل الشظية المتعددة متغيرات SARS-CoV-2. https://www.medrxiv.org/content/10.1101/2021.04.15.21253747v1
  2. Zhao Y et al. اختبار تشخيصي جديد لفحص متغيرات SARS-CoV-2 التي تحتوي على طفرات E484K و N501Y. اختبار تشخيصي جديد لفحص متغيرات SARS-CoV-2 التي تحتوي على طفرات E484K و N501Y | medRxiv
  3. Banada P et al. اختبار بسيط لدرجة حرارة الانصهار RT-PCR للشاشة السريعة لتداول متغيرات SARS-CoV-2 على نطاق واسع. اختبار بسيط لدرجة حرارة الانصهار RT-PCR من أجل الغربلة السريعة لانتشار متغيرات SARS-CoV-2 على نطاق واسع | medRxiv
  4. Annavajhala عضو الكنيست وآخرون. متغير جديد مثير للقلق SARS-CoV-2 ، B.1.526 ، تم تحديده في نيويورك. متغير جديد مثير للقلق SARS-CoV-2 ، B.1.526 ، تم تحديده في نيويورك | medRxiv
  5. ماتيتش ن وآخرون. الاكتشاف السريع لمتغيرات SARS-CoV-2 المثيرة للقلق التي تحدد مجموعة متغير B.1.1.28 / P.1 في كولومبيا البريطانية ، كندا. الكشف السريع عن متغيرات SARS-CoV-2 المثيرة للقلق تحديد مجموعة متغير B.1.1.28 / P.1 في كولومبيا البريطانية ، كندا | medRxiv
  6. فوجيلز سي بي إف وآخرون. اختبار PCR لتعزيز المراقبة العالمية لمتغيرات SARS-CoV-2 المثيرة للقلق. اختبار PCR لتعزيز المراقبة العالمية لمتغيرات SARS-CoV-2 المثيرة للقلق | medRxiv

جيف سوريل ، دكتوراه في الطب هو مدرس مساعد في علم الأمراض في المركز الطبي بجامعة تكساس ساوثويسترن في دالاس ، تكساس ويعمل في مختبر تسلسل الجيل التالي. تشمل اهتماماته البحثية السريرية فهم كيفية تأثير الطب المخبري على الرعاية الصحية لمتحولي الجنس وتحسين تفسير المتغيرات الجينية. لمتابعته عبر تويترJeff_SoRelle.


مقدمة

قد يتم توريث متغيرات التسلسل الجينومي عموديًا (أي تنتقل عبر السلالة الجرثومية) أو يتم إنشاؤها بعد تكوين الزيجوت (أي ، مما يؤدي إلى الفسيفساء الجسدية أو الغدد التناسلية). من الثابت أن الفسيفساء الجسدية تحدث في خلايا الأفراد الطبيعيين النمط الظاهري [1،2،3،4،5،6،7،8،9،10،11،12،13،14،15،16،17] و يمكن أن يؤدي إلى أمراض مختلفة [18]. ومع ذلك ، فإن انتشار الفسيفساء الجسدية ومدى إسهامها في الإصابة بأمراض خارج السرطانات يتطلب التوضيح [18].

قدرت الدراسات الحديثة أن كل خلية داخل دماغ الإنسان تحتوي على مئات إلى بضعة آلاف من المتغيرات الجسدية للنيوكليوتيدات المفردة (SNVs) وأن جزءًا أصغر من الخلايا يحتوي على اختلافات في عدد النسخ الجسدية (CNVs) والعنصر الجيني المتحرك (أي ، retrotransposon). [10 ، 15 ، 17 ، 19 ، 20 ، 21 ، 22]. توجد العشرات من SNVs الجسدية في الكسور عالية التباين (VAFs) عبر أنسجة متعددة ، مما يشير إلى أنها نشأت أثناء التطور المبكر [17 ، 23]. بالمقارنة ، توجد بعض SNV الجسدية في VAFs منخفضة ولها توزيعات أنسجة محدودة ، مما يشير إلى أنها نشأت لاحقًا في التطور [15،16،17].

يعد تسلسل الحمض النووي أحادي الخلية هو النهج الأكثر مباشرة لتحديد المتغيرات الجسدية. ومع ذلك ، فإن الطفرات التي تم إدخالها أثناء تضخيم الحمض النووي و / أو إنشاء مكتبات تسلسل أحادية الخلية ، بالإضافة إلى تحيزات تضخيم الحمض النووي غير المنتظمة ، تجعل من الصعب تمييز SNV الفسيفسائية الحسنة النية من القطع الأثرية الإجرائية [24]. علاوة على ذلك ، يتطلب هذا النهج لتحديد SNV الفسيفسائي أخذ عينات من عدد كبير من الخلايا في فرد معين ، وبالتالي ، يكون مكلفًا.

تتضمن طريقة أخرى لتحديد المتغيرات الفسيفسائية مقارنة مجموعات الخلايا السائبة من عينتين من الأنسجة مشتقة من نفس الفرد - العينة محل الاهتمام وعينة التحكم - كما يتم إجراؤها بشكل روتيني أثناء تحليل جينومات السرطان. ومع ذلك ، فإن هذا النهج محدود بسبب عدم القدرة على تحديد نسيج تحكم مناسب لأن SNV الفسيفسائي ، خاصة تلك التي تنشأ أثناء التطور المبكر ، غالبًا ما تكون موجودة في أنسجة متعددة في جميع أنحاء الجسم. وبالمثل ، فإن مناهج التشفير الشريطي الجزيئي مثل التسلسل المزدوج يمكن أن تصحح الأخطاء الناتجة عن تضخيم أو تسلسل تفاعل البوليميراز المتسلسل وتقدم تحسينًا بمقدار 10000 ضعف للدقة بالمقارنة مع WGS التقليدي [25 ، 26]. ومع ذلك ، تتطلب أساليب الإجماع الجزيئي الأكثر دقة عمق تسلسل عاليًا للغاية (1000 × أو أعلى) لضمان أن كل جزيء DNA يتم تسلسله عدة مرات ، وبالتالي يتم استخدام نسبة قليلة فقط من القراءات الناتجة لاستدعاء المتغير [27]. من وجهة نظر عملية ، يقيد هذا المطلب الفائدة الرئيسية للتشفير الشريطي على الأساليب المستهدفة. وبالتالي ، فإن تطوير مجموعة موحدة من أفضل الممارسات للكشف عن SNV الجسدية من مجموعات بيانات تسلسل الجينوم الكامل (WGS) سيوفر نهجًا بديلاً وفعالًا من حيث التكلفة لتحديد SNV الجسدية.

في هذه الدراسة ، أجرى أعضاء شبكة Brain Somatic Mosaicism (BSMN) دراسة منسقة متعددة المؤسسات قامت بتحليل الفسيفساء في عينة دماغية واحدة من النمط العصبي ووضع معايير موحدة للاتصال والتحقق من صحة SNV الفسيفسائية من بيانات WGS و WES المجمعة.


نتائج

الأساس المنطقي لنهج COBASI.

عندما يتم البحث عن نوكليوتيد واحد محدد على طول الجينوم ، لا يمكن تحديد الموضع الذي ينتمي إليه بشكل لا لبس فيه. إذا تم دمج نيوكليوتيدات متجاورة في البحث ، يتم تقليل مجموعة المواقع المحتملة ، على الرغم من أنها تظل كبيرة جدًا. ومع ذلك ، في مرحلة ما ، سيحتوي سياق النيوكليوتيدات المستهدفة على معلومات كافية لتحديد موضع منشأه الفريد بشكل لا لبس فيه (الشكل 1).أ). في بحثنا السابق ، قمنا بتعريف سلاسل COIN (CS) على أنها مجموعة من جميع التسلسلات المتداخلة (مع نافذة منزلقة أحادية النوكليوتيدات) من الجينوم المرجعي بحجم معين (k) المترجمة بشكل فريد. وهكذا ، فإن كل نيوكليوتيد على طول الجينوم المرجعي موجود في k CSs على الأكثر.

الأساس المنطقي لنهج COBASI. (أ) لا يمكن تحديد موقع نوكليوتيد معين (كبير عريض C) بشكل فريد على طول الجينوم حتى يتم تضمين سياقه في البحث. (اليسار) السلسلة المراد البحث عنها (حق) عدد المواضع التي توجد بها هذه السلسلة. السلسلة السفلية عبارة عن سلسلة COIN (CS) بقيمة 30 nt. (بد) (العلوي) تمثيل تخطيطي لقراءة التسلسل. (أدنى) مناطق معينة من المناظر الطبيعية المتنوعة (VLs) لثلاثة سيناريوهات. (ب) لا توجد إشارة اختلاف. (ج) إشارة تباين SNV متغايرة الزيجوت. (د) إشارة تباين SNV متماثلة اللواقح. خطوط سوداء في ب, ج، و د تمثل قراءات من مشروع الجينوم الذي يحتوي على الأليل المرجعي. تمثل الخطوط الحمراء قراءات من مشروع الجينوم الذي يحتوي على أليل SNV. أقسام VL في المرجع. 2 يتم تمثيلها بخطوط زرقاء. ال x يشير المحور إلى موضع الجينوم لكل بداية CS. ال ذ يشير المحور إلى عدد القراءات التي تحتوي على تسلسل CS بدءًا من هذا الموضع.

يوسع COBASI هذا التحليل لـ CS لإيجاد الاختلافات بقوة في العينة عبر الجينوم بأكمله. عندما يكون SNV موجودًا في عينة في موضع معين X ، فمن المتوقع أن تحتوي حوالي نصف قراءات SNV غير المتجانسة ، أو تقريبًا جميع القراءات في SNV متماثلة اللواقح التي تتداخل مع X على SNV. وفقًا لذلك ، ستكون CS التي تتضمن X موجودة فقط في القراءات التي لا تحتوي على الأليل البديل. يمكن ترجمة ذلك إلى أنماط محددة تم تعيينها كمناطق توقيع التباين (VSRs) (الأشكال 1 ج و د و 2أ). بمجرد تحديد المناطق المرشحة ، ستكشف المحاذاة المحلية بين القراءات والجينوم في مناطق الاهتمام عن طبيعة المتغيرات المحددة.

تحويل مشهد التباين إلى مشهد تغطية نسبي. (اليسار) يظهر SNV متماثل. (حق) يظهر SNV متغاير الزيجوت. (أ) يظهر VL لمنطقة مكونة من 30 nt في المنبع و 30 nt downstream لكل VSR. تُظهر المخططات موضع البداية لكل CS في تلك المنطقة الجينومية (x المحور) والتغطية لكل CS (ذ محور). (ب) يتم تحويل VL إلى RVL باستخدام RCI. RCIن يشير إلى مؤشر التغطية النسبي للنيوكليوتيدات ن. جن و جn1 تشير إلى عدد القراءات التي تحتوي على CS بدءًا من النيوكليوتيد n و CS التالي المصب ، على التوالي. (ج) RVL لنفس المناطق موضحة في أ. تُظهر المخططات موضع البداية لكل CS (x المحور) وقيم RCI المرتبطة بكل CS (ذ محور). يتم تمثيل VL و RVL بخطوط زرقاء. يتم عرض PrevCS و PostCS كخطوط برتقالية وصفراء في قاع من كل قطعة ، ويتم تمييز مواقع البداية بخطوط عمودية سوداء متقطعة (الملحق SI، الشكل S1).

اكتشاف De Novo SNV باستخدام خط أنابيب COBASI.

استنادًا إلى الأساس المنطقي المقدم ، قمنا بتصميم وتنفيذ استراتيجية لاكتشاف de novo SNVs من ثلاثي الوالدين والأبناء. أولاً ، يتم حساب جميع مواقع CS من الجينوم المرجعي. نحدد الجينوم الذي يمكن الوصول إليه من COBASI كمناطق لا يقل طولها عن 100 نقطة أساس والتي يكون فيها 50 ٪ على الأقل من الكيلومترات التي تبدأ داخل المنطقة عبارة عن CS باستخدام k = 30 نقطة أساس. على الرغم من تصنيف أكثر من 50٪ من الجينوم البشري على أنها متواليات متكررة (24) ، يمكن استجواب الغالبية العظمى (حوالي 84٪) من الجينوم باستخدام COBASI (الملحق SI، الجدول S1).

بعد ذلك ، يتم تحديد جميع SNVs من الفرد الطفل من خلال تحليل مشهد التباين (VL). VL هو تمثيل لعدد القراءات التي تحتوي على كل تسلسل CS (تغطية) على طول الجينوم بأكمله (الشكل 2).أ). لتضخيم الفرق في التغطية بين جهازي CS متجاورين ، تم تحويل VL إلى مشهد تباين نسبي (RVL) باستخدام مؤشر تغطية نسبي (RCI) ، تم قياسه على مقياس من -1 إلى +1 (الشكل 2)ب). في ظل هذه الصيغة ، يقترب مؤشر RCI من الصفر عندما يكون هناك اختلاف طفيف أو معدوم في التغطية ، وتقترب قيمته المطلقة من 1 عندما تحدث اختلافات مفاجئة ، غالبًا بسبب التباين الجيني الأساسي (الشكل 2)ج). نظرًا لأن RVL متغير في المناطق منخفضة التغطية ، فقد تم إنشاء عتبة تغطية لتجنب الضوضاء في عملية تحديد VSR (المواد والأساليب).

من RVL ، يمكن تحديد VSRs التي تغطي أي طفرات مرشحة. نحدد CS الأخير قبل بدء VSR كـ PrevCS ، ونعرف CS الأول بعد نهاية VSR كـ PostCS ، وكلاهما نسميه CSs التوقيع. بعد ذلك ، يتم تحديد القراءات التي تحتوي على تطابقات كاملة مع توقيعات CS ويتم حساب المحاذاة العالمية بين المنطقة المقابلة في القراءات والجينوم. أخيرًا ، يتم تمييز النيوكليوتيدات المتغيرة في القراءات في المحاذاة المحلية لتحديد SNV المحدد (الشكل 3). نظرًا لأن CSs مضمونة لتكون فريدة من نوعها في الجينوم ، ولا يتم النظر إلا في التطابقات المثالية ، فلا يلزم وجود مرشحات جودة أخرى.

خط أنابيب COBASI التجريبي لاكتشاف SNV في فرد واحد. (أ, اليسار) يتم الحصول على كل 30 كيلومترًا متداخلاً (مع نافذة منزلقة تبلغ 1 نانومتر) على طول كل قراءة من مشروع التسلسل (يتم عرض 3 كيلومترات فقط لكل قراءة). يتم تخزين التهم الخاصة بكل كيلومتر في قاعدة بيانات. يتم عرض القراءات والقراءة على شكل خطوط رمادية ورمادية فاتحة ، على التوالي. (أ, حق) يتم الحصول على CS على طول RG ، ويتم تخزين مواضع البداية والنهاية لجميع المناطق الفريدة غير المتداخلة. تظهر العدسات RG و RG على شكل خطوط أرجوانية وأرجوانية فاتحة. (ب) يتم دمج المنتجين الظاهريين ويتم إنشاء مشهد التباين (VL). (ج) يتم تقديم منطقة من VL تحتوي على SNV متغاير الزيجوت. تُظهر المؤامرة موضع بدء كل CS على طول الجينوم (x المحور) وكل تغطية CS (ذ محور). يتم تمثيل VL كخط أزرق. يتم تحويل VL إلى RVL. تم تصوير VL فقط. يُشار إلى موضع بدء كل من PrevCS و PostCS بخطوط رأسية برتقالية وصفراء ، على التوالي. يتم تمثيل PrevCS و PostCS بخطوط أفقية برتقالية وصفراء ، على التوالي. يتم عرض بعض interCSs كخطوط أفقية بنية اللون. يظهر موضع SNV كخط عمودي أحمر. تحتوي جميع CSs الواقعة بين Prev- و PostCS (interCS) على موضع SNV. (د) تُستخدم السابقة و PostCS (التوقيعات CS) كمثبتات لاسترداد جميع القراءات ذات الأهمية (المواد والأساليب). (ه) يتم بعد ذلك محاذاة كل من القراءات المسترجعة مع المنطقة المقابلة من RG. يتم عرض منطقة read-RG المحاذاة. يتم تمييز موضع SNV والنيوكليوتيدات المحددة في مستطيل أحمر.

لاكتشاف SNVs de novo ، يتم بعد ذلك استجواب المواقف المتغيرة في الطفل في الوالدين. لكل SNV في الطفل ، تم استخدام ملفات CS الخاصة به كمثبتات لاسترداد القراءات التي تهم الوالدين. يتم بعد ذلك محاذاة تلك القراءات من الوالدين مع RG باستخدام الإجراء أعلاه. يتم بعد ذلك إنشاء كتالوج يحتوي على جميع SNVs التابعة والأليلات الموجودة في كل من الوالدين لنفس المواضع. يتم تعيين ومقارنة الأنماط الجينية لكل فرد ، بحيث يمكن تحديد SNVs المرشحة (الشكل 4). لقد اعتبرنا متغيرات حسنة النية تلك التي لم يتم العثور عليها في أي من الوالدين في أكثر من محاذاة واحدة تحتوي على كلا من توقيعات CS ، والتي تعتبر محاذاة عالية الجودة.

خط أنابيب COBASI التجريبي لاكتشاف SNV في إطار قائم على الأسرة. (أ) لكل SNV في الطفل ، يتم استخدام ملفات CS الخاصة به كمثبتات لاسترداد القراءات المقابلة في الوالدين. ثم يتم محاذاة القراءات إلى RG. (ب) يتم إنشاء كتالوج يحتوي على جميع SNVs التابعة والأليلات الموجودة في كل من الوالدين في نفس المواضع. ثم تتم مقارنة الأنماط الجينية الثلاثة ، ويتم تحديد SNVs المحتملة من de novo.

أداء COBASI عن طريق تجارب المحاكاة.

قمنا أولاً بتقييم COBASI بالنسبة إلى خطوط الأنابيب الأكثر استخدامًا من خلال تجارب المحاكاة مع مراعاة العديد من أعماق التسلسل المختلفة وأحجام الكيلومتر والمعلمات الداخلية الأخرى (الملحق SI, مواد وطرق SI). تم إدخال الطفرات في كروموسوم بشري ثنائي الصبغة (كروموسوم 12) ، وتم إنتاج قراءات محاكاة ، وتم استدعاء SNVs باستخدام COBASI. قمنا بتحديد الأداء باستخدام المنطقة المستخدمة على نطاق واسع تحت إحصائية منحنى الاسترجاع الدقيق (AUPR).

تم اشتقاق أفضل المعلمات أداءً من تجارب المحاكاة. على جميع أعماق التسلسل التي تم اختبارها ، كان أفضل حجم كمير هو 30 ، وكانت أفضل نسبة بين تغطية كلا من CS التوقيع 2.0. هذا حافظ على عدد منخفض من FPs بينما لم يزيد بشكل كبير من السلبيات الخاطئة (FNs). كان للقيم 0.2 أو 0.3 لعتبة RCI درجات مماثلة جدًا من AUPR. في المقابل ، تعتمد أفضل قيمة للمعلمات الرئيسية الأخرى على عمق التسلسل. إذا كان عمق التسلسل 35 × ، فإن الحد الأدنى لتغطية التوقيعات CS هو 5 ، والتمديد الأمثل للمحاذاة التي تحتوي فقط على PrevCS هو 5 bp ، والحد الأدنى لعدد المحاذاة مع كلا CS كان 2. إذا كان عمق التسلسل 100 × ، كان الحد الأدنى للتغطية لـ CSs هو 10 ، وكان الامتداد الأمثل للمحاذاة التي تحتوي فقط على PrevCS 5 نقاط أساس أو 10 نقاط أساس ، وكان الحد الأدنى لعدد المحاذاة الإجمالية مع كلا CSs 3 أو 4. بمجرد أن كانت أفضل المعلمات أداءً هي التي تم تحديدها ، تراوحت مراجعة AUPR من 0.94 إلى 0.96. لمقارنة أداء COBASI بأداء خط أنابيب الاتصال المتغير الأكثر استخدامًا ، تم أيضًا استدعاء SNVs من تجربة المحاكاة بعمق تسلسل 100 × باستخدام مزيج من BWA و Picard Tools و GATK. كان AUPR 0.99 ، بينما كان AUPR الذي تم الحصول عليه لـ COBASI 0.96. ومع ذلك ، فقد انخفض الوقت المطلوب للحصول على قائمة SNV من بيانات التسلسل الخام بشكل لا يصدق ، من أكثر من 30 ساعة في حالة خط الأنابيب القياسي القائم على المحاذاة إلى أقل من 6 ساعات المطلوبة بواسطة COBASI.

إلى جانب ذلك ، في دراسة سابقة ، Hwang et al. قياس أداء أي مجموعة من ثلاثة مصممي خرائط مختلفين وثلاثة متصلين مختلفين لأي مجموعة من مجموعات البيانات الإحدى عشرة (10). في معظم الحالات ، كانت مراجعة AUPR الخاصة بـ COBASI مماثلة لتلك التي تم الإبلاغ عنها مسبقًا ، على الرغم من Hwang et al. استخدم بيانات exome فقط (حوالي 2٪ من الجينوم) وتم اختبار COBASI على الجينوم الكامل القابل للاستدعاء (حوالي 84٪ من الجينوم) (الملحق SI، الجدولين S2 و S3).

قمنا بعد ذلك بقياس أداء اكتشاف de novo SNV بواسطة COBASI باستخدام محاكاة ثلاثية بين الوالدين والأبناء. تم إنشاء ثلاثة من جينومات الوالدين - الأبناء بعد الميراث المندلي جنبًا إلى جنب مع عدد محدود من متغيرات de novo (بمتوسط ​​35 de novo SNVs لكل محاكاة) (المواد والأساليب) ، والتي تم من خلالها محاكاة بيانات التسلسل. تم اختيار عمق التسلسل ليشبه بيانات التسلسل التجريبية لدينا: 35 × للوالدين و 100 × للطفل. ثم تم استدعاء SNVs de novo باستخدام COBASI. تم تكرار التجربة خمس مرات ، بحيث يمكن حساب قيم الدقة المتوسطة القوية. كان متوسط ​​الدقة التي تم الحصول عليها 1.0 وكان متوسط ​​الاسترجاع 0.91 بمتوسط ​​32 من الإيجابيات الحقيقية (TPs) و 3 FNs و 0 FPs.

كما هو الحال مع أي خط أنابيب للكشف عن المتغيرات ، فإن تغطية التسلسل الكافية مطلوبة لاكتشاف الطفرات بدقة. لفحص هذا من أجل COBASI ، قمنا برسم منحنى الاسترجاع الدقيق الذي تم ترتيبه حسب التغطية المتاحة ، والمُعرَّف على أنه عدد المحاذاة التي تحتوي على المتغير. كان متوسط ​​AUPR عبر جميع قيم التغطية 0.86. ومع ذلك ، تم العثور على معظم الأخطاء في متغيرات التغطية المنخفضة ، ومع مستوى تغطية معقول (قراءات & gt10) ، كان متوسط ​​الدقة والتذكر لمحاكاة de novo 1.0 و 0.91 على التوالي. في تجربة فردية واحدة ، كانت الدقة والاسترجاع عند نفس عتبة التغطية 0.9999 و 0.9613 ، على التوالي. وبالتالي ، كان خط أنابيب اكتشاف de novo أكثر دقة من خط أنابيب الجينوم بأكمله على حساب درجة صغيرة من الحساسية. باستخدام نفس البيانات المحاكاة ، تم استدعاء de novo SNV باستخدام الممارسات القياسية لخط الأنابيب القائم على المحاذاة الأكثر استخدامًا ، مما أدى إلى مراجعة AUPR بقيمة 0.91. وبالتالي ، يمكن مقارنة أداء COBASI بأحدث خطوط الأنابيب التي تقلل الوقت المطلوب لإكمال عملية استدعاء المتغير.

تطبيق COBASI في إطار قائم على الأسرة.

طبقنا بعد ذلك خط أنابيب de novo discovery COBASI للعثور على SNV على مستوى الجينوم في ثلاثي الوالدين - الأبناء الذي قمنا بتسلسله باستخدام تسلسل Illumina (المواد والأساليب). استخدمنا هنا أفضل المعلمات أداءً التي تم تحديدها من تجارب المحاكاة. بالإضافة إلى ذلك ، اعتبرنا متغيرات حسنة النية تلك التي لم يتم الإبلاغ عنها مسبقًا في قواعد البيانات العامة ، مثل dbSNP ، نظرًا لأن احتمال إصابة شخصين مستقلين بحدث طفرة de novo في نفس النيوكليوتيد منخفض جدًا (الملحق SI, مواد وطرق SI). باستخدام هذه المعلمات ، وجدنا 2،912،889 SNV في الاكتشاف الفردي و 58 متغيرًا من novo (الشكل 5).

مثال تجريبي لاستراتيجية COBASI في الإطار القائم على الأسرة. (اليسار) يظهر Mendelian SNV. الموضع 1 في المخططات يتوافق مع موضع chrX 8928409. (حق) يتم عرض علامة de novo SNV. الموضع 1 في المؤامرات يتوافق مع موضع chr11 66915681. (أيتم عرض القسم المقابل من VL لكل فرد من الأبوين - الأبناء: الخطوط الحمراء والخضراء والأرجوانية تتوافق مع VL للأب والأم والطفل ، على التوالي. نظرًا لأن Mendelian SNV يقع في chrX ، فإن الأب لديه ما يقرب من نصف تغطية الأم. (ب) يتم عرض RVL لكلا الوالدين. (ج) يتم عرض RVL للطفل. (د) يتم عرض النيوكليوتيدات الموجودة في RG. (ه) يتم عرض كروماتوجرامس التي تم الحصول عليها عن طريق تسلسل سانجر لهذه المناطق. يتم عرض الأنماط الجينية التي تم الحصول عليها لكل فرد من خلال نهج COBASI بأحرف غامقة. تشير علامة النجمة الموجودة بجانب النمط الجيني الفردي إلى أن مخطط الكروماتوغرام في الاتجاه العكسي. يتم تظليل موضع SNV وفقًا لرمز اللون الفردي.

تم اختيار 58 de novo SNVs ومجموعة مختارة من SNVs المختارين عشوائيًا لكل كروموسوم (إجمالي 46 متغيرًا عشوائيًا) تم تحديدها في الطفل للتحقق التجريبي عبر تسلسل PCR و Sanger. في حالة متغيرات de novo ، لم يكن من الممكن الحصول على منتج PCR لخمس حالات ولا يمكن تسلسل حالة واحدة بشكل صحيح. بالنسبة لجميع طفرات de novo الـ 52 التي يمكن تسلسلها ، أكد تسلسل Sanger أن كل SNV المتوقع يمثل متغيرًا حقيقيًا من novo. الملحق SI، يعرض الجدول S4 الإحداثيات الجينية ، والنمط الجيني لكل فرد ، ونتائج التحقق التجريبي لكل من novo SNV. الملحق SI, Fig. S2 presents the experimental validation for each individual of the family trio for 10 de novo variants, chosen at random. All of the 46 Mendelian variants were successfully validated (SI Appendix, Fig. S3 and Table S5) (five examples).


الملخص

Next Generation sequencing (NGS) is a powerful tool to identify somatic mutations associated with tumor onset and drug response. While it is well suited for high quality fresh/frozen samples, NGS is not proven for FFPE tissue which is the most common type of clinical specimen. Since the nucleic acids can be readily extracted from FFPE samples for a variety of genomic analyses, a comparative mutational analysis of paired frozen and FFPE tissues is urgently needed. Our long term goal is to establish a lab protocol to detect mutations in FFPE tumors using a targeted capture and sequencing approach for genes of interest. This pilot study focuses on the comparison of FFPE and frozen samples to test the validity of using FFPE tissues in such application.

Gene Selection: 128 genes associated with known pathogenic mutations in lymphoma

Sample Selection: 9 diffuse large B-cell lymphoma (DLBCL) cases with FFPE, frozen and germline samples, as well as 10 frozen normal lymphatic tissues as references for CNV detections

Capture Probe Design: We targeted coding exons and UTR, as well as the evolutionarily conserved intronic regions. The capture probes were designed using the Agilent eArray tool. The titling density of the probes was set to 3 probes overlapping with every base in the target region to improve the capture efficiency in FFPE samples. The least stringent masking of the repeat regions was allowed to include regions with small repeats that are shorter than the length of the sequencing reads (100-bp). In addition, boosting parameters were picked to set various levels of probe replication in different regions in order to minimize the local coverage differences (e.g. between regions of different GC contents)

Sequencing and Bioinformatics: The target capture and sequencing were performed by the Mayo Clinic Medical Genome Facility. The reads were mapped to Human Reference Genome Build 37 using Novalign, and SNVs were called using GATK. The CNVs were identified using an in-house developed algorithm, patternCNV.

The designed probes covered 99.65937% of the target regions. We generated 2.2-6.7 Gbp of reads per sample, 57.4-71.5% of which were on target. This equalled an average coverage of 2100-6700 folds which is 10-30 times higher than the minimal coverage recommended by Agilent. Due to this high coverage, we observed duplicate reads that accounted for 7.7-73.5% of the total reads. When we analysed the data with and without the duplicated reads, the concordance of the called SNVs was between 84-93% out of 207-249 mutated positions per trio-sample. There were 7.8-8.9% and 1.1-2.2% unique SNVs per sample by excluding or including duplicate reads, respectively.

The dis-concordances were mostly missed calls, where a SNV was observed in only 1 or 2 of the trio samples. The missed calls from frozen samples ranged from 0-10.4% compared to 1.4-10.4% from the FFPE tissues, with 0.88-2.4% more SNVs missed in FFPE. Further analyses showed that all of the missing calls came from the lack of or low coverage of the corresponding positions. There were also differences of the called SNVs between the trio samples. However, this was extremely rare. Only 2 out of the 9 trio samples at a total of 3 positions had disagreements in called SNVs between FFPE and frozen tissues, all due to the allelic imbalance where the percentage of reads supporting the alternative alleles were below 20%. Therefore, this dis-concordance can be removed by back-filling of the read-level information for each position.

Unfortunately only 11.9-47.4% of the CNVs called in frozen tissues were identified in FFPE samples, due to the widely various coverage in FFPE samples. The consequent large noises of the log ratio values between the FFPEs and normal references significantly reduced the sensitivity for CNV calling.

This pilot study compared the performance of SNV and CNV detection in FFPE and paired frozen tissues using a target capture and sequencing approach. With a capture probe design strategized to benefit FFPE samples, we observed SNV detection rates in FFPE that were only slightly lower (0.88-2.4%) than those of frozen tissues due to poor coverage of some positions in FFPE samples. With a proper back-filling step, there was no dis-concordance of the called SNVs between FFPE and frozen samples. However, CNV detections in FFPE were more problematic due to the un-predictable regional coverage in FFPE samples.


RESULTS AND DISCUSSIONS

Reads mapping, redundancy filtering and SNV detection

In order to detect SNVs in the protein-coding and untranslated regions of the human genome using the next generation sequencing techniques, we designed a strategy as outlined in Figure 1 . cDNAs synthesized from mRNAs were fragmented to 100–200 bp by sonication and sequenced using Illumina Genome Analyzer II. The short reads of 30 bp were mapped to the reference consisting of hg18 human genome plus a collection of synthetic exon junctions using ELAND software, allowing up to two mismatches with the reference (see ‘Materials and methods’ section).

The mismatches with the reference sequence can occur due to sequencing errors or point mutations present in the sample. In order to distinguish between these two possibilities and hence filter noise from signal, we applied the following two-step procedure to the set of uniquely mapped reads (see ‘Materials and methods’ section). Multiple identical copies of a read can be present as an artifact of PCR amplification procedure and this can provide false evidence for variant site discovery. Therefore, in the first step, we retained only a single copy of each read ( Figure 2 A). This filter can also reduce confounding effects of systematically bad sequencing cycles within a read. In the second step, if multiple reads map to the same genomic position, we randomly selected only one read from each of the categories U0, U1 and U2 ( Figure 2 A). Thus, there can be at most three reads that map to the same genomic position ( Figure 3 A). The application of the above two filters (named together as ‘Redundant Reads Filter’ in Figure 1 ) should reduce false-positive rate of SNV discovery. Since there can be only a small number of unique and nonredundant genomic reads at the exon edges, we generated a library containing exon junctions to detect potential SNVs in these genomic regions, which increased the power of SNV detection at the exon edges. We found that about 6% of all significant SNVs are detected due to exon-junction reads. The nonredundant reads were analyzed by our point mutation analyzer. A very small probability of observing multiple overlapping but noncoincident short sequence reads agreeing at a given mismatched genomic location by random chance is taken as the evidence in favor of the presence of a genuine SNV at that location ( Figure 2 B and ‘Materials and methods'section).

The number of reads that align uniquely to the genome and exon junctions is shown in Table 1 . We obtained about 27 million uniquely mapped 30-bp sequence reads for each sample. The resulting mean coverage of exonic regions is ∼11×. Since gene expression varies dramatically, we examined the distribution of coverage for all exonic sequences ( Figure 4 A). Our data indicate that with 26 million uniquely mapped non-redundant short sequence reads, about 40% of exonic regions were covered ≥5 times.

We performed sequencing cost analysis for SNV detection (see ‘Materials and methods’ section). We show that at the stringency we use to call SNV ( ص -value = 10 –9 ), fold coverage of ج = 5 and ج = 14 are needed to detect homozygous and heterozygous SNVs, respectively. At the sequencing depth we achieved (around 13 million 30-bp unique nonredundant reads), these fold coverages correspond to RPKM values 13 and 35, respectively. Thus, we estimate that about 40% of homozygous and 14% of heterozygous expressed SNVs were detected in this work. Our analysis demonstrates that about 80% of homozygous and 55% of heterozygous SNVs in expressed exons can be detected using 67 million 30-bp nonredundant unique reads ( Figure 4 B). However, our hypothesis is that mutation of a highly expressed gene may have more functional consequence than a gene expressed at low level or not expressed therefore, it may not be necessary to do much deeper sequencing than what we have achieved in this study.

SNV validation and annotation

At a very stringent significance threshold ( ص -value < 1.0 × 10 –9 ), we detected 12176 and 10621 SNV in Jurkat and CD4 + T cells, respectively. Many of detected sites overlap with known single nucleotide polymorphism sites (dbSNP build 126): 7473 for Jurkat and 7669 for CD4 + T cells ( Figure 5 A). Interestingly, more nonsynonymous SNVs in Jurkat cells as compared to CD4 + T cells ( Figure 5 B and Tables 1 , Supplementary Data for further details), which could be related with the disease or generated during في المختبر culture.

Summary of results. ( أ ) Venn diagram of single nucleotide variants (SNVs) detected in Jurkat and CD4 samples. ( ب ) Summary table of SNVs detected in Jurkat and CD4 samples. Shown in the brackets are numbers of SNVs that are novel, i.e. not present in dbSNP Build 126 database.

Summary of results. ( أ ) Venn diagram of single nucleotide variants (SNVs) detected in Jurkat and CD4 samples. ( ب ) Summary table of SNVs detected in Jurkat and CD4 samples. Shown in the brackets are numbers of SNVs that are novel, i.e. not present in dbSNP Build 126 database.

To validate the genetic mutations detected using RNA-Seq, we randomly selected five nonsynonymous SNVs that are also present in dbSNP and four SNVs that are novel in Jurkat cells ( Table 2 ). The genomic regions containing these SNVs were amplified using PCR and sequenced using Sanger sequencing method. Our results indicate that all the nine SNVs were confirmed ( Supplementary Data ). Interestingly, the SNV identification indicated existence of only the mutated allele in the TAL1 gene that is implicated in T-cell acute leukaemia ( 7 ). However, the Sanger sequencing revealed that both the wild-type and mutated alleles were present, suggesting that only one parental copy is mutated and it is the mutated allele but not the wild-type allele that is expressed in Jurkat cells.

Confirmation of selected Jurkat single nucleotide variants by Sanger sequencing of genomic DNA

Gene . Chromosome . Position a . Predicted allele b . Reference allele c . #A . #C . #G . #T . ص -value . Known SNP . Amino acid change . Confirmed .
LCP1 chr13 45606292 ج تي 0 58 0 0 1.0e-102 نعم K → E نعم
LOC554226 chr2 132729041 ج تي 2 53 1 1 1.9e-97 لا intronic نعم
ECH1 chr19 44013927 جي تي 0 0 55 1 1.1e-95 نعم E → A نعم
SEPT9 chr17 73006300 جي أ 0 1 50 0 2.1e-90 نعم M → V نعم
POLR3K chr16 43517 ج أ 0 48 2 0 1.2e-88 نعم S → A نعم
CYC1 chr8 145222820 جي أ 0 0 49 0 7.0e-87 نعم M → V نعم
FLNA chrX 153235779 أ جي 45 3 2 0 4.7e-82 لا R → W نعم
MYO1G chr7 44983146 تي ج 0 0 3 36 2.7e-69 لا V → M نعم
TAL1 chr1 47456811 تي ج 0 0 0 39 2.7e-69 لا UTR نعم
Gene . Chromosome . Position a . Predicted allele b . Reference allele c . #A . #C . #G . #T . ص -value . Known SNP . Amino acid change . Confirmed .
LCP1 chr13 45606292 ج تي 0 58 0 0 1.0e-102 نعم K → E نعم
LOC554226 chr2 132729041 ج تي 2 53 1 1 1.9e-97 لا intronic نعم
ECH1 chr19 44013927 جي تي 0 0 55 1 1.1e-95 نعم E → A نعم
SEPT9 chr17 73006300 جي أ 0 1 50 0 2.1e-90 نعم M → V نعم
POLR3K chr16 43517 ج أ 0 48 2 0 1.2e-88 نعم S → A نعم
CYC1 chr8 145222820 جي أ 0 0 49 0 7.0e-87 نعم M → V نعم
FLNA chrX 153235779 أ جي 45 3 2 0 4.7e-82 لا R → W نعم
MYO1G chr7 44983146 تي ج 0 0 3 36 2.7e-69 لا V → M نعم
TAL1 chr1 47456811 تي ج 0 0 0 39 2.7e-69 لا UTR نعم

a Shows 1-based chromosomal location of SNV.

b Shows the allele inferred from RNA-seq data using the Point Mutation Analyzer.

c Shows the allele from hg18 (NCBI Build 36) human genome sequence both alleles refer to the forward strand of the genome sequence.

#‘X’ denotes the number of uniquely mapped nonredundant RNA-seq reads that have nucleotide X at the location of SNV.

‘Known SNP’ status is based on dbSNP build 126 database.

Confirmation of selected Jurkat single nucleotide variants by Sanger sequencing of genomic DNA

Gene . Chromosome . Position a . Predicted allele b . Reference allele c . #A . #C . #G . #T . ص -value . Known SNP . Amino acid change . Confirmed .
LCP1 chr13 45606292 ج تي 0 58 0 0 1.0e-102 نعم K → E نعم
LOC554226 chr2 132729041 ج تي 2 53 1 1 1.9e-97 لا intronic نعم
ECH1 chr19 44013927 جي تي 0 0 55 1 1.1e-95 نعم E → A نعم
SEPT9 chr17 73006300 جي أ 0 1 50 0 2.1e-90 نعم M → V نعم
POLR3K chr16 43517 ج أ 0 48 2 0 1.2e-88 نعم S → A نعم
CYC1 chr8 145222820 جي أ 0 0 49 0 7.0e-87 نعم M → V نعم
FLNA chrX 153235779 أ جي 45 3 2 0 4.7e-82 لا R → W نعم
MYO1G chr7 44983146 تي ج 0 0 3 36 2.7e-69 لا V → M نعم
TAL1 chr1 47456811 تي ج 0 0 0 39 2.7e-69 لا UTR نعم
Gene . Chromosome . Position a . Predicted allele b . Reference allele c . #A . #C . #G . #T . ص -value . Known SNP . Amino acid change . Confirmed .
LCP1 chr13 45606292 ج تي 0 58 0 0 1.0e-102 نعم K → E نعم
LOC554226 chr2 132729041 ج تي 2 53 1 1 1.9e-97 لا intronic نعم
ECH1 chr19 44013927 جي تي 0 0 55 1 1.1e-95 نعم E → A نعم
SEPT9 chr17 73006300 جي أ 0 1 50 0 2.1e-90 نعم M → V نعم
POLR3K chr16 43517 ج أ 0 48 2 0 1.2e-88 نعم S → A نعم
CYC1 chr8 145222820 جي أ 0 0 49 0 7.0e-87 نعم M → V نعم
FLNA chrX 153235779 أ جي 45 3 2 0 4.7e-82 لا R → W نعم
MYO1G chr7 44983146 تي ج 0 0 3 36 2.7e-69 لا V → M نعم
TAL1 chr1 47456811 تي ج 0 0 0 39 2.7e-69 لا UTR نعم

a Shows 1-based chromosomal location of SNV.

b Shows the allele inferred from RNA-seq data using the Point Mutation Analyzer.

c Shows the allele from hg18 (NCBI Build 36) human genome sequence both alleles refer to the forward strand of the genome sequence.

#‘X’ denotes the number of uniquely mapped nonredundant RNA-seq reads that have nucleotide X at the location of SNV.

‘Known SNP’ status is based on dbSNP build 126 database.

Among all the 12 176 SNVs identified in Jurkat cells, 4703 are novel and 7473 are known ( Figure 5 B). Among these, we detected 3206 nonsynonymous and 47 nonsense mutations. Further analysis of the 47 nonsense SNVs indicates that 41 are novel. Interestingly, all the 20 Jurkat-specific nonsense SNVs are single-allele changes ( Table 3 ). We were able to PCR amplify genomic regions containing 18 of these 20 SNVs and obtained their sequences using Sanger sequencing method. Our results indicate that 16 SNVs were confirmed ( Supplementary Data ). Interestingly, we found that one of the two SNVs not confirmed by sequencing of genomic DNA was in fact present in mRNA as revealed by Sanger sequencing of cDNA ( Supplementary Data ). The SNV is located in the last exon of TAF6 gene. These results suggest that the SNV may be introduced by RNA-editing.


A NGS solution to detect copy number variants, single nucleotide variants and loss of heterozygosity in Intellectual Disability and Developmental Delay samples

James Reid, Sandra Kachhia, Paul Dougall, John Shovelton, Duarte Molha, Christina Taylor, Jagath Kasturiarachchi, Jolyon Holdstock, Venu Pullabhatla, Laura Parkes, Ewa Marek, Natalie Milner, Emma Shipstone, Douglas Hurd

مقدمة

The detection of Copy Number Variants (CNVs) in intellectual disability and developmental delay (ID/DD) samples is crucial in elucidating the genetic cause of abnormality. We have developed a targeted NGS panel and analytical software (Interpret) to accurately detect CNVs, as well as SNVs, indels and LOH.

The assay uses a bait capture approach, which is able to capture the exons and untranslated regions (UTRs) from over 700 genes, chosen for their relevance in ID/DD, as well as a range of backbone regions across the genome. Combined with OGTs proprietary CNV detection algorithm in the software, both intragenic and large ‘backbone’ CNVs can be detected robustly.

We implemented a web-based solution that runs OGTs NGS analysis pipeline, comprising many state-of-the-art open-source NGS software tools. These tools were carefully chosen and deployed using containers to ensure cross-platform compatibility and reproducibility. Pipeline optimisation and performance was assessed using equivalent array data and reference materials.

We will outline the results from over 200 intellectual disability and developmental delay research samples to demonstrate the efficiency of the CNV, SNV and LOH detection. The study demonstrated that the assay automatically called 100% of SNVs and 97% of reported pathogenic CNVs (including small intragenic CNVs), the uncalled CNVs were visible on Interpret but the protocol of the study precluded them from being called. We have described an improved method to investigate ID/DD samples, providing critical information on not just CNVs, but SNVs and Indels as well.

Register with us to read the full article

Once you have registered with us for free you will be able to read all our supportive literature, video tutorials and webinars.


Single Nucleotide Variant Detection Using Next Generation Sequencing

Single nucleotide variants (SNVs) occur when a single nucleotide (e.g., A, T, C, or G) is altered in the DNA sequence. SNVs are by far the most common type of sequence change, and there are a number of endogenous and exogenous sources of damage that lead to the single base pair substitution mutations that create SNVs. The biologic impact of SNVs in coding regions depends on their type (synonymous versus missense), and in noncoding regions depends on their impact on RNA processing or gene regulation. Nonetheless, selection pressure reduces the overall frequency of single base pair substitutions in coding DNA and in associated regulatory sequences, with the result that the overall SNV rate in coding DNA is much less than that of noncoding DNA. The utility of a clinical next generation sequencing (NGS) assay designed to detect SNVs depends on assay design features including an amplification-based versus hybrid capture-based targeted approach, DNA library complexity, depth of sequencing, tumor cellularity (in sequencing of cancer specimens), specimen fixation, and sequencing platform. From a bioinformatic perspective, many popular NGS analysis programs for SNV detection are designed for constitutional genome analysis where variants occur in either 50% (heterozygous) or 100% (homozygous) of the reads these prior probabilities are often built-in to the algorithms, and consequently SNVs with variant allele frequencies (VAFs) falling too far outside the expected range for homozygous and heterozygous variants are often ignored as false positives. Thus, sensitive and specific bioinformatic approaches for acquired SNVs require either significant revision of the software packages designed for constitutional testing or new algorithms altogether. Some bioinformatic tools are optimized for very sensitive detection of SNVs in NGS data, but these tools require high coverage depth for acceptable performance and rely on spike-in control samples in order to calibrate run-dependent error models, features that must be accounted for in assay design. There are a number of online tools that can be used to predict the impact of an SNV and evaluate whether an SNV has a documented disease association. Guidelines for reporting SNVs detected in constitutional NGS testing have been developed consensus guidelines for reporting somatic or acquired SNVs are under development.


A resource of variant effect predictions of single nucleotide variants in model organisms

The effect of single nucleotide variants (SNVs) in coding and noncoding regions is of great interest in genetics. Although many computational methods aim to elucidate the effects of SNVs on cellular mechanisms, it is not straightforward to comprehensively cover different molecular effects. To address this, we compiled and benchmarked sequence and structure-based variant effect predictors and we computed the impact of nearly all possible amino acid and nucleotide variants in the reference genomes of الانسان العاقل, خميرة الخميرة و الإشريكية القولونية. Studied mechanisms include protein stability, interaction interfaces, post-translational modifications and transcription factor binding sites. We apply this resource to the study of natural and disease coding variants. We also show how variant effects can be aggregated to generate protein complex burden scores that uncover protein complex to phenotype associations based on a set of newly generated growth profiles of 93 sequenced S. cerevisiae strains in 43 conditions. This resource is available through mutfunc (www.mutfunc.com), a tool by which users can query precomputed predictions by providing amino acid or nucleotide-level variants.

Synopsis

This study presents mutfunc, a resource that includes the pre-computed impact of genetic variants in three model organisms (human, yeast and بكتريا قولونية). These predictions can be used to prioritize genetic variants and compute gene burden scores.


النتائج

A novel computational pipeline (the eSNV-Detect) was developed to identify known and novel expressed SNVs from RNA-Seq experiment. To call variants the software requires post alignment files from any two aligners. The two aligner concept has been shown to be effective in reducing the false positives ( 27). Below are few examples of how we have shown the utility of the software in a lymphoblastoid cell line, Sanger validation of an ER+ tumor sequenced at Mayo, TCGA ER+ breast tumors and single-cell RNA-Seq data from a breast cancer cell line (Supplementary Methods). The mapping strategies used in the below examples are BWA + TopHat2 for most of the analyses (lymphoblastoid cell line, Mayo ER+ tumor samples and single-cell data from breast cancer cell line). We applied TopHat + MapSplice combination only for 25 TCGA ER+ breast tumors. We chose this combination, because all the TCGA RNA-Seq data from TCGA data repository has MapSplice alignments readily available.

High precision of the eSNV-detect method when applied to a lymphoblastoid cell line

We applied the eSNV-Detect method for the RNA-Seq data of a lymphoblastoid cell line (NA07347) from the 1000 genome project. Alignment of the RNA-Seq data was performed by TopHat2 and BWA against the human genome (release NCBI GRCh37.1b) respectively and the bam files were processed through the eSNV-Detect pipeline. In this analysis, we chose the splice aligner TopHat2 as the preferred aligner. The variant calls from the workflow were validated with the HumanOmni2.5 SNP chip that consisted of genotyping information for 2 448 222 genomic locations over the whole genome.

Our method identified 39 255 high confident (validated by both aligners, CONF = 2) eSNVs in the NA07347 RNA-Seq data, of which genotyping data was available for 15 796 nucleotide positions on the HumanOmni2.5 chip. The remaining eSNVs could not be validated due to absence of genotype information. Hence, our validation was based on these 15 796 loci. The HumanOmni2.5 chip data confirmed 15 753 out of the 15 796 RNA-Seq eSNV candidates to be true positives and the eSNV-Detect achieved a high precision rate of 99.7% (Figure 2a). The genomic composition of the 15 753 validated eSNVs is shown in Figure 2b. The variant calls were mainly present in exonic and untranslated region (UTR) regions, but part of the high precision calls were also distributed in intronic and intergenic regions.

Validation of the eSNVs in NA07347 mRNA-Seq data against the Omni 2.5 Chip data. (أ) 15 753 out of 15 796 eSNVs were validated by the Omni data. There were 1554 Omni SNPs that were expressed but not called by the eSNV-Detect (ب) The validated 16 441 validated eSNVs distributed across the whole genome, mainly in exonic (36.9%), UTR (38.4%), intronic region (14.3%).

Validation of the eSNVs in NA07347 mRNA-Seq data against the Omni 2.5 Chip data. (أ) 15 753 out of 15 796 eSNVs were validated by the Omni data. There were 1554 Omni SNPs that were expressed but not called by the eSNV-Detect (ب) The validated 16 441 validated eSNVs distributed across the whole genome, mainly in exonic (36.9%), UTR (38.4%), intronic region (14.3%).

Of the 2 448 222 SNP loci on the Omni chip of NA07347, only 17 307 SNPs were expressed in the transcriptome (i.e. >3 alternative allele supporting reads in the RNA-Seq data. A detailed transcriptomic expression distribution of all SNPs on the Omni chip can be found in Supplementary Table S2). Among the expressed variants, the eSNV-Detect called 15 753 out of 17 307 as high confident eSNVs and achieved a high sensitivity/recall rate of 91.0%. The 1553 variants not found in the high confident eSNV list were either called by only one aligner (683 found with TopHat evidence only and 19 found in BWA evidence only), or eliminated by the stringent filter criteria (i.e. 851 by low alternative allele frequency or extreme ReadPosRankSum score or strand bias ratio).

We thus also investigated the medium/low confident variants called by single aligner. In the NA07347 RNA-Seq data, there were 4363 medium confidence variants (CONF = 1) with evidence from TopHat2 alone. Among them 706 have genotype information on the Omni and 683 of 703 (97.1%) were verified to be true positive. There were 5106 low confidence variants (CONF = 0) with evidence from BWA only. Among them 358 had genotype information on the Omni Chip and 343 of 358 (95.8%) were validated. As the preferred aligner, eSNVs with only TopHat2 evidence showed a slightly higher precision than those with BWA evidence, while variants set with support from both aligners had the highest precision. Our analysis concludes that the two-aligner strategy improved the precision of the eSNV calling.

The impact of the selected mapping strategies

Using the same set of data for the lymphoblastoid cell line (NA07347) that consists of both RNA-Sequencing and SNP chip data, we investigated the impact of different mapping strategies. Engstrom and his colleagues ( 25) have shown that MapSplice, STAR-2pass and TopHat2 are top performance aligners for RNA-Seq. Hence we have chosen these three aligners along with BWA for the following analysis. After alignment with the four aligners, the bam files were processed through the eSNV-detect pre-processing and variant calling steps, respectively. We compared all pair-wise combinations of two-aligners with the Omni SNP chip data. Since the read-depth at a nucleotide position may differ during alignment process, we have chosen SNVs for comparison that have read depth ≥4 in at least two aligners and have Omni-SNP chip data (17389 SNVs).

Among the pair-wise comparisons (Supplementary Table S3), the combination of MapSplice + TopHat2 detected the truest positive variants, thus have the highest recall rate. It should be noted that MapSplice and TopHat2 both use Bowtie (both used bowtie 1 in the comparison) for segment mapping, which could be part of the reason of the high recall rate. It is noted that different combinations of aligners affect the precision very little. We have also tried combinations of three and four aligners to call variants using the eSNV-Detect. Intuitively, the evidence from more aligners may improve the performance precision. However, it turned out that the improvement of precision was only marginal with the price of a substantial loss in recall rate (Supplementary Table S4). Moreover, increasing the number of aligners will require extra computational resources. Hence, we recommend using two-aligner mapping strategy with the eSNV-Detect.

Sanger sequencing validation of variants identified by the eSNV-Detect in breast tumor and adjacent normal

We have used an earlier version of the eSNV-Detect method to call variants from RNA-Seq data in lung adenocarcinomas ( 26) and breast cancer samples ( 27). In a recent study, we have validated the variants predicted by the eSNV-Detect method with high accuracy in ERBB2 overexpressed (HER2+) breast tumors and adjacent normal tissues using Sanger sequencing. In a survey of 32 breast tumors from RNA-Seq data, a HER2+ breast tumor with the highest number of novel eSNVs (83 candidate variants) predicted by the eSNV-Detect was selected for Sanger sequencing validation. Tumor and tumor-adjacent normal tissues were sequenced along with a control sample for validation. We have confirmed 79/83 eSNVs in the HER2+ study using Sanger sequencing ( 27).

Similarly, in the present study, we also selected an ER+ breast tumor sample that was processed through the eSNV-Detect method for validation, and 29 out of 31 eSNVs were validated. An example of Sanger sequence chromatogram plots of eSNVs from ER+ tumor is shown in Figure 3. As indicated in Figure 3A the variant in PDCL3 gene called with low minor allele frequency and read depth was also validated by Sanger sequencing.

Sanger sequencing validated the eSNVs called. Not only eSNVs with higher allele frequency were validated, an eSNV in PDCL3 gene called with low minor allele frequency was also validated by Sanger sequencing.


شاهد الفيديو: From DNA to protein - 3D (شهر نوفمبر 2021).