معلومة

8.4: استخدام Bayesian MCMC لتقدير معاملات نموذج Mk - علم الأحياء


يمكننا أيضًا تحليل هذا النموذج باستخدام إطار عمل Bayesian MCMC. يمكننا تعديل النهج القياسي لـ Bayesian MCMC (انظر الفصل 2):

  1. عينة من قيمة معلمة البداية ، ف، من التوزيعات السابقة. في هذا المثال ، يمكننا تعيين توزيعنا السابق على أنه منتظم بين 0 و 1. (لاحظ أنه يمكن أيضًا التعامل مع احتمالات الحالات في الجذر كمعامل يتم تقديره من البيانات ؛ في هذه الحالة سنقوم بتعيين احتمالات متساوية لكل منها حالة).
  2. بالنظر إلى قيمة المعلمة الحالية ، حدد قيم المعلمات المقترحة الجديدة باستخدام كثافة الاقتراح س(ف′|ف). على سبيل المثال ، قد نستخدم كثافة اقتراح موحدة بعرض 0.2 ، لذلك س(ف′|ف) يو(ف − 0.1, ف + 0.1).
  3. احسب ثلاث نسب:
    • أ. نسبة الأرجحية السابقة ، صصصأنااص. في هذه الحالة ، بما أن السابقة موحدة ، صصصأنااص = 1.
    • ب. نسبة كثافة الاقتراح ، صصصاصاسأل. في هذه الحالة ، تكون كثافة اقتراحنا متناظرة صصصاصاسأل = 1.
    • ج. نسبة الاحتمالية ، صلأناكهلأناحااد. يمكننا حساب الاحتمالات باستخدام خوارزمية Felsenstein للتقليم (المربع 8.1) ؛ ثم احسب هذه القيمة بناءً على المعادلة 2.26.
  4. تجد صأججهصر كمنتج للاحتمالات السابقة ، ونسبة كثافة الاقتراح ، ونسبة الاحتمالية. في هذه الحالة ، كلا الاحتمالات السابقة ونسب الكثافة المقترحة هي 1 ، لذلك صأججهصر = صلأناكهلأناحااد
  5. ارسم رقمًا عشوائيًا ش من توزيع موحد بين 0 و 1. إذا ش < صأججهصر، قبول القيمة المقترحة لكلا المعلمتين ؛ وإلا رفض ، واحتفظ بالقيمة الحالية للمعلمتين.
  6. كرر الخطوات من 2-5 عددًا كبيرًا من المرات.

يمكننا إجراء هذا التحليل على بياناتنا العشوائية ، والحصول على لاحقة بمتوسط ​​تقدير ف = 0.001980785 وفاصل زمني موثوق به 95٪ من 0.001174813 - 0.003012715.


مقدمة بسيطة لأخذ العينات ماركوف تشين مونت كارلو

ماركوف تشين مونت كارلو (MCMC) هي طريقة شائعة بشكل متزايد للحصول على معلومات حول التوزيعات ، خاصة لتقدير التوزيعات اللاحقة في الاستدلال البايزي. توفر هذه المقالة مقدمة أساسية جدًا لأخذ عينات MCMC. يصف ماهية MCMC ، وما الذي يمكن استخدامه من أجله ، مع أمثلة توضيحية بسيطة. تم تسليط الضوء على بعض فوائد وقيود أخذ عينات MCMC ، بالإضافة إلى الأساليب المختلفة لتجاوز القيود التي من المرجح أن تزعج العلماء الإدراكيين.

على مدار القرن الحادي والعشرين ، تم استخدام سلسلة ماركوف لأخذ عينات مونت كارلو ، أو MCMCنمت بشكل كبير. ولكن ، ما هو بالضبط MCMC؟ ولماذا تزداد شعبيتها بهذه السرعة؟ هناك العديد من المقالات التعليمية الأخرى التي تتناول هذه الأسئلة ، وتقدم مقدمات ممتازة إلى MCMC. الهدف من هذه المقالة ليس تكرارها ، ولكن لتوفير مقدمة أساسية أكثر يجب أن تكون متاحة حتى للباحثين المبتدئين. تتم إحالة القراء المهتمين بمزيد من التفاصيل ، أو تغطية أكثر تقدمًا للموضوع ، إلى الكتب الحديثة حول هذا الموضوع ، مع التركيز على العلوم المعرفية ، من تأليف Lee (2013) و Kruschke (2014) ، أو عرض أكثر تقنيًا بواسطة Gilks ​​et آل. (1996).

MCMC هي طريقة أخذ عينات تعتمد على الكمبيوتر (Gamerman and Lopes 2006 Gilks ​​et al. 1996). يسمح للشخص بتوصيف التوزيع دون معرفة جميع الخصائص الرياضية للتوزيع عن طريق أخذ عينات عشوائية من التوزيع. تتمثل إحدى نقاط القوة الخاصة لـ MCMC في أنه يمكن استخدامها لسحب عينات من التوزيعات حتى عندما يكون كل ما هو معروف عن التوزيع هو كيفية حساب كثافة العينات المختلفة. يجمع اسم MCMC بين خاصيتين: مونتي كارلو و سلسلة ماركوف. الحاشية 1 مونت كارلو هي ممارسة لتقدير خصائص التوزيع عن طريق فحص عينات عشوائية من التوزيع. على سبيل المثال ، بدلاً من العثور على متوسط ​​التوزيع الطبيعي عن طريق حسابه مباشرةً من معادلات التوزيع ، سيكون نهج مونت كارلو هو سحب عدد كبير من العينات العشوائية من التوزيع الطبيعي ، وحساب متوسط ​​العينة. إن فائدة نهج مونت كارلو واضحة: حساب متوسط ​​عينة كبيرة من الأرقام يمكن أن يكون أسهل بكثير من حساب المتوسط ​​مباشرة من معادلات التوزيع الطبيعي. تكون هذه الميزة أكثر وضوحًا عندما يكون من السهل رسم عينات عشوائية وعندما يصعب العمل مع معادلات التوزيع بطرق أخرى. خاصية سلسلة ماركوف الخاصة بـ MCMC هي فكرة أن العينات العشوائية يتم إنشاؤها بواسطة عملية تسلسلية خاصة. يتم استخدام كل عينة عشوائية كنقطة انطلاق لتوليد العينة العشوائية التالية (ومن ثم سلسلة). من الخصائص المميزة للسلسلة أنه بينما تعتمد كل عينة جديدة على العينة التي تسبقها ، فإن العينات الجديدة تفعل ذلك ليس تعتمد على أي عينات قبل العينة السابقة (هذه هي خاصية "ماركوف").

يعد MCMC مفيدًا بشكل خاص في الاستدلال البايزي نظرًا للتركيز على التوزيعات اللاحقة التي غالبًا ما يصعب التعامل معها من خلال الفحص التحليلي. في هذه الحالات ، يسمح MCMC للمستخدم بتقريب جوانب التوزيعات اللاحقة التي لا يمكن حسابها بشكل مباشر (على سبيل المثال ، عينات عشوائية من الوسيلة اللاحقة ، واللاحقة ، وما إلى ذلك). يستخدم الاستدلال البايزي المعلومات المقدمة من خلال البيانات المرصودة حول (مجموعة) المعلمة (المعلمات) ، رسميًا احتمالية، لتحديث أ قبل حالة المعتقدات حول (مجموعة) من المعلمات (s) لتصبح a اللاحق حالة المعتقدات حول (مجموعة) المعلمة (المعلمات). رسميًا ، يتم تعريف قاعدة بايز على أنها

أين ميكرومتر يشير إلى (مجموعة) من المعلمات ذات الأهمية و د يشير إلى البيانات ، ص(ميكرومتر|د) يشير إلى اللاحقة أو احتمال ميكرومتر بالنظر إلى البيانات ، ص(د|ميكرومتر) يشير إلى احتمال أو احتمال البيانات المقدمة ميكرومتر، و ص(ميكرومتر) يشير إلى الاحتمال المسبق أو الاحتمال المسبق لـ ميكرومتر. الرمز ∝ يعني "يتناسب مع".

يمكن العثور على مزيد من المعلومات حول هذه العملية في Lee (2013) أو Kruschke (2014) أو في أي مكان آخر في هذا العدد الخاص. النقطة المهمة لهذا العرض هي أن الطريقة التي تُستخدم بها البيانات لتحديث الاعتقاد السابق هي من خلال فحص احتمالية البيانات المعطاة (مجموعة) قيمة (قيم) معينة للمعلمة (المعلمات) ذات الأهمية. من الناحية المثالية ، قد يرغب المرء في تقييم هذا الاحتمال لكل مجموعة مفردة من قيم المعلمات. عندما يتوفر تعبير تحليلي لهذا الاحتمال ، يمكن دمجه مع السابق لاشتقاق لاحق تحليليًا. في كثير من الأحيان في الممارسة العملية ، لا يستطيع المرء الوصول إلى مثل هذا التعبير التحليلي. في الاستدلال البايزي ، غالبًا ما يتم حل هذه المشكلة عبر MCMC: رسم سلسلة من العينات من الخلف ، وفحص متوسطها ونطاقها وما إلى ذلك.

استفاد الاستدلال البايزي بشكل كبير من قوة MCMC. حتى في مجال علم النفس فقط ، تم تطبيق MCMC في مجموعة واسعة من نماذج البحث ، بما في ذلك مقارنة نموذج Bayesian (Scheibehenne et al. 2013) ، والاحتفاظ بالذاكرة (Shiffrin et al. 2008) ، ونظرية كشف الإشارة (Lee 2008) ، الإدراك خارج الحواس (Wagenmakers وآخرون 2012) ، أشجار المعالجة متعددة الحدود (Matzke وآخرون 2015) ، المخاطرة (van Ravenzwaaij et al. 2011) ، اتخاذ القرار الإرشادي (van Ravenzwaaij et al. 2014) واتخاذ القرارات الرئيسية (Cassey) وآخرون 2014).

بينما قد يبدو MCMC معقدًا عند وصفه بشكل تجريدي ، إلا أن تنفيذه العملي يمكن أن يكون بسيطًا للغاية. يقدم القسم التالي مثالًا بسيطًا لتوضيح الطبيعة المباشرة لـ MCMC.


مقدمة

أصبحت النمذجة الرياضية أداة مهمة في العديد من مجالات العلوم وخارجها كوسيلة لتلخيص حالة المعرفة الحالية لدينا ، وتحدي فهمنا والتنبؤ. في مجال بيولوجيا الأنظمة ، تلعب النماذج الرياضية [1] ، [2] دورًا رئيسيًا في إيجاد الأنماط في بيانات "omics" ، وطرح الفرضيات وتقييمها للمساعدة في شرح الظواهر البيولوجية المعقدة وكذلك توجيه التجارب الجديدة. غالبًا ما يكون نهج الأنظمة عملية تكرارية للغاية حيث يتم إنشاء النماذج وتزييفها وتحديثها والتحقق من صحتها وصقلها كدالة لزيادة البيانات. يتم استخدام العديد من مناهج النمذجة في الممارسة العملية ، بدءًا من تحليلات بنية الشبكة الطوبولوجية إلى المعادلات التفاضلية الجزئية العشوائية في الأشكال الهندسية المعقدة. تتماشى الأساليب بشكل مناسب مع السؤال المطروح والقرار الذي يرغب المرء في تحقيقه والبيانات المتاحة. في جميع الحالات ما عدا أبسطها ، يتمثل التحدي الذي يواجه الواضع في اختيار معلمة مفيدة للمشكلة ، وغالبًا ما يتم ذلك في مناقشة مع التجريبيين ، لابتكار طرق للحصول على تقديرات معقولة لمعايير النظام. اعتمادًا على الطريقة ، قد تكون هذه المعلمات متأصلة في نهج التعلم الآلي ، ما يسمى بمعلمات الصندوق الأسود ، وقليلاً من الأهمية بالنسبة لعلم الأحياء أو بالنسبة للنماذج الميكانيكية ، فقد تتوافق فعليًا مع الكيانات البيولوجية مثل التركيزات أو ثوابت الانفصال أو التدهور المعدلات التي يمكن استخدامها لأغراض التحقق من الصحة وتصميم مزيد من التجارب. تشمل الأساليب الحديثة لأداء تقدير المعلمات محاكاة التلدين [3] ، وتقنيات الشريحة [4] ، والانحدار [5] ، وسرب الجسيمات [6] ، وإطلاق النار المتعدد [7] ، والنهج البايزي [8] - [10]. طريقة فعالة لتقدير المعلمات هي تقنية مرشح كالمان ، وقد ثبت أن التغييرات الحديثة لهذه الطريقة تؤدي أداءً جيدًا لأمثلة من النماذج البيولوجية [11] ، [12]. تتوفر لمحات عامة عن بعض هذه الأساليب [13] - [16].

نحن نركز هنا على النمذجة الميكانيكية الديناميكية التي تهم المعلمات نفسها وليس مجرد وسيلة لتحقيق غاية. استخدمت العديد من دراسات النمذجة الميكانيكية في علم الأحياء المعادلات التفاضلية العادية (ODEs) كإطار رياضي للاختيار. تشمل أسباب ذلك الطريقة الطبيعية التي يمكن أن تطرح بها العديد من المشكلات البيولوجية كدراسة سلوك نظام ديناميكي لتفاعل المكونات بمرور الوقت والروتين العددي الراسخ لحل مثل هذه الأنظمة. على سبيل المثال ، يمكن تحقيق تحويل شبكة التنظيم الجيني إلى شكليات رياضية باستخدام حركية الإنزيم الراسخة والاتفاقيات القياسية التالية [17]. يؤدي هذا النهج إلى ظهور نموذج ميكانيكي مع (من حيث المبدأ) معلمات حركية قابلة للقياس. ومع ذلك ، لسوء الحظ ، غالبًا ما تكون هذه المعلمات غير معروفة تجريبيًا أو يتم تحديدها بموجبها في المختبر الشروط للأنظمة المماثلة ، وبالتالي يجب تقديرها من البيانات المتاحة. هذه عقبة رئيسية حظيت باهتمام كبير من علماء بيولوجيا الأنظمة [14] ، [15] ، [18]. من الأساليب الشائعة استخدام خوارزميات التحسين [13] للعثور على أفضل ملاءمة للبيانات [3] ، [14] ، [18] - [20]. يمكن تحفيز هذا النهج من خلال استدعاء حجج الاحتمالية القصوى. التحسين المحلي راسخ للغاية وتتوفر العديد من الحزم عالية الأداء ، والتي غالبًا ما تعتمد على متغيرات طريقة نيوتن مثل محسنات منطقة الثقة أو مناهج التدرج المقترن [21] ، ومع ذلك يمكن أن تؤدي النظم البيولوجية غير الخطية إلى لياقة متعددة الوسائط المناظر الطبيعية [22] التي تتطلب تقنيات تحسين عالمية لتجنب الوقوع في المحاصرين في الحدود الدنيا المحلية. ومع ذلك ، لا يزال التحسين العالمي [13] يمثل تحديًا ، وعلى الرغم من عدد من الأساليب القوية ، مثل الخوارزميات الجينية والتليين المحاكي ومرشحات الجسيمات ، إلا أنه نادرًا ما يمكن ضمان إيجاد أفضل عالمي في الممارسة العملية. علاوة على ذلك ، فقد لوحظ أن الحد الأدنى العالمي قد لا يؤدي إلى معايير واقعية من الناحية البيولوجية [23].

هناك مشكلة معروفة تتعلق بأقصى احتمالية ، وبشكل عام ، مناهج التحسين هي أنه بدون مزيد من الاحتياطات ، يمكن أن تؤدي إلى زيادة ملاءمة النموذج للبيانات ، أي أن المعلمات محددة بشكل أكثر حدة مما هو مبرر من محتوى المعلومات في البيانات [ 24]. هذه مشاكل موثقة جيدًا مع حلول راسخة مثل منهجية بايزي ونظرية المعلومات القائمة على المصطلحات التصحيحية لأقصى احتمالية مثل معيار المعلومات Akaike (AIC) [25] ، [26]. قدم كيرك مراجعة موجزة لطيفة لهذه الأساليب المطبقة على علماء بيولوجيا الأنظمة وآخرون. [27]. هناك مشكلة أخرى وهي أن مجموعة المعلمات الأفضل ملاءمة لنموذج ما قد لا تكون ممثلة لمساحة المعلمة [28]. قد تفقد خوارزمية التحسين حلولًا مهمة أو مساهمات من أجزاء أخرى من مساحة المعلمة. علاوة على ذلك ، فقد ثبت أنه في بيولوجيا الأنظمة لا يمكن تحديد جميع المعلمات بشكل فريد [29]. هناك قضايا الترابط والارتباطات بين المعلمات [29] ، [30]. وقد ثبت أيضًا أن المعلمات تتصرف بشكل مختلف بين الأنظمة الحتمية والعشوائية المقابلة [31].

تعد ندرة الكميات الكبيرة من البيانات عالية الجودة مشكلة شائعة يواجهها علماء الأحياء الحسابية الذين يسعون إلى نمذجة نظام تجريبي. يعتبر إطار عمل بايز [32] ، [33] طريقة جذابة للتعامل مع هذه المشكلة بطريقة تقلل من خطر الإفراط في التلاؤم. يشمل الاستدلال البايزي بشكل طبيعي شفرة أوكام [34] ، [35] وبالتالي فهو يفسر بطبيعته المفاضلة بين ملاءمة النموذج وبساطته [36]. لا يهدف نهج بايزي إلى إنتاج تقدير نقطي لكميات الفائدة ولكنه يلتقط عدم اليقين الكامل للمشكلة الذي ينعكس في توزيع الاحتمال اللاحق. يمكن أن تكون تقديرات نقطة التوزيعات غير أحادية الوسائط مضللة على وجه الخصوص. تكتسب تقنيات بايز اهتمامًا في العديد من مجالات البحث وتجد تطبيقًا متزايدًا في علم الأحياء الحسابي [37] ، [38] نظرًا لتوافر أحدث التطورات [8] ، [9] ، [22] ، [39] ] - [45]. أظهرت التطورات الأخيرة أن المشاكل الفيزيائية الحيوية متعددة الأبعاد يمكن معالجتها بنجاح في إطار بايزي على سبيل المثال تم استخدام سلسلة ماركوف مونت كارلو (MCMC) لتقريب التوزيع المسبق بشكل مناسب لدراسة معدل إفراز الأنسولين [46] ، التكامل الديناميكي الحراري للكيمياء الحيوية تم استخدام التذبذبات [22] وأخذ عينات مونت كارلو القائمة على الكوبولا لمقارنة نماذج معالجة الزركونيوم البشري [47]. ومع ذلك ، فإن المتطلبات الحسابية لمثل هذه الأساليب غالبًا ما تجعلها مانعة للعديد من المشكلات. السبب الرئيسي لهذا الجهد الحسابي هو حساب التكاملات عالية الأبعاد التي تنشأ من خلال عملية التهميش والتطبيع في الاستدلال البايزي [28] ، [32]. تقنيات مونت كارلو هي الطريقة الراسخة لحساب مثل هذه التكاملات ، ومع ذلك ، يمكن أن تتطلب عدة آلاف من الدورات لتقديم نتائج مناسبة وهناك مشكلات معروفة في أوقات ارتباط نموذج MCMC [40]. تم طرح أخذ العينات المتداخلة [48] كمتغير بايزي لهذا النهج وأظهر أنه يؤدي بشكل جيد لأمثلة اختبار بسيطة [49]. تم استخدام هذا النهج مؤخرًا بنجاح لتحليل البيانات الفلكية [50] ، [51] ، لاستكشاف فضاء الطور التكويني للأنظمة الكيميائية [42] ، لاستدلال المعلمات لنموذج الساعة اليومية [52] ولواحدة من أكثرها تحديًا مشاكل في الفيزياء الحيوية ، وبالتحديد استكشاف المناظر الطبيعية للطي البروتين [43].

في هذه المساهمة ، نستكشف استخدام عينات Skilling المتداخلة [48] ، [49] للنماذج البيولوجية ، وهي منطقة تلقت القليل من التعرض لهذه الطريقة حتى الآن [42] ، [43] ، [52]. أظهر أخذ العينات المتداخلة نتائج مشجعة ومكاسب كفاءة مقارنة بتقنيات أخذ العينات الأخرى [50] ، [51] ، [53]. نوضح كيف ينتج الإجراء عينات من التوزيع الاحتمالي الخلفي للمعلمات لحساب ثابت التطبيع للخلف ، والذي يسمى دليل [28]. يتم استخدام هذا الدليل في عامل Bayes ، وبالتالي على عكس طرق MCMC القياسية ، نحصل على الكمية الرئيسية لمقارنة النموذج في وقت واحد مع العينات الخلفية لتقدير المعلمة. نوضح هذا النهج بنماذج بيولوجية مختلفة لبيانات متفرقة وصاخبة.


كيف يتناسب السابق والخلفي معًا؟

تختلف النمذجة البايزية عن الأنواع الأخرى من الاستدلال المستند إلى النموذج بسبب دمج السابق. تم إعطاء نظرية Bayes & # x02019 في الشكل 2. في نظرية بايز & # x02019 ، يتم ضرب احتمال البيانات المرصودة (الاحتمالية) في ضوء بعض الفرضيات في الاحتمال السابق لتلك الفرضية. هذا المنتج مقسوم على الاحتمال الهامشي للبيانات المرصودة ، مما يعني احتمال البيانات مع دمج قيم المعلمات. النتيجة النهائية هي احتمال الفرضية في ضوء البيانات المرصودة. يسمى هذا الاحتمال الاحتمال اللاحق ، وهو يتناسب مع ناتج السابق والاحتمال.

هذه كمية صعبة لحساب & # x02014 ما هو الاحتمال الهامشي للبيانات؟ نقوم بتقييم مجموعات القيم لمعلماتنا باستخدام ماركوف تشين مونتي كارلو، أو محاكاة MCMC (Metropolis et al. 1953 ، Hastings 1970 ، Mau et al. 1999). يسمح MCMC باقتراح قيم عشوائية جديدة لكل معلمة ، بحيث يمكن تقييم الحلول. في خوارزمية MCMC ، تم اقتراح مجموعة أولية من القيم لمعلمات النموذج. ثم يتم تغيير هذه القيم ، والحصول على قيم جديدة. هذا هو & # x02018Monte Carlo & # x02019 جانب من الاسم: نختار قيمًا جديدة عشوائيًا ، على الرغم من ذلك غالبًا في بعض الظروف المقيدة. غالبًا ما يشار إلى فعل تغيير قيم المعلمات بـ & # x02018move & # x02019. ثم يتم تقييم هذه المعلمات الجديدة. يتم حساب ناتج الاحتمالية والسابقة ، لتقريب الاحتمال اللاحق. بشكل عام ، إذا تحسن الاحتمال اللاحق على القيم القديمة أو كان هو نفسه ، فسيتم الاحتفاظ بقيم المعلمات التي تم تقييمها واستخدامها كأساس لمجموعة الحركات التالية. تظهر خوارزمية MCMC في الشكل 4.

مخطط انسيابي لخوارزمية MCMC. في خوارزمية MCMC ، يتم اقتراح الشروط الأولية وتقييمها من أجل الاحتمالية. بعد ذلك ، يتم تغيير الشجرة و / أو معلمات النموذج الأخرى. ثم يتم تقييم احتمالية هذه القيم الجديدة. إذا كانت تمثل تحسنًا عن تلك القديمة ، فسيتم استخدامها لبذر خطوة MCMC التالية. إذا لم يتم رفضهم.

قد تكون الحركة كبيرة الحجم ، وتغير معلمة معينة بشكل جذري ، أو قد تكون صغيرة الحجم ، مما يؤدي فقط إلى إجراء تغييرات طفيفة على المعلمة. تختلف الحركات أيضًا في عدد مرات إجرائها.قد تكون معلمات النموذج الأكثر أهمية & # x02018moved & # x02019 في كثير من الأحيان من أجل تقدير الحلول الجيدة لها. لا تؤخذ الحالات السابقة التي تم اختبارها بواسطة خوارزمية MCMC في الاعتبار عند إجراء التحركات. هذا هو السبب في أن هذه العملية هي & # x02018Markov Chain & # x02019 ، أو عملية بلا ذاكرة. لا تتم إزالة الحلول التي تمت زيارتها سابقًا من مجموعة الحلول الممكنة ، وبالتالي ، سيتم إعادة النظر في حل جيد حقًا عدة مرات أثناء أخذ عينات MCMC. الهدف من أخذ عينات MCMC هو زيارة الحلول بما يتناسب مع الاحتمالية اللاحقة. يمكن تضمين مناطق مساحة المعلمة أو استبعادها من أخذ عينات MCMC من خلال استخدام المقدمات. سيتقارب النموذج المحدد جيدًا في النهاية مع التوزيع الحقيقي لكل متغير عشوائي. من خلال أخذ عينات من العديد من المجموعات الممكنة من المعلمات على مدار تقدير النشوء والتطور ، فإننا نقدر اللاحقة دون الحاجة إلى حساب الاحتمال الهامشي صراحة. هذا يسمح لنا بإكمال المعادلة الموضحة في الشكل 2 لحساب الاحتمال اللاحق.

في حين أن MCMC لا تنظر في خطواتها السابقة في اتخاذ خطوات جديدة ، فإن معظم حزم برامج علم الوراثة تكتب المجموعات السابقة من المعلمات. غالبًا ما يُطلق على ما يتم إنتاجه اسم العينة اللاحقة ، وسجل الأشجار ، وأطوال الفروع ، ومعلمات النموذج التي تم فحصها أثناء تحليل النشوء والتطور. يمكن بعد ذلك بناء أشجار الملخص من هذه العينة ، ودرجة الثقة في أي قسمين معينين على الشجرة التي تم تقييمها. يمكن أيضًا تقييم عدد المرات التي تمت فيها زيارة الحلول المختلفة لأي معلمة معينة. إن النظر في عينة خلفية لأشجار النشوء والتطور يختلف إلى حد ما عن الطرق الأخرى لتقدير الأشجار وله آثار على الكيفية التي يجب أن ينظر بها الباحثون في تحليلات التطور الكلي الأوسع.


N EW A NALYSES في R ESPONSE إلى D EBRUYNE و P OINAR

هنا ، نبني على دراسة محاكاة تم تقديمها في أحد تقييماتنا السابقة لتقدير معدل Bayesian باستخدام بيانات aDNA (Ho et al. 2007b). طعن Debruyne و Poinar في نتائج هذه الدراسة ، منتقدين جانبين من تحليلاتنا. أولاً ، يجادلون بأن المعدلات المقدرة من بيانات المحاكاة أكثر دقة من تلك التي تم الحصول عليها من بيانات الحمض النووي الريبي الحقيقي. على الرغم من صحة هذه الملاحظة ، إلا أن هذه النتائج هي نتيجة متوقعة للتحليل القائم على المحاكاة: يتم اختيار النماذج التطورية لاستبدال النوكليوتيدات والتاريخ الديموغرافي المستخدم في تحليل البيانات المحاكاة لتتناسب مع الظروف التي تم إنشاء البيانات بموجبها. تم اعتماد هذا كممارسة قياسية لتسهيل عزل تأثيرات عامل (عوامل) الاهتمام.

الانتقاد الثاني لدراسة المحاكاة لـ Ho et al. (2007 ب) هو أن معدل الاستبدال المستخدم في عمليات المحاكاة مرتفع للغاية ، حيث ذكر ديبروين وبوينار أن المعدل هو "25 ضعفًا لتقدير معدل الاستبدال لجينوم mt للفقاريات" (ص 350). ومع ذلك ، فإن معدل المحاكاة هذا مستوحى من التقديرات المنشورة من الحلقة D للميتوكوندريا (لامبرت وآخرون. 2002 ، شابيرو وآخرون. تم تحليل جينومات الميتوكوندريا خلال إطار زمني للتطور. في الواقع ، تشتمل الغالبية العظمى من مجموعات بيانات aDNA المنشورة على متواليات من الحلقة D ، والتي تُظهر معدلات طفرة واستبدال أعلى بكثير من بقية جينوم الميتوكوندريا في الفقاريات. ويدعو هذا أيضًا إلى التشكيك في تصميم التحليل الرئيسي المقدم في نقدهم ، حيث تم أخذ عينات فرعية من جينومات الميتوكوندريا الكاملة للماموث الصوفي لتمثيل مجموعات بيانات الحمض النووي الريبي الحقيقية.

ومع ذلك ، يمكن اعتبار المعدل المرتفع المستخدم في المحاكاة مشكلة مشروعة إذا لم تكن المعدلات قصيرة الأجل مرتفعة بالفعل. أدى هذا إلى طرح Debruyne و Poinar السؤال التالي: "ما هي دقة ودقة معدل التغيير اللاحق إذا كان معدل الاستبدال أبطأ ، في نطاق معدلات استبدال الميتوكوندريا بين الأنواع (بين 1 و 2 × 10 - 8 بدائل / موقع / سنة) لمحاكاة نفس بيانات التسلسل؟ " (ص 350). ردًا على هذا السؤال ، ولمعالجة بعض مخاوفهم الأخرى ، نقدم نتائج دراسة محاكاة مفصلة أدناه.

دراسة المحاكاة

أجرينا تحليلات لبيانات aDNA المحاكاة لاستقصاء أداء تقدير معدل بايزي. يتم تحديد مقدار انحياز تقدير المعدل كمياً في ظل مجموعات مختلفة من معدل المحاكاة وطول التسلسل ، بما في ذلك الشروط التي قد تتطابق مع تلك التي تصادف عادةً في أبحاث الحمض النووي الريبي الحقيقي. نحن نحقق في تأثير تغيير حجم السكان مسبقًا ، ونقارن أداء المقاييس الخلفية المختلفة للمعدل.

المواد والأساليب.-

تمت محاكاة تطور التسلسل باستخدام Seq-Gen (Rambaut and Grassly 1997) على الأشجار العشوائية التي تم إنشاؤها وفقًا لنموذج مترابط بحجم ثابت يبلغ 105. تتألف كل مجموعة بيانات تمت محاكاتها من 31 تسلسل مختوم زمنيًا وغير متحد ، بأعمار 0 ، 1000 ، 2000 ، ... ، 30000 سنة. تم إنشاء جميع التسلسلات وفقًا لنموذج Jukes-Cantor لاستبدال النوكليوتيدات (Jukes and Cantor 1969) ، مع تجانس المعدل بين المواقع وبين الفروع. تم إجراء عمليات المحاكاة بثلاثة معدلات استبدال مختلفة (1 × 10 - 8 بدائل / موقع / سنة ، 5 × 10 - 8 بدائل / موقع / سنة ، و 1 × 10 - 7 بدائل / موقع / سنة) وطولين متسلسلين (100 و 1000 نقطة أساس) ، التي تمثل نطاق خصائص مجموعات بيانات aDNA النموذجية وتشمل الظروف المتوقعة لتوليد محاذاة تسلسلية مع محتوى معلومات منخفض. تم إنشاء ألف مجموعة بيانات مكررة لكل مجموعة من طول التسلسل والمعدل. بصرف النظر عن معدل الإحلال وطول التسلسل ، فإن عمليات المحاكاة مماثلة لتلك الموصوفة في "نظام أخذ العينات الموحد" في دراستنا السابقة (Ho et al. 2007b).

تم تقدير معدلات الاستبدال من مجموعات البيانات المحاكاة باستخدام برنامج Bayesian phylogenetic BEAST 1.4.8 (Drummond and Rambaut 2007). لمطابقة ظروف المحاكاة ، تم افتراض نموذج الاستبدال Jukes-Cantor وتم اختيار التحام ذو الحجم الثابت مسبقًا للشجرة. تم اختيار موحدة سابقة من [0 ، ∞) لمعدل الاستبدال. تم الحصول على التوزيعات الخلفية للمعلمات عن طريق أخذ عينات من سلسلة ماركوف مونت كارلو (MCMC) ، مع سحب العينات كل 500 خطوة على إجمالي 2 × 107 خطوات ، مع التخلص من أول 10 ٪ من العينات على أنها احتراق. لمقارنة القياسات اللاحقة المختلفة لمعدل الاستبدال ، تم حساب المتوسط ​​والوسيط وطريقة توزيع المعدل اللاحق لكل تحليل. تم فحص أحجام العينات الفعالة للمعلمات للتحقق من الخلط المقبول MCMC وأخذ العينات الكافية من الخلف.

بالنسبة لأي مجموعة بيانات معينة ، ترتبط تقديرات المعدل وحجم السكان ارتباطًا وثيقًا. يمكن أن يكون حجم المجتمع السابق مؤثرًا في تقدير المعدلات ، خاصةً عندما تكون مجموعة البيانات غير مفيدة نسبيًا. لقد بحثنا في هذه المشكلة من خلال إجراء ثلاث مجموعات من التحليلات ، تختلف فقط في حجم المجتمع السابق: 1) حجم السكان ثابتًا على قيمته الحقيقية (المحاكاة) البالغة 105 2) حجم السكان المعطى مسبقًا [0 ، ∞) و 3) حجم العشيرة مُعطى رقمًا موحدًا سابقًا لـ [10 0 ، 10 9] ، يمثل نطاقًا من القيم التي يمكن اعتبارها معقولة بيولوجيًا للفقاريات. لاحظ أنه في جميع هذه التحليلات ، يُعطى "حجم السكان" في الواقع كـ نهτ، نتاج الحجم الفعال للسكان (نه) ووقت التوليد بالسنوات (τ).

نتائج.-

تباين أداء تقدير المعدل بشكل كبير بين مجموعات المحاكاة الثلاث ، مما يوفر مؤشرًا قويًا على تأثير حجم السكان السابق (الجدول 1). عندما يكون حجم السكان ثابتًا على قيمته الحقيقية (المحاكاة) البالغة 10 5 ، تكون تقديرات المعدلات دقيقة ودقيقة. تضمنت أعلى فاصل زمني للكثافة الخلفية (HPD) 95٪ لمعدل الاستبدال قيمة المحاكاة على الأقل 95٪ من الوقت. كما لاحظ Debruyne و Poinar ، فإن متوسط ​​تقديرات المعدل اللاحق تكشف عن وجود مبالغة كبيرة في تقدير المعدل عندما يكون هناك محتوى معلومات منخفض أو تباين ضئيل في التسلسل في مجموعة البيانات (معدل إحلال منخفض و / أو طول تسلسل قصير). ومع ذلك ، يختفي هذا التحيز في مجموعات البيانات الأكثر إفادة. نظرًا لأن توزيعات المعدل اللاحق هي leptokurtic ، فإن المتوسطات أقل تحيزًا من المتوسطات. الوضع الخلفي ، والذي يمثل الحد الأقصى لاحقة تقدير المعدل ، يبدو أنه يوفر مقياسًا غير متحيز عبر جميع مجموعات معدل الاستبدال وطول التسلسل.

ملخص النتائج من دراسة المحاكاة ، متوسط ​​عبر 1000 مكرر. بالنسبة لعمليات المحاكاة ذات حجم المجتمع السابق لـ Uniform [0 ،) ، تم تلخيص النتائج فقط من التكرارات التي أظهرت تقاربًا مقبولًا لـ MCMC. يتم إعطاء مزيد من التفاصيل في النص

قبل حجم السكان المعدل الحقيقي (البدائل / الموقع / السنة) الطول (بي بي) تقدير المعدل اللاحق (البدائل / الموقع / السنة) متوسط ​​حجم 95٪ فاصل زمني من HPD (بدائل / موقع / سنة) تغطية 95٪ HPD أ
يقصد الوسيط الوضع
ثابت على 10 5 1.00 × 10 −8 100 2.32 × 10 −8 1.87 × 10 −8 1.05 × 10 −8 5.63 × 10 −8 0.98
ثابت على 10 5 1.00 × 10 −8 1000 1.20 × 10 −8 1.14 × 10 −8 1.01 × 10 −8 1.67 × 10 −8 0.96
ثابت على 10 5 5.00 × 10 −8 100 6.74 × 10 −8 6.17 × 10 −8 5.10 × 10 −8 1.15 × 10 −7 0.96
ثابت على 10 5 5.00 × 10 −8 1000 5.31 × 10 −8 5.20 × 10 −8 4.97 × 10 −8 4.51 × 10 −8 0.96
ثابت على 10 5 1.00 × 10 −7 100 1.20 × 10 −7 1.13 × 10 −7 1.00 × 10 −7 1.67 × 10 −7 0.97
ثابت على 10 5 1.00 × 10 −7 1000 1.04 × 10 −7 1.03 × 10 −7 9.99 × 10 −8 7.18 × 10 −8 0.95
زي موحد [0، ∞) 1.00 × 10 −8 100 1.68 × 10 −7 1.21 × 10 −7 3.57 × 10 −8 4.80 × 10 −7 1.00
زي موحد [0، ∞) 1.00 × 10 −8 1000 2.82 × 10 −8 2.56 × 10 −8 2.08 × 10 −8 5.49 × 10 −8 0.97
زي موحد [0، ∞) 5.00 × 10 −8 100 1.92 × 10 −7 1.65 × 10 −7 1.07 × 10 −7 4.32 × 10 −7 0.96
زي موحد [0، ∞) 5.00 × 10 −8 1000 5.89 × 10 −8 5.71 × 10 −8 5.35 × 10 −8 8.10 × 10 −8 0.98
زي موحد [0، ∞) 1.00 × 10 −7 100 2.66 × 10 −7 2.40 × 10 −7 1.86 × 10 −7 5.28 × 10 −7 0.97
زي موحد [0، ∞) 1.00 × 10 −7 1000 1.03 × 10 −7 1.01 × 10 −7 9.78 × 10 −8 1.10 × 10 −7 0.97
الزي الرسمي [10 0 ، 10 9] 1.00 × 10 −8 100 3.53 × 10 −8 7.34 × 10 −9 8.31 × 10 −9 1.68 × 10 −7 1.00
الزي الرسمي [10 0 ، 10 9] 1.00 × 10 −8 1000 9.07 × 10 −9 6.71 × 10 −9 2.48 × 10 −9 2.52 × 10 −8 0.81
الزي الرسمي [10 0 ، 10 9] 5.00 × 10 −8 100 5.20 × 10 −8 2.75 × 10 −8 8.48 × 10 −9 1.84 × 10 −7 0.83
الزي الرسمي [10 0 ، 10 9] 5.00 × 10 −8 1000 4.66 × 10 −8 4.48 × 10 −8 3.53 × 10 −8 7.26 × 10 −8 0.87
الزي الرسمي [10 0 ، 10 9] 1.00 × 10 −7 100 8.44 × 10 −8 5.80 × 10 −8 2.18 × 10 −8 2.49 × 10 −7 0.78
الزي الرسمي [10 0 ، 10 9] 1.00 × 10 −7 1000 9.79 × 10 −8 9.63 × 10 −8 9.11 × 10 −8 1.09 × 10 −7 0.91
قبل حجم السكان المعدل الحقيقي (البدائل / الموقع / السنة) الطول (بي بي) تقدير المعدل اللاحق (البدائل / الموقع / السنة) متوسط ​​حجم 95٪ فاصل زمني من HPD (بدائل / موقع / سنة) تغطية 95٪ HPD أ
يقصد الوسيط الوضع
ثابت على 10 5 1.00 × 10 −8 100 2.32 × 10 −8 1.87 × 10 −8 1.05 × 10 −8 5.63 × 10 −8 0.98
ثابت على 10 5 1.00 × 10 −8 1000 1.20 × 10 −8 1.14 × 10 −8 1.01 × 10 −8 1.67 × 10 −8 0.96
ثابت على 10 5 5.00 × 10 −8 100 6.74 × 10 −8 6.17 × 10 −8 5.10 × 10 −8 1.15 × 10 −7 0.96
ثابت على 10 5 5.00 × 10 −8 1000 5.31 × 10 −8 5.20 × 10 −8 4.97 × 10 −8 4.51 × 10 −8 0.96
ثابت على 10 5 1.00 × 10 −7 100 1.20 × 10 −7 1.13 × 10 −7 1.00 × 10 −7 1.67 × 10 −7 0.97
ثابت على 10 5 1.00 × 10 −7 1000 1.04 × 10 −7 1.03 × 10 −7 9.99 × 10 −8 7.18 × 10 −8 0.95
زي موحد [0، ∞) 1.00 × 10 −8 100 1.68 × 10 −7 1.21 × 10 −7 3.57 × 10 −8 4.80 × 10 −7 1.00
زي موحد [0، ∞) 1.00 × 10 −8 1000 2.82 × 10 −8 2.56 × 10 −8 2.08 × 10 −8 5.49 × 10 −8 0.97
زي موحد [0، ∞) 5.00 × 10 −8 100 1.92 × 10 −7 1.65 × 10 −7 1.07 × 10 −7 4.32 × 10 −7 0.96
زي موحد [0، ∞) 5.00 × 10 −8 1000 5.89 × 10 −8 5.71 × 10 −8 5.35 × 10 −8 8.10 × 10 −8 0.98
زي موحد [0، ∞) 1.00 × 10 −7 100 2.66 × 10 −7 2.40 × 10 −7 1.86 × 10 −7 5.28 × 10 −7 0.97
زي موحد [0، ∞) 1.00 × 10 −7 1000 1.03 × 10 −7 1.01 × 10 −7 9.78 × 10 −8 1.10 × 10 −7 0.97
الزي الرسمي [10 0 ، 10 9] 1.00 × 10 −8 100 3.53 × 10 −8 7.34 × 10 −9 8.31 × 10 −9 1.68 × 10 −7 1.00
الزي الرسمي [10 0 ، 10 9] 1.00 × 10 −8 1000 9.07 × 10 −9 6.71 × 10 −9 2.48 × 10 −9 2.52 × 10 −8 0.81
الزي الرسمي [10 0 ، 10 9] 5.00 × 10 −8 100 5.20 × 10 −8 2.75 × 10 −8 8.48 × 10 −9 1.84 × 10 −7 0.83
الزي الرسمي [10 0 ، 10 9] 5.00 × 10 −8 1000 4.66 × 10 −8 4.48 × 10 −8 3.53 × 10 −8 7.26 × 10 −8 0.87
الزي الرسمي [10 0 ، 10 9] 1.00 × 10 −7 100 8.44 × 10 −8 5.80 × 10 −8 2.18 × 10 −8 2.49 × 10 −7 0.78
الزي الرسمي [10 0 ، 10 9] 1.00 × 10 −7 1000 9.79 × 10 −8 9.63 × 10 −8 9.11 × 10 −8 1.09 × 10 −7 0.91

نسبة عمليات المحاكاة التي احتوت فيها فاصل HPD 95٪ من المعدل على القيمة الحقيقية (المحاكاة).

ملخص نتائج دراسة المحاكاة ، بمتوسط ​​1000 مكرر. بالنسبة لعمليات المحاكاة ذات حجم المجتمع السابق لـ Uniform [0 ،) ، تم تلخيص النتائج فقط من التكرارات التي أظهرت تقاربًا مقبولًا لـ MCMC. يتم إعطاء مزيد من التفاصيل في النص

قبل حجم السكان المعدل الحقيقي (البدائل / الموقع / السنة) الطول (بي بي) تقدير المعدل اللاحق (البدائل / الموقع / السنة) متوسط ​​حجم 95٪ فاصل زمني من HPD (بدائل / موقع / سنة) تغطية 95٪ HPD أ
يقصد الوسيط الوضع
ثابت على 10 5 1.00 × 10 −8 100 2.32 × 10 −8 1.87 × 10 −8 1.05 × 10 −8 5.63 × 10 −8 0.98
ثابت على 10 5 1.00 × 10 −8 1000 1.20 × 10 −8 1.14 × 10 −8 1.01 × 10 −8 1.67 × 10 −8 0.96
ثابت على 10 5 5.00 × 10 −8 100 6.74 × 10 −8 6.17 × 10 −8 5.10 × 10 −8 1.15 × 10 −7 0.96
ثابت على 10 5 5.00 × 10 −8 1000 5.31 × 10 −8 5.20 × 10 −8 4.97 × 10 −8 4.51 × 10 −8 0.96
ثابت على 10 5 1.00 × 10 −7 100 1.20 × 10 −7 1.13 × 10 −7 1.00 × 10 −7 1.67 × 10 −7 0.97
ثابت على 10 5 1.00 × 10 −7 1000 1.04 × 10 −7 1.03 × 10 −7 9.99 × 10 −8 7.18 × 10 −8 0.95
زي موحد [0، ∞) 1.00 × 10 −8 100 1.68 × 10 −7 1.21 × 10 −7 3.57 × 10 −8 4.80 × 10 −7 1.00
زي موحد [0، ∞) 1.00 × 10 −8 1000 2.82 × 10 −8 2.56 × 10 −8 2.08 × 10 −8 5.49 × 10 −8 0.97
زي موحد [0، ∞) 5.00 × 10 −8 100 1.92 × 10 −7 1.65 × 10 −7 1.07 × 10 −7 4.32 × 10 −7 0.96
زي موحد [0، ∞) 5.00 × 10 −8 1000 5.89 × 10 −8 5.71 × 10 −8 5.35 × 10 −8 8.10 × 10 −8 0.98
زي موحد [0، ∞) 1.00 × 10 −7 100 2.66 × 10 −7 2.40 × 10 −7 1.86 × 10 −7 5.28 × 10 −7 0.97
زي موحد [0، ∞) 1.00 × 10 −7 1000 1.03 × 10 −7 1.01 × 10 −7 9.78 × 10 −8 1.10 × 10 −7 0.97
الزي الرسمي [10 0 ، 10 9] 1.00 × 10 −8 100 3.53 × 10 −8 7.34 × 10 −9 8.31 × 10 −9 1.68 × 10 −7 1.00
الزي الرسمي [10 0 ، 10 9] 1.00 × 10 −8 1000 9.07 × 10 −9 6.71 × 10 −9 2.48 × 10 −9 2.52 × 10 −8 0.81
الزي الرسمي [10 0 ، 10 9] 5.00 × 10 −8 100 5.20 × 10 −8 2.75 × 10 −8 8.48 × 10 −9 1.84 × 10 −7 0.83
الزي الرسمي [10 0 ، 10 9] 5.00 × 10 −8 1000 4.66 × 10 −8 4.48 × 10 −8 3.53 × 10 −8 7.26 × 10 −8 0.87
الزي الرسمي [10 0 ، 10 9] 1.00 × 10 −7 100 8.44 × 10 −8 5.80 × 10 −8 2.18 × 10 −8 2.49 × 10 −7 0.78
الزي الرسمي [10 0 ، 10 9] 1.00 × 10 −7 1000 9.79 × 10 −8 9.63 × 10 −8 9.11 × 10 −8 1.09 × 10 −7 0.91
قبل حجم السكان المعدل الحقيقي (البدائل / الموقع / السنة) الطول (بي بي) تقدير المعدل اللاحق (البدائل / الموقع / السنة) متوسط ​​حجم 95٪ فاصل زمني من HPD (بدائل / موقع / سنة) تغطية 95٪ HPD أ
يقصد الوسيط الوضع
ثابت على 10 5 1.00 × 10 −8 100 2.32 × 10 −8 1.87 × 10 −8 1.05 × 10 −8 5.63 × 10 −8 0.98
ثابت على 10 5 1.00 × 10 −8 1000 1.20 × 10 −8 1.14 × 10 −8 1.01 × 10 −8 1.67 × 10 −8 0.96
ثابت على 10 5 5.00 × 10 −8 100 6.74 × 10 −8 6.17 × 10 −8 5.10 × 10 −8 1.15 × 10 −7 0.96
ثابت على 10 5 5.00 × 10 −8 1000 5.31 × 10 −8 5.20 × 10 −8 4.97 × 10 −8 4.51 × 10 −8 0.96
ثابت على 10 5 1.00 × 10 −7 100 1.20 × 10 −7 1.13 × 10 −7 1.00 × 10 −7 1.67 × 10 −7 0.97
ثابت على 10 5 1.00 × 10 −7 1000 1.04 × 10 −7 1.03 × 10 −7 9.99 × 10 −8 7.18 × 10 −8 0.95
زي موحد [0، ∞) 1.00 × 10 −8 100 1.68 × 10 −7 1.21 × 10 −7 3.57 × 10 −8 4.80 × 10 −7 1.00
زي موحد [0، ∞) 1.00 × 10 −8 1000 2.82 × 10 −8 2.56 × 10 −8 2.08 × 10 −8 5.49 × 10 −8 0.97
زي موحد [0، ∞) 5.00 × 10 −8 100 1.92 × 10 −7 1.65 × 10 −7 1.07 × 10 −7 4.32 × 10 −7 0.96
زي موحد [0، ∞) 5.00 × 10 −8 1000 5.89 × 10 −8 5.71 × 10 −8 5.35 × 10 −8 8.10 × 10 −8 0.98
زي موحد [0، ∞) 1.00 × 10 −7 100 2.66 × 10 −7 2.40 × 10 −7 1.86 × 10 −7 5.28 × 10 −7 0.97
زي موحد [0، ∞) 1.00 × 10 −7 1000 1.03 × 10 −7 1.01 × 10 −7 9.78 × 10 −8 1.10 × 10 −7 0.97
الزي الرسمي [10 0 ، 10 9] 1.00 × 10 −8 100 3.53 × 10 −8 7.34 × 10 −9 8.31 × 10 −9 1.68 × 10 −7 1.00
الزي الرسمي [10 0 ، 10 9] 1.00 × 10 −8 1000 9.07 × 10 −9 6.71 × 10 −9 2.48 × 10 −9 2.52 × 10 −8 0.81
الزي الرسمي [10 0 ، 10 9] 5.00 × 10 −8 100 5.20 × 10 −8 2.75 × 10 −8 8.48 × 10 −9 1.84 × 10 −7 0.83
الزي الرسمي [10 0 ، 10 9] 5.00 × 10 −8 1000 4.66 × 10 −8 4.48 × 10 −8 3.53 × 10 −8 7.26 × 10 −8 0.87
الزي الرسمي [10 0 ، 10 9] 1.00 × 10 −7 100 8.44 × 10 −8 5.80 × 10 −8 2.18 × 10 −8 2.49 × 10 −7 0.78
الزي الرسمي [10 0 ، 10 9] 1.00 × 10 −7 1000 9.79 × 10 −8 9.63 × 10 −8 9.11 × 10 −8 1.09 × 10 −7 0.91

نسبة عمليات المحاكاة التي احتوت فيها فاصل HPD 95٪ من المعدل على القيمة الحقيقية (المحاكاة).

يظهر نمط مختلف عندما يتم إعطاء حجم السكان توزيعًا سابقًا موحدًا غير محدود (الجدول 1). فشل العديد من تحليلات MCMC في التقارب ، مما أسفر عن عينات خلفية بأحجام عينة فعالة لا تتجاوز 100 وكان حجم السكان يميل نحو اللانهاية ويميل المعدل نحو الصفر. تراوحت النسبة المئوية للتحليلات التي فشلت في التقارب من 10.2٪ إلى 99.2٪ عبر إعدادات المحاكاة الستة (الشكل 1). إذا تمت إزالة هذه التكرارات الإشكالية ، يبدو أن التكرارات المتبقية تعطي تقديرات معقولة لمعدل الاستبدال (الجدول 1). الفاصل الزمني 95٪ HPD للمعدل ، على الرغم من أنه أوسع بكثير مما كان عليه عندما تم تثبيت حجم السكان على قيمته الصحيحة ، فقد اشتمل على قيمة المحاكاة على الأقل 96٪ من الوقت. تم الحصول على تقديرات معقولة أحادية الوسائط لحجم السكان في تحليلات MCMC التي أظهرت علامات التقارب. ومع ذلك ، في جميع إعدادات المحاكاة تقريبًا ، تم المبالغة في تقدير المعدل بالمتوسط ​​والوسيط والوضع. قد يكون هذا نتيجة مباشرة لإزالة التكرارات التي أنتجت تحليلات MCMC غير متقاربة لأن تلك كانت مجموعات البيانات ذات محتوى معلومات أقل عشوائيًا (أي مدفوعة بعدد أقل من البدائل وبالتالي إنتاج تقديرات معدل أقل). مع أخذ ذلك في الاعتبار ، من الصعب تحديد ما إذا كان تحيز التقدير حقيقي أو ما إذا كان ناتجًا عن أخذ عينة متحيزة من نسخ المحاكاة.

الرسوم البيانية التي تبين التطابق بين متوسط ​​حجم السكان الخلفي ، ومتوسط ​​المعدل الخلفي ، وتقارب MCMC لتحليلات بايزي للبيانات التي تم إنشاؤها في ظل 6 ظروف محاكاة مختلفة (3 معدلات مختلفة وأطوال تسلسل مختلفين). تم الحصول على النتائج باستخدام حجم السكان غير المطلق سابقًا (منتظم من 0 إلى ). تعرض كل لوحة النتائج من تحليل 1000 مكررة ، مرتبة من اليسار إلى اليمين عن طريق تصاعدي متوسط ​​حجم السكان الخلفي (المنحنى العلوي). يتم أيضًا عرض متوسط ​​تقدير المعدل اللاحق لمجموعة البيانات المقابلة على نفس المقياس (منحنى أقل) ، مما يُظهر علاقة وثيقة مع حجم السكان المقدر. يتم إعطاء كل محاكاة خطًا رأسيًا رماديًا في الخلفية إذا كان حجم العينة الفعال للاحتمال الخلفي أقل من 100 ، مما يشير إلى عدم وجود تقارب مع التوزيع الثابت. لكل تحليل MCMC ، تم سحب العينات من الجزء الخلفي كل 500 خطوة على إجمالي 2 × 10 7 خطوات ، مع التخلص من أول 10 ٪ من العينات على أنها احتراق.

الرسوم البيانية التي تبين التطابق بين متوسط ​​حجم السكان الخلفي ، ومتوسط ​​المعدل الخلفي ، وتقارب MCMC لتحليلات بايزي للبيانات التي تم إنشاؤها في ظل 6 ظروف محاكاة مختلفة (3 معدلات مختلفة وأطوال تسلسل مختلفين). تم الحصول على النتائج باستخدام حجم السكان غير المطلق سابقًا (منتظم من 0 إلى ). تعرض كل لوحة النتائج من تحليل 1000 مكررة ، مرتبة من اليسار إلى اليمين عن طريق تصاعدي متوسط ​​حجم السكان الخلفي (المنحنى العلوي). يتم أيضًا عرض متوسط ​​تقدير المعدل اللاحق لمجموعة البيانات المقابلة على نفس المقياس (منحنى أقل) ، مما يُظهر علاقة وثيقة مع حجم السكان المقدر. يتم إعطاء كل محاكاة خطًا رأسيًا رماديًا في الخلفية إذا كان حجم العينة الفعال للاحتمال الخلفي أقل من 100 ، مما يشير إلى عدم وجود تقارب مع التوزيع الثابت. لكل تحليل MCMC ، تم سحب العينات من الجزء الخلفي كل 500 خطوة على إجمالي 2 × 10 7 خطوات ، مع التخلص من أول 10 ٪ من العينات على أنها احتراق.

عندما يكون حجم السكان مقيدًا بمدى من القيم المعقولة بيولوجيًا (10 0 - 10 9) ، تتحقق صورة أخرى. كانت التغطية بفترات 95٪ من HPD أقل فقراً ، مع استبعاد قيمة المحاكاة من 95٪ HPD الفاصل الزمني حتى 22٪ من الوقت (الجدول 1). الحجم المتوسط ​​للفاصل الزمني لـ HPD 95٪ أصغر منه في التحليلات دون أي قيود على حجم المجتمع ، على الرغم من أن التباين يختفي مع زيادة عدد المواقع المتغيرة في المحاذاة. لم يعد الوضع اللاحق أفضل ملخص للسعر ، ربما لأن القيود المفروضة على حجم السكان تفرض أيضًا قيودًا على القيم التي يمكن أن يأخذها معدل الاستبدال. في بعض الحالات ، يكون التوزيع اللاحق للمعدل مقيدًا ضمنيًا ، مما يؤدي إلى وضع مشوه. من ناحية أخرى ، يبدو أن المتوسط ​​اللاحق يوفر تقديرًا دقيقًا بشكل معقول لمعدل الاستبدال الحقيقي (الجدول 1) ، على الرغم من أنه من الممكن أن يكون هذا جزئيًا نتيجة غير مقصودة لقيود حجم السكان. وهذا يعني أن متوسط ​​المعدل اللاحق قد يكون دقيقًا فقط كنتيجة لحجم السكان الذين يقيدون معدل الاستبدال بقيم معقولة ، حتى في حالة عدم وجود معلومات حقيقية عن المعدلات في البيانات. يمكن أن يفسر هذا التأثير بعض تقديرات المعدلات المنشورة من محاذاة تسلسل الحمض النووي غير المفيد ، والتي اتخذت قيمًا تبدو معقولة على الرغم من محتوى المعلومات المنخفض للبيانات.

مجموعات بيانات aDNA

تختلف مجموعات بيانات aDNA المنشورة اختلافًا كبيرًا من حيث أطوال التسلسل ومعدلات الاستبدال الأساسية بالإضافة إلى الهيكل الزمني وانتشار العينات. قد يكون من المفيد تقييم محتوى المعلومات في مجموعات البيانات هذه لتحديد ما إذا كان بإمكانها إنتاج تقديرات موثوقة لمعدلات الاستبدال وأوقات الاختلاف. أحد الجوانب المهمة للبيانات غير المتجانسة التي تم التغاضي عنها من خلال استخدام إحصاءات التنوع (Depaulis وآخرون 2009) ، وفي تحليلات محتوى المعلومات التي أجراها Debruyne و Poinar ، هو أن أعمار التسلسلات تشكل مكونًا مهمًا للمعلومات المحتوى (على سبيل المثال ، فيرث وآخرون 2010). ينبع هذا من حقيقة أن أعمار التسلسل تستخدم لمعايرة تقديرات معدلات الاستبدال. تتمثل إحدى المشكلات المحتملة في تحليلات البيانات غير المتجانسة في أن تقديرات المعدل يمكن أن تكون نتيجة لأعمار أخذ العينات.

هنا ، نستخدم اختبار التوزيع العشوائي للتاريخ للتحقيق في الهيكل الزمني في 18 مجموعة بيانات aDNA المنشورة. يتضمن هذا الاختبار إعادة تحليل كل مجموعة بيانات بعد الخلط العشوائي لأعمار التسلسلات ويتبع العديد من الدراسات السابقة للبيانات غير المتجانسة (دي بروين وآخرون 2009 ، ميلر وآخرون 2009 ، سوبرامانيان وآخرون 2009 ب ، فيرث وآخرون 2010). يمكن لتحليل التوزيع العشوائي للتاريخ تقديم بعض الأفكار حول ما إذا كان هيكل وانتشار أعمار التسلسل كافيين لتوفير معلومات موثوقة حول المعدل الأساسي لتطور مجموعة البيانات. إذا تم استرداد تقدير المعدل الأصلي في مجموعات البيانات العشوائية للتاريخ ، فلن يكون هناك بنية زمنية كافية في مجموعة البيانات الأصلية ولا يمكن دعم تقدير المعدل (فيرث وآخرون 2010).

المواد والأساليب.-

باستخدام طريقة Bayesian phylogenetic المطبقة في BEAST v1.5.4 (Drummond and Rambaut 2007) ، قمنا بتحليل 18 محاذاة لـ aDNA المنشورة: 16 من 19 مجموعة بيانات aDNA التي تم تحليلها بواسطة Ho et al.(2007 ب) ، محاذاة ميتوجينوم 11 للماموث الصوفي تم فحصها بواسطة Debruyne و Poinar ، ومحاذاة Muskox D-loop (Campos et al. 2010). استبعدنا ثلاث مجموعات بيانات من الدراسة التي أجراها Ho et al. (2007 ب): ملف كلوروبيوم احتوت محاذاة نيني على عدد قليل جدًا من التسلسلات القديمة لاختبار التوزيع العشوائي ، في حين تم استبدال محاذاة المسك بمجموعة البيانات الأكبر التي نشرها Campos et al. (2010). ترد الخصائص الأساسية لمجموعات البيانات الثمانية عشر في الجدول 2 ، مع مزيد من التفاصيل المتاحة في المنشورات الأصلية.

تم تحليل تفاصيل محاذاة aDNA باستخدام اختبار التوزيع العشوائي للتاريخ الموصوف في النص

صنف منطقة المتتاليات (القديمة + الحديثة) الفئة العمرية أ (سنوات) الطول (بي بي) المواقع المتغيرة نتيجة اختبار التوزيع العشوائي للتاريخ
أديلي البطريق Pygoscelis adeliaeحلقة D 96 + 380 6424 347 159
الثعلب في القطب الشمالي Alopex lagopusحلقة D 8 + 41 16,000 291 23
أوروش بوس بريميجينيوسحلقة D 41 + 0 10,300 360 34
الثور بيسون بريسكوسحلقة D 150 + 32 60,400 615 170
الخنزير سوس سكروفاحلقة D 81 + 7 5400 572 47
الحوت القطبي Balaena mysticetusحلقة D 99 + 68 51,000 453 72 يفشل
دب بنى Ursus arctosحلقة D 36 + 57 59,000 193 69
كهف الدب Ursus spelaeusحلقة D 26 + 0 53,470 288 31 يفشل
كهف الضبع كروكوتا كروكوتا سبيلياحلقة D 10 + 0 13,140 366 27 يفشل
أسد الكهف النمر الأسدحلقة D 23 + 0 46,275 213 12
بقرة بوس توروسحلقة D 36 + 91 8065 410 65
حصان إيكوس كابالوسحلقة D 12 + 33 28,340 348 70
الذرة زيا ميسadh29 + 11 4500 190 26 يفشل
موا باتشيورنيس مابينيحلقة D 14 + 0 4912 241 20 يفشل
ثور المسك Ovibos Moschatusحلقة D 114 + 16 45,740 682 203
توكو توكو Ctenomys sociabilisسيتب45 + 1 10,208 253 13
ماموث صوفي Mammuthus primigeniusحلقة D 32 + 0 35,970 741 42 يفشل
ماموث صوفي Mammuthus primigeniusميتوجينوم 11 + 0 38,030 16,484 112 يفشل
صنف منطقة المتتاليات (القديمة + الحديثة) الفئة العمرية أ (سنوات) الطول (بي بي) المواقع المتغيرة نتيجة اختبار التوزيع العشوائي للتاريخ
أديلي البطريق Pygoscelis adeliaeحلقة D 96 + 380 6424 347 159
الثعلب في القطب الشمالي Alopex lagopusحلقة D 8 + 41 16,000 291 23
أوروش بوس بريميجينيوسحلقة D 41 + 0 10,300 360 34
الثور بيسون بريسكوسحلقة D 150 + 32 60,400 615 170
الخنزير سوس سكروفاحلقة D 81 + 7 5400 572 47
الحوت القطبي Balaena mysticetusحلقة D 99 + 68 51,000 453 72 يفشل
دب بنى Ursus arctosحلقة D 36 + 57 59,000 193 69
كهف الدب Ursus spelaeusحلقة D 26 + 0 53,470 288 31 يفشل
كهف الضبع كروكوتا كروكوتا سبيلياحلقة D 10 + 0 13,140 366 27 يفشل
أسد الكهف النمر الأسدحلقة D 23 + 0 46,275 213 12
بقرة بوس توروسحلقة D 36 + 91 8065 410 65
حصان إيكوس كابالوسحلقة D 12 + 33 28,340 348 70
الذرة زيا ميسadh29 + 11 4500 190 26 يفشل
موا باتشيورنيس مابينيحلقة D 14 + 0 4912 241 20 يفشل
ثور المسك Ovibos Moschatusحلقة D 114 + 16 45,740 682 203
توكو توكو Ctenomys sociabilisسيتب45 + 1 10,208 253 13
ماموث صوفي Mammuthus primigeniusحلقة D 32 + 0 35,970 741 42 يفشل
ماموث صوفي Mammuthus primigeniusميتوجينوم 11 + 0 38,030 16,484 112 يفشل

عمر التسلسل الأقدم مطروحًا منه عمر التسلسل الأصغر.

تم تحليل تفاصيل محاذاة aDNA باستخدام اختبار التوزيع العشوائي للتاريخ الموصوف في النص

صنف منطقة المتتاليات (القديمة + الحديثة) الفئة العمرية أ (سنوات) الطول (بي بي) المواقع المتغيرة نتيجة اختبار التوزيع العشوائي للتاريخ
أديلي البطريق Pygoscelis adeliaeحلقة D 96 + 380 6424 347 159
الثعلب في القطب الشمالي Alopex lagopusحلقة D 8 + 41 16,000 291 23
أوروش بوس بريميجينيوسحلقة D 41 + 0 10,300 360 34
الثور بيسون بريسكوسحلقة D 150 + 32 60,400 615 170
الخنزير سوس سكروفاحلقة D 81 + 7 5400 572 47
الحوت القطبي Balaena mysticetusحلقة D 99 + 68 51,000 453 72 يفشل
دب بنى Ursus arctosحلقة D 36 + 57 59,000 193 69
كهف الدب Ursus spelaeusحلقة D 26 + 0 53,470 288 31 يفشل
كهف الضبع كروكوتا كروكوتا سبيلياحلقة D 10 + 0 13,140 366 27 يفشل
أسد الكهف النمر الأسدحلقة D 23 + 0 46,275 213 12
بقرة بوس توروسحلقة D 36 + 91 8065 410 65
حصان إيكوس كابالوسحلقة D 12 + 33 28,340 348 70
الذرة زيا ميسadh29 + 11 4500 190 26 يفشل
موا باتشيورنيس مابينيحلقة D 14 + 0 4912 241 20 يفشل
ثور المسك Ovibos Moschatusحلقة D 114 + 16 45,740 682 203
توكو توكو Ctenomys sociabilisCYB45 + 1 10,208 253 13
ماموث صوفي Mammuthus primigeniusحلقة D 32 + 0 35,970 741 42 يفشل
ماموث صوفي Mammuthus primigeniusميتوجينوم 11 + 0 38,030 16,484 112 يفشل
صنف منطقة المتتاليات (القديمة + الحديثة) الفئة العمرية أ (سنوات) الطول (بي بي) المواقع المتغيرة نتيجة اختبار التوزيع العشوائي للتاريخ
أديلي البطريق Pygoscelis adeliaeحلقة D 96 + 380 6424 347 159
الثعلب في القطب الشمالي Alopex lagopusحلقة D 8 + 41 16,000 291 23
أوروش بوس بريميجينيوسحلقة D 41 + 0 10,300 360 34
الثور بيسون بريسكوسحلقة D 150 + 32 60,400 615 170
الخنزير سوس سكروفاحلقة D 81 + 7 5400 572 47
الحوت القطبي Balaena mysticetusحلقة D 99 + 68 51,000 453 72 يفشل
دب بنى Ursus arctosحلقة D 36 + 57 59,000 193 69
كهف الدب Ursus spelaeusحلقة D 26 + 0 53,470 288 31 يفشل
كهف الضبع كروكوتا كروكوتا سبيلياحلقة D 10 + 0 13,140 366 27 يفشل
أسد الكهف النمر الأسدحلقة D 23 + 0 46,275 213 12
بقرة بوس توروسحلقة D 36 + 91 8065 410 65
حصان إيكوس كابالوسحلقة D 12 + 33 28,340 348 70
الذرة زيا ميسadh29 + 11 4500 190 26 يفشل
موا باتشيورنيس مابينيحلقة D 14 + 0 4912 241 20 يفشل
ثور المسك Ovibos Moschatusحلقة D 114 + 16 45,740 682 203
توكو توكو Ctenomys sociabilisسيتب45 + 1 10,208 253 13
ماموث صوفي Mammuthus primigeniusحلقة D 32 + 0 35,970 741 42 يفشل
ماموث صوفي Mammuthus primigeniusميتوجينوم 11 + 0 38,030 16,484 112 يفشل

عمر التسلسل الأقدم مطروحًا منه عمر التسلسل الأصغر.

تم اختيار نماذج الاستبدال من خلال مقارنة درجات معيار المعلومات Bayesian ، مع عدد المواقع المتوافقة التي تم أخذها كحجم العينة لفترة العقوبة. نظرًا للطبيعة غير المحددة لمجموعات البيانات ، تم استبعاد النماذج التي سمحت بنسبة من المواقع الثابتة. تم التعامل مع جميع مجموعات البيانات على أنها غير مقسمة ، وتم تحديد حجم ثابت سابق للاندماج للطوبولوجيا والتباعد. تم تكرار جميع التحليلات باستخدام نموذج بايزي سكايريد الديموغرافي (مينين وآخرون ، 2008). تم اختيار النموذج الديموغرافي الأفضل (الحجم الثابت أو Bayesian skyride) على أساس الفحص البصري للنتائج. في كل تحليل ، تم سحب عينات من الجزء الخلفي كل 5 × 10 3 خطوات من إجمالي 5 × 10 7 خطوات ، مع التخلص من أول 10٪ على أنها احتراق. عند الضرورة ، تمت مضاعفة عدد خطوات MCMC أو تضاعف ثلاث مرات من أجل تحقيق حجم عينة فعال & gt 100 لتقدير المعدل.

ثم أعيد تعيين أعمار التسلسل في كل مجموعة من 18 مجموعة بيانات aDNA بشكل عشوائي. تم إجراء هذا التوزيع العشوائي 20 مرة لكل مجموعة بيانات باستخدام تطبيق Java SiteSampler v1.1 (Ho and Lanfear 2010). تم إجراء تحليلات علم الوراثة البايزية باستخدام نفس الإعدادات الموضحة أعلاه للبيانات الأصلية. لكل مجموعة بيانات عشوائية للتاريخ ، تم اختيار النموذج الديموغرافي لمطابقة ذلك المحدد للبيانات الأصلية.

نتائج.-

يتم عرض تقديرات المعدل اللاحق من مجموعات البيانات الـ 18 في الشكل 2. ومن المثير للاهتمام ملاحظة أنه من بين مجموعات البيانات السبعة التي فشلت في اختبار التوزيع العشوائي للتاريخ ، لم تنتج جميع تقديرات المعدل بفواصل زمنية واسعة تبلغ 95٪ من HPD. في هذه الحالات ، كان المعدل الخلفي المشروط مشابهًا لمتوسط ​​المعدل الخلفي (النتائج غير معروضة).

تقديرات معدلات الاستبدال من مجموعة متنوعة من محاذاة الحمض النووي الريبي. لكل مجموعة بيانات ، تمثل نقطة البيانات الأولى المعدل المقدر من مجموعة البيانات الأصلية (الدوائر المملوءة) ، بينما تمثل نقاط البيانات العشرين المتبقية (الدوائر غير المعبأة) المعدلات المقدرة من التكرارات التي تم فيها خلط أعمار النصائح عشوائيًا. تم اعتبار المحاذاة "اجتياز" اختبار التوزيع العشوائي للتاريخ إذا لم يتم تضمين متوسط ​​تقدير المعدل اللاحق من مجموعة البيانات الأصلية في أي من فترات HPD 95٪ من النسخ المتماثلة للتاريخ العشوائي. أ) تقديرات المعدل من المحاذاة التي اجتازت اختبار التوزيع العشوائي للتاريخ. ب) تقديرات المعدل من المحاذاة التي فشلت في اختبار العشوائية للتاريخ.

تقديرات معدلات الاستبدال من مجموعة متنوعة من محاذاة الحمض النووي الريبي. لكل مجموعة بيانات ، تمثل نقطة البيانات الأولى المعدل المقدر من مجموعة البيانات الأصلية (الدوائر المملوءة) ، بينما تمثل نقاط البيانات العشرين المتبقية (الدوائر غير المعبأة) المعدلات المقدرة من التكرارات التي تم فيها خلط أعمار النصائح عشوائيًا. تم اعتبار المحاذاة "اجتياز" اختبار التوزيع العشوائي للتاريخ إذا لم يتم تضمين متوسط ​​تقدير المعدل اللاحق من مجموعة البيانات الأصلية في أي من فواصل HPD 95٪ من النسخ المتماثلة للتاريخ العشوائي. أ) تقديرات المعدل من المحاذاة التي اجتازت اختبار التوزيع العشوائي للتاريخ. ب) تقديرات المعدل من المحاذاة التي فشلت في اختبار العشوائية للتاريخ.

لاستقصاء الوجود المحتمل للتحيزات المعتمدة على الإشارة في هذه التقديرات ، أخذنا في الاعتبار متوسط ​​المعدلات اللاحقة فيما يتعلق بخصائص مجموعات البيانات التي تم تقديرها منها. يفترض Debruyne و Poinar أن متوسط ​​تقدير المعدل اللاحق يجب أن يكون مرتبطًا بشكل كبير بكمية المعلومات في مجموعة البيانات ، كما ينعكس في طول المحاذاة. درسنا 4 مقاييس لمحتوى المعلومات: عدد المواقع المتوافقة ، وعدد المواقع المتغيرة ، وعدد التسلسلات ، وحاصل ضرب عدد المواقع والتسلسلات في المحاذاة. باستثناء محاذاة الماموث الصوفي ، والتي تمثل حالة خارجية وغير مستقلة عن محاذاة D-loop من نفس النوع ، لم نجد أي دليل على أن أيًا من هذه المقاييس مرتبطة بمتوسط ​​تقدير المعدل اللاحق في مجموعات بيانات 17 aDNA المتبقية (ص 2 & لتر 0.1 و ص & GT 0.2 في جميع الحالات). ومع ذلك ، يمكن تفسير أكثر من 40٪ من التباين في تقديرات المعدل بعلاقة أسية مع النطاق العمري للتسلسلات في كل مجموعة بيانات (ص 2 = 0.431أندص = 0.004).

تم الحصول على مزيد من التبصر في الهيكل الزمني ضمن مجموعات البيانات من خلال تحليلات التاريخ العشوائية. اجتازت إحدى عشرة محاذاة اختبار التوزيع العشوائي وفشلت سبع محاذاة (الشكل 2 ، الجدول 2). بالإضافة إلى النتائج المقدمة في هذه الدراسة ، أشارت تحليلات التاريخ العشوائية السابقة لـ aDNA من tuatara (Subramanian et al. 2009b) وأختام الفيل (de Bruyn et al. 2009) إلى أن مجموعتي البيانات هاتين تحتويان على معلومات زمنية كافية لإنتاج ذات مغزى. تقديرات معدلات الاستبدال. من بين مجموعات البيانات التي فشلت في اختبار التوزيع العشوائي للتاريخ ، تمت ملاحظة محاذاة الحوت المقوس لتنوعها المنخفض في التسلسل ، مع الاختلاف الملحوظ الذي تهيمن عليه الطفرات الفردية (Borge et al. 2007). محاذاة الذرة عبارة عن مجموعة بيانات صغيرة تشتمل على تسلسلات تم أخذ عينات منها على مدى فترة زمنية قصيرة (Freitas et al.2003). والجدير بالذكر أن كلا من محاذاة الماموث (حلقة D وجينوم الميتوكوندريا الكامل) فشلت في اختبار التوزيع العشوائي للتاريخ.


إستعمال

كائن من فئة "phylo". في حالة fitmultiMk ، يكون الكائن من فئة "simmap" مع تعيين طابع منفصل.

يجب أن يكون متجه قيم الأطراف لأسماء الأنواع (x) هو أسماء الأنواع. في حالة أساليب الرسم والكثافة ، كائن من الفئة المناسبة.

نموذج. راجع make.simmap أو ace للحصول على التفاصيل.

القيمة الثابتة لمصفوفة الانتقال Q ، إذا كان ذلك مطلوبًا.

بالنسبة لـ fitpolyMk ، قيمة منطقية تشير إلى ما إذا كان يجب معاملة الحرف على أنه مرتب أم لا. في الوقت الحالي ، تفترض الوظيفة ترتيبًا أبجديًا رقميًا (على سبيل المثال ، الأرقام مرتبة حسب الأرقام الأولية ثم المتتالية متبوعة بالأحرف أو سلاسل الأحرف بالترتيب الأبجدي).

بالنسبة إلى الرسم البياني polyMk ، عدد الحالات أحادية الشكل للسمة المنفصلة.

عدد أجيال MCMC لـ mcmcMk.

عدد فئات المعدل (لكل مستوى من السمة المنفصلة) في نموذج المعدل الخفي.

وسيطات اختيارية ، بما في ذلك pi ، التوزيع السابق في العقدة الجذرية (الافتراضي pi = "يساوي"). تشتمل الخيارات الأخرى لـ pi على pi = "fitzjohn" (الذي ينفذ التوزيع المسبق لـ Fitzjohn et al. 2009) ، و pi = "المقدر" (الذي يعثر على التوزيع الثابت لترددات الحالة ويعين ذلك على أنه سابق) ، أو عشوائي سابق التوزيع المحدد من قبل المستخدم. بالنسبة لطريقة الرسم البياني ، تتضمن الوسيطات الاختيارية (على سبيل المثال لا الحصر): الإشارة ، عدد الأرقام للمعدلات المراد رسمها الرئيسي ، متجه الحرف بطول اثنين مع العناوين لكل مخطط فرعي cex.main ، cex.traits ، و cex.rates ، أحجام الخطوط لعناصر النص المختلفة للمخطط و show.zeros ، الحجة المنطقية التي تحدد ما إذا كان سيتم رسم الأسهم مع معدل الانتقال المقدر ML لا تختلف عن الصفر (مع التسامح المحدد بواسطة الوسيطة الاختيارية tol) . أخيرًا ، بالنسبة لـ fitpolyMk ، يمكن تعيين max.poly للنموذج المرتب = TRUE. max.poly افتراضي إلى أعلى مستوى من تعدد الأشكال الذي لوحظ في البيانات.


تحميل البيانات في BEAUti

لتحميل محاذاة تنسيق NEXUS ، ما عليك سوى تحديد استيراد البيانات. الخيار من القائمة ملف وحدد الملف المسمى YFV.nex. يحتوي هذا الملف على محاذاة 71 تسلسلًا من جين prM / E لـ YFV ، 654 نيوكليوتيدات في الطول. بمجرد التحميل ، سيتم إدراج بيانات التسلسل ضمن أقسام البيانات:

انقر نقرًا مزدوجًا فوق اسم الملف في الجدول (ولكن ليس اسم القسم) لعرض محاذاة التسلسل الفعلي:

تحديد مجموعة الأصناف

ضمن لوحة Taxa ، يمكننا تحديد مجموعات الأصناف التي نرغب في الحصول على إحصائيات معينة لها ، أو فرض قيود أحادية اللون ، أو وضع معلومات المعايرة عليها. دعونا نحدد تصنيف "الأمريكتين" بالضغط على زر "زائد" الصغير أسفل يسار اللوحة:

سيؤدي هذا إلى إنشاء مجموعة أصناف جديدة. أعد تسميته بالنقر نقرًا مزدوجًا فوق الإدخال الذي يظهر (سيتم تسميته في البداية بدون عنوان 1). أطلق عليها اسم الأمريكتين. لا تفرض monophyly باستخدام monophyletic؟ خيار لأننا سنقيم الدعم لهذه الكتلة. نحن لا نختار includeStem؟ الخيار إما لأننا نرغب في تقدير TRMCA للفيروسات من الأمريكتين وليس للعقدة الأم المؤدية إلى هذا الكليد.

في الجدول التالي على طول سترى الأصناف المتوفرة. يمكن تحديد التصنيف ونقله إلى مجموعة الأصناف المضمنة بالضغط على زر السهم الأخضر. لاحظ أنه يمكن تحديد العديد من الأصناف في نفس الوقت مع الضغط باستمرار على زر Command أو Control على جهاز Mac أو الكمبيوتر الشخصي ، على التوالي. نظرًا لأن معظم الأصناف من الأمريكتين ، فإن الأكثر ملاءمة هو ببساطة تحديد جميع الأصناف ، ونقلها إلى مجموعة الأصناف المضمنة ، ثم إعادة التصنيف الأفريقي (يتم تضمين بلد أخذ العينات في نهاية أسماء الأصناف). تحقق من وجود دول أفريقية فقط على اليسار (يجب أن يكون هناك 21 دولة) والدول الأمريكية فقط على اليمين (يجب أن يكون هناك 50 دولة).

لمزيد من المعلومات حول إنشاء مجموعات الأصناف ، انظر هذه الصفحة.

بعد هذه العمليات ، يجب أن تبدو الشاشة كما يلي:

تحديد مواعيد الإكرامية

لإبلاغ BEAUti / BEAST عن تواريخ أخذ عينات التسلسلات ، انتقل إلى لوحة التلميحات وحدد خيار استخدام تواريخ الإكرامية. بشكل افتراضي ، يُفترض أن جميع الأصناف لها تاريخ صفري (أي يُفترض أن يتم أخذ عينات من التسلسلات في نفس الوقت الذي يعتبر فيه BEAST وقت أخذ العينات الحالي أو الأحدث هو الوقت 0). في هذه الحالة ، تم أخذ عينات من تسلسل YFV في تواريخ مختلفة تعود إلى الأربعينيات. يتم إعطاء السنة الفعلية لأخذ العينات باسم كل تصنيف ويمكننا ببساطة تعديل القيمة في عمود التاريخ بالجدول لنعكسها. ومع ذلك ، إذا كانت أسماء الأصناف تحتوي على معلومات المعايرة ، فإن الطريقة المناسبة لتحديد تواريخ التسلسلات في BEAUti هي استخدام زر Parse Dates في أعلى لوحة Tips. سيؤدي النقر فوق هذا إلى ظهور مربع حوار:

تحاول هذه العملية تخمين التواريخ من المعلومات الموجودة في أسماء الأصناف. إنه يعمل من خلال محاولة العثور على حقل رقمي داخل كل اسم. إذا كانت أسماء الأصناف تحتوي على أكثر من حقل رقمي واحد (مثل بعض متواليات YFV أعلاه) ، فيمكنك تحديد كيفية العثور على الحقل الذي يتوافق مع تاريخ أخذ العينات. راجع هذه الصفحة للحصول على تفاصيل حول الخيارات المختلفة لتعيين التواريخ في هذه اللوحة. بالنسبة لتسلسلات YFV ، يمكنك الاحتفاظ بالإعداد الافتراضي محدد فقط بترتيبها وترتيبها: أولاً (ولكن تأكد من تحديد خيار التحليل كرقم).

عند تحليل رقم ، يمكنك أن تطلب من BEAUti إضافة قيمة ثابتة لكل تاريخ والتي يمكن أن تكون مفيدة لتحويل سنة مكونة من رقمين إلى سنة مكونة من 4 أرقام. نظرًا لأنه تم تحديد جميع التواريخ بتنسيق مكون من أربعة أرقام في هذه الحالة ، فلا حاجة إلى إعدادات إضافية. لذا ، يمكننا الضغط على "موافق".

يسرد عمود الارتفاع أعمار النصائح المتعلقة بالوقت 0 (في حالتنا 2009).

بالنسبة لهذه التسلسلات ، يتم تقديم سنة أخذ العينات فقط وليس التواريخ الدقيقة لأخذ العينات. إن عدم اليقين هذا سيهمل فيما يتعلق بالمقياس الزمني التطوري الكبير نسبيًا لهذا المثال ، ومع ذلك ، من الممكن استيعاب عدم اليقين في وقت أخذ العينات - انظر هنا.

تحديد النموذج التطوري

الخطوة التالية هي النقر فوق علامة التبويب "المواقع" في الجزء العلوي من النافذة الرئيسية. سيكشف هذا عن إعدادات النموذج التطوري لـ BEAST. تعتمد الخيارات التي تظهر بالضبط على ما إذا كانت البيانات نيوكليوتيدات أو أحماض أمينية (أو سمات). يفترض هذا البرنامج التعليمي أنك على دراية بالنماذج التطورية المتاحة - ولكن هناك بضع نقاط يجب ملاحظتها حول اختيار نموذج في BEAUti:

نموذج الاستبدال: بالنسبة لبيانات النوكليوتيدات ، يعد هذا اختيارًا من JC أو HKY أو GTR أو TN93. نماذج الاستبدال الأخرى ممكنة عن طريق تقييد أحد هذه النماذج. انظر هذه الصفحة للحصول على مزيد من التفاصيل. الترددات الأساسية: يمكن تقدير الترددات الأساسية للنيوكليوتيدات (المقدرة كمعامل في النموذج) أو التجريبية (المقدرة من البيانات ثم ثابتة) أو جميعها متساوية (ثابتة لتكون 0.25 لكل منها). نموذج عدم تجانس الموقع: اختيار نموذج توزيع جاما المنفصل أو نموذج الموقع الثابت أو كليهما. التقسيم إلى مواضع الكودون: يفترض اختيار خيار التقسيم إلى مواضع الكودون أن البيانات تتم محاذاة ككودونات. سيقدر هذا الخيار بعد ذلك معدل استبدال منفصل لكل موضع كودون ، أو لـ 1 + 2 مقابل 3 ، اعتمادًا على الإعداد. نموذج استبدال إلغاء الارتباط عبر مواضع الكودون: سيحدد تحديد نموذج استبدال Unlink عبر مواضع الكودون أنه يجب على BEAST تقدير نسبة انتقال انتقال منفصلة أو مصفوفة معدل انعكاس زمني عام لكل موضع كودون. نموذج عدم تجانس معدل فك الارتباط عبر مواضع الكودون: سيحدد تحديد نموذج عدم تجانس معدل Unlink عبر مواضع الكودون أنه يجب على BEAST تقدير مجموعة معلمات عدم تجانس المعدل (معلمة شكل جاما و / أو نسبة المواقع الثابتة) لكل موضع كودون. فك ارتباط الترددات الأساسية عبر مواضع الكودون: سيحدد تحديد الترددات الأساسية لإلغاء الارتباط عبر مواضع الكودون أنه يجب على BEAST تقدير مجموعة منفصلة من الترددات الأساسية لكل موضع كودون.

في هذا البرنامج التعليمي ، حدد الأقسام الثلاثة: خيار المواضع 1 و 2 و 3 بحيث يكون لكل موضع كودون نموذج استبدال HKY ومعدل التطور والترددات الأساسية المقدرة وتغير معدل توزيع جاما بين المواقع:

ضبط نموذج الساعة

انقر فوق علامة التبويب الساعات في الجزء العلوي من النافذة الرئيسية. سنقوم بتشغيلنا الأولي باستخدام نموذج الساعة الجزيئية الصارم (الافتراضي):

إعداد شجرة البداية والشجرة مسبقًا

انقر فوق علامة التبويب الأشجار في الجزء العلوي من النافذة الرئيسية. نحتفظ بشجرة بدء عشوائية افتراضية وحجم ثابت (بسيط) يتحدان مسبقًا. تم وصف مقدمات الشجرة (الموديلات المتلاحمة ونماذج أخرى) في هذه الصفحة.

انشاء براورز

راجع الإعدادات السابقة ضمن لوحة Priors:

قد تكون بعض القيم الافتراضية الهامشية غير مناسبة - وهذا يعني أن توزيع الاحتمالات لا يتكامل مع قيمة محدودة. في إعداداتنا الافتراضية الحالية ، فإن 1 / x السابقة على ثابت .opSize هي مثال على سابقة غير صحيحة.

من المهم توفير مقدمات مسبقة مناسبة لجميع المعلمات التي يتم تقديرها حيث تؤدي العوامل السابقة غير الملائمة إلى ظهور خلفية غير مناسبة واحتمالات هامشية غير مناسبة (عند إجراء اختيار نموذج بايزي ، راجع برنامج تعليمي مختلف لورشة العمل).لتغيير السابق على Constant.popSize على سبيل المثال ، انقر فوق السابق المقابل وستظهر نافذة اختيار مسبقة. قم بتعيين ما قبل التوزيع اللوغاريتمي الطبيعي باستخدام mu = 1 و sigma = 10. يشير التمثيل الرسومي لهذا التوزيع السابق إلى أن معظم الكتلة السابقة توضع على قيم صغيرة نسبيًا ، لكن الكثافة تظل منتشرة بشكل كافٍ على قيم أكبر. & lt لاحظ أن الإعداد السابق يتحول إلى اللون الأسود بعد تأكيد هذا الإعداد بالنقر فوق "موافق". & gt

لاحظ أن القيمة الافتراضية السابقة على معدل التطور (clock.rate) هي تقدير تقريبي لمرجع شرطي سابق (تقريبًا. مرجع سابق) (Ferreira and Suchard ، 2008). إذا كانت التسلسلات غير مرتبطة بتواريخ أخذ عينات مختلفة (فهي معاصرة) ، أو عندما يكون النطاق الزمني لأخذ العينات تافهًا بالنسبة للمقياس التطوري للتصنيف ، يمكن تثبيت معدل الاستبدال على قيمة تستند إلى مصدر آخر ، أو أفضل ، يمكن تحديد التوزيع المسبق ليشمل أيضًا عدم التيقن من هذا المعدل "الخارجي". سيؤدي تثبيت المعدل إلى 1.0 إلى تقدير أعمار عقد الشجرة بوحدات البدائل لكل موقع (أي الوحدات العادية لأطوال الفروع في الحزم الشائعة مثل MrBayes). لاحظ أنه عند اختيار تثبيت المعدل على قيمة ما ، سيتم إلغاء تحديد نواة (نواة) الانتقال في هذه المعلمة (لوحة العملاء ، انظر القسم التالي) تلقائيًا.

إعداد المشغلين

تحتوي كل معلمة في النموذج على "مشغل" واحد أو أكثر (يطلق عليها بشكل مختلف التحركات أو المقترحات أو نواة الانتقال بواسطة حزم برامج MCMC الأخرى مثل MrBayes و LAMARC). يحدد العاملون كيفية تغيير المعلمات أثناء تشغيل MCMC. اعتبارًا من BEAST v1.8.4 ، تتوفر خيارات مختلفة فيما يتعلق باستكشاف مساحة الشجرة. في هذا البرنامج التعليمي ، سوف نستخدم "مزيج المشغل الكلاسيكي" ، والذي يتكون من مجموعة من نوى الانتقال الشجري التي تقترح تغييرات على الشجرة. هناك أيضًا خيار لإصلاح طوبولوجيا الشجرة بالإضافة إلى "مزيج تجريبي جديد" ، والذي يجري تطويره حاليًا بهدف تحسين المزج بين الأشجار الكبيرة في علم الوراثة.

تحتوي لوحة المشغلين في BEAUti على جدول يسرد المعلمات ومشغليها وإعدادات التوليف لهؤلاء المشغلين:

في العمود الأول هي أسماء المعلمات. ستسمى هذه أشياء مثل CP1.kappa مما يعني معلمة kappa لنموذج HKY (تحيز الانتقال-التحويل) لموضع الكودون الأول. يحتوي العمود التالي على نوع العوامل التي تعمل على كل معلمة. على سبيل المثال ، يقوم عامل المقياس بقياس المعلمة لأعلى أو لأسفل بنسبة ، ويضيف عامل السير العشوائي أو يطرح مبلغًا إلى المعلمة ويختار المشغل الموحد قيمة جديدة بشكل موحد ضمن النطاق. تتعلق بعض المعلمات بالشجرة أو بأوقات التباعد لعقد الشجرة ولها عوامل تشغيل خاصة.

يحتوي كل عامل أيضًا على خانة اختيار (العمود قيد الاستخدام) والتي يمكن استخدامها لتشغيل وإيقاف تشغيل المشغلين الفرديين. على سبيل المثال ، سيؤدي إلغاء تحديد المشغلين على معدل التطور (معدل الساعة ومعدلات الاستبدال والارتفاعات) إلى إصلاح المعدل إلى القيمة الأولية. يتم تعيين القيمة الأولية للمعامل في جدول Priors.

يعطي العمود التالي ، المسمى Tuning ، إعداد ضبط للمشغل. بعض المشغلين ليس لديهم أي إعدادات ضبط لذلك لا يوجد تحت هذا العمود. ستحدد معلمة الضبط حجم الحركة التي سيقوم بها كل مشغل والتي ستؤثر على عدد المرات التي يتم فيها قبول هذا التغيير من قبل MCMC والذي سيؤثر بدوره على كفاءة التحليل. بالنسبة لمعظم المشغلين (مثل السير العشوائي ومشغلي الشرائح الفرعية) ، تعني معلمة الضبط الأكبر حركات أكبر. ومع ذلك ، بالنسبة لمشغل الميزان ، فإن قيمة معلمة الضبط الأقرب إلى 0.0 تعني تحركات أكبر. يوجد في الجزء العلوي من النافذة خيار يسمى Auto Optimize والذي ، عند تحديده ، سيقوم تلقائيًا بضبط إعداد الضبط أثناء تشغيل MCMC لمحاولة تحقيق أقصى قدر من الكفاءة. في نهاية التشغيل ، ستتم كتابة جدول المشغلين وأدائهم والقيم النهائية لإعدادات الضبط هذه إلى الإخراج القياسي. بشكل عام ، يعمل التحسين التلقائي للمشغلين بشكل جيد ولا يحتاج إلى تغيير أي شيء.

يحدد العمود التالي ، المسمى "الوزن" ، عدد مرات تطبيق كل عامل مقارنة بالآخرين. تميل بعض المعلمات إلى أخذ عينات منها بكفاءة عالية - مثال على معلمة kappa - يتم تقليل عوامل تشغيل هذه المعلمات بحيث لا يتم تغييرها كثيرًا.

بدءًا من BEAST v1.8.4 ، تتوفر خيارات مختلفة فيما يتعلق باستكشاف مساحة المعلمة باستخدام خيار مزيج المشغل. الافتراضي هو مزيج المشغل الكلاسيكي ، وهو مزيج من العوامل والأوزان التي تتوافق مع الإصدارات السابقة من BEAST. هناك أيضًا خيار لإصلاح طوبولوجيا الشجرة بالإضافة إلى مزيج تجريبي جديد ، والذي هو قيد التطوير حاليًا بهدف تحسين المزج لأشجار النشوء والتطور الكبيرة. تعمل هذه الخيارات على تشغيل وإيقاف المشغلين بحيث يمكن تجاوزها باستخدام مفاتيح التبديل قيد الاستخدام.

في معظم الحالات ، لا يلزم إجراء أي تغييرات على هذا الجدول ولكن يمكن "إيقاف تشغيل" عوامل التشغيل مما يؤدي إلى تثبيت المعلمة على قيمتها الأولية.

لهذا التحليل ، لا يلزم إجراء تغييرات على هذا الجدول.

ضبط خيارات MCMC

توفر علامة التبويب MCMC في BEAUti إعدادات للتحكم في سلسلة MCMC. أولاً لدينا طول السلسلة. هذا هو عدد الخطوات التي سيقوم بها MCMC في السلسلة قبل الانتهاء. كم من الوقت يجب أن يعتمد هذا على حجم مجموعة البيانات ، وتعقيد النموذج ودقة الإجابة المطلوبة. تعتبر القيمة الافتراضية 10000000 تعسفية تمامًا ويجب تعديلها وفقًا لحجم مجموعة البيانات الخاصة بك. سنرى لاحقًا كيف يمكن تحليل ملف السجل الناتج باستخدام Tracer لفحص ما إذا كان طول سلسلة معين مناسبًا أم لا.

يحدد الخياران التاليان عدد المرات التي يجب فيها عرض قيم المعلمات الحالية على الشاشة وتسجيلها في ملف السجل. إخراج الشاشة هو ببساطة لمراقبة تقدم البرنامج بحيث يمكن ضبطه على أي قيمة (على الرغم من أنه إذا تم تعيينه صغيرًا جدًا ، فإن الكمية الهائلة من المعلومات التي يتم عرضها على الشاشة ستؤدي إلى إبطاء البرنامج). بالنسبة لملف السجل ، يجب تعيين القيمة بالنسبة إلى الطول الإجمالي للسلسلة. سيؤدي أخذ العينات في كثير من الأحيان إلى ملفات كبيرة جدًا مع القليل من الفوائد الإضافية من حيث دقة التقديرات. العينة نادرًا جدًا ولن يحتوي ملف السجل على الكثير من المعلومات حول توزيعات المعلمات. ربما تريد ألا تهدف إلى تخزين أكثر من 10000 عينة ، لذا يجب تعيين هذا على شيء & gt = طول السلسلة / 10000.

بالنسبة لمجموعة البيانات هذه ، دعنا نضبط طول السلسلة مبدئيًا على 100000 حيث سيعمل هذا بسرعة معقولة على معظم أجهزة الكمبيوتر الحديثة. على الرغم من أن الاقتراح أعلاه يشير إلى تردد أقل لأخذ العينات ، في هذه الحالة ، قم بتعيين كل من ترددات أخذ العينات على 100.

يسمح الخيار التالي للمستخدم بتعيين اسم ملف الجذع إذا لم يتم تعيينه على "YFV" افتراضيًا ، يمكنك كتابة هذا هنا (أو إضافة مزيد من التفاصيل حول التحليل). يعطي الخياران التاليان أسماء ملفات ملفات السجل للمعلمات والأشجار. سيتم تعيين هذه على افتراضي بناءً على اسم الملف الجذعي.

يمكن ترك الخيارات المتبقية غير محددة هذه المرة. يتوفر خيار لأخذ عينات من السابق فقط ، والذي يمكن أن يكون مفيدًا لتقييم مدى تباين تقديراتنا اللاحقة عندما يتم استخلاص المعلومات من البيانات. أيضًا ، يمكن للمرء أن يختار إجراء تقدير احتمالية هامشية لتقييم ملاءمة النموذج وسنعود إلى هذا في برنامج تعليمي لاحق.

حفظ وتحميل ملفات BEAUti

إذا حددت خيار حفظ من قائمة ملف ، فسيؤدي ذلك إلى حفظ مستند بتنسيق BEAUti الخاص. لاحظ أن هذا ليس بالتنسيق الذي يفهمه BEAST - لا يمكن إعادة فتحه إلا بواسطة BEAUti. الفكرة هي أنه يمكن حفظ الإعدادات والبيانات في BEAUti وتحميلها في وقت لاحق. نقترح عليك حفظ ملفات BEAUti بالملحق ".beauti".


التقدير الهرمي للمعلمات في شبكات بايز ☆

تم تقديم نهج جديد لتقدير المعلمات في شبكات بايزي. الفكرة الرئيسية هي تقديم مفرط مسبق في Multinomial – Dirichletmodel ، والذي يستخدم تقليديا لتقدير التوزيع الشرطي في شبكات Bayesian. يقدر النموذج الهرمي الناتج بشكل مشترك التوزيعات الشرطية المختلفة التي تنتمي إلى نفس جدول الاحتمال الشرطي ، وبالتالي استعارة القوة الإحصائية من بعضهما البعض. يتم إجراء دراسة تحليلية لهيكل الاعتماد المسبق بواسطة النموذج الهرمي و مخصصة تم اشتقاق خوارزمية متغيرة للاستدلال السريع والدقيق. ينتج عن النموذج الهرمي المقترح تحسن كبير في الأداء في التصنيف باستخدام شبكات بايز مقارنة بالنماذج التقليدية. تقلل الخوارزمية التغييرية المقترحة بمقدار أمرين من حيث الحجم الوقت الحسابي ، بنفس الدقة في تقدير المعلمات ، مقارنة بأساليب MCMC التقليدية. علاوة على ذلك ، وبدافع من دراسة حالة حقيقية ، يتم تطبيق النموذج الهرمي لتقدير معلمات شبكات بايز بواسطة قوة الاقتراض من المجالات ذات الصلة.


3 نتائج

3.1 العينات المتزامنة

تتكون مجموعة البيانات من 62 نوعًا من الحيوانات آكلة اللحوم من جين واحد (ND5) نقسمه وفقًا لموضع الكودون. نفترض أن كل قسم يتطور بمعدل نسبي مختلف ووفقًا لنموذج HKY المستقل (Hasegawa وآخرون.، 1985) ، مع اختلاف المعدل بين المواقع في كل قسم على غرار توزيع غاما المنفصل مع 4 فئات معدل (يانغ ، 1996). جنبًا إلى جنب مع عملية Yule السابقة (Yule ، 1924) على الشجرة ، فإن هذا يصل إلى 10 معلمات يتم تقديرها بالإضافة إلى نسالة: ثلاث نسب انتقال / تحويل (κ1، κ2، κ3 ) - تحويل سجل ، ثلاث معلمات شكل لنمذجة معدلات متغيرة عبر المواقع (α1، α2، α3 ) - سجل - تحويل ، ثلاثة معدلات نسبية (μ1، μ2، μ3 ) - اللوغاريتم المتدرج - المحول ، ومعدل المواليد & # x003c8 - سجل - تم تحويله - لعملية Yule السابقة.

يتمثل الأسلوب الافتراضي في BEAST في استخدام نواة انتقالية على نطاق واسع أو عشوائي ، 1 في كل معلمة ، والتي نقارنها هنا بـ 1 نواة انتقال AVMVN تقترح في نفس الوقت قيمًا جديدة لجميع المعلمات العشرة. أوزان نواة الانتقال الافتراضية لـ μ1، μ2، μ3 و & # x003ba3 تم تعيينها عند 6 و 3 ، على التوالي ، مع تعيين أوزان نواة الانتقال غير الشجرية المتبقية عند 2 (انظر المواد والطرق) ، تم الاحتفاظ بأوزان نواة انتقال الشجرة بقيمها الأصلية في وقت الكتابة (اعتبارًا من BEAST v1.2). 8.4 تم تغيير الأوزان الافتراضية لنواة الانتقال). هذا يؤدي إلى وزن مجمع يبلغ 21 لنواة انتقال AVMVN ونواة انتقال الشجرة وأوزانها تم الاحتفاظ بها على الإعدادات الافتراضية. بالنسبة لنواة انتقال AVMVN ، ج0 تم تعيينه على 1.000 ، مع ن0 تعيين عند 500 ، مما يؤدي إلى أداء أفضل قليلاً مقارنة بما نعتبره القيم الافتراضية لمجموعات البيانات التي تحتوي على كمية منخفضة نسبيًا من المعلمات ( ج0 = 5.000 و ن0 = 2.500 ).

نقوم بتقييم أداء المجموعات المختلفة من نوى الانتقال لمجموعة بيانات الحيوانات آكلة اللحوم (الشكل 1) على أنظمة وحدة المعالجة المركزية متعددة النواة المختلفة عبر خمسة مكررات مستقلة. نقيس الأداء ضمن مجموعتي نواة الانتقال عن طريق حساب إجمالي ESS في الدقيقة لجميع المعلمات ذات الأهمية. في حين أن منصة Haswell الأحدث لديها سرعة تنفيذ أكبر بكثير من منصة Westmere ، والتي يمكن أن تُعزى إلى عرض النطاق الترددي العالي للذاكرة ، فإن مكاسب الأداء الملحوظة متشابهة جدًا عبر كلا النظامين الأساسيين. نلاحظ زيادة كبيرة ولكن متفاوتة في الأداء باستخدام نواة الانتقال العادية متعددة المتغيرات ، والتي تؤدي قدرًا متساويًا من عمليات التحديث على جميع المعلمات ، عبر نواة الانتقال الافتراضية. يوضح هذا بالفعل قوة نهجنا ، ولكن يمكن زيادة أداء نواة انتقال AVMVN المقترحة باستخدام خوارزمية موازنة التحميل الخاصة بنا ، والتي تحدد الكمية المثلى من نوى المعالج لتشغيل التحليل. تنتج هذه الخوارزمية أداءً مشابهًا على كلا النظامين ، حيث تولد في المتوسط ​​5 و 6 أقسام / خيوط إضافية ، على أنظمة Haswell و Westmere على التوالي ، مما ينتج عنه عمليات تشغيل بمجموع 8 و 9 أقسام / خيوط في المتوسط.

مقارنة الأداء على مجموعة بيانات جينية آكلة اللحوم ، مقسمة وفقًا لموضع الكودون ، عبر خمسة مكررات تقاس على أنظمة Xeon ذات 24 نواة و 40 نواة. على الرغم من أن نظام وحدة المعالجة المركزية 24 نواة مزود بعدد نوى معالج أقل من نظام وحدة المعالجة المركزية 40 نواة ، إلا أنه يتمتع بتردد أقصى للمعالج أسرع ويأتي مزودًا بذاكرة أسرع بكثير ، مما يفسر الاختلاف في الأداء كما تم قياسه في ESS لكل وحدة زمنية. تتم مقارنة خلط جميع المعلمات ذات الأهمية باستخدام نواة انتقال BEAST الافتراضية ، ونواة انتقال AVMVN المقترحة ونواة انتقال AVMVN المقترحة لدينا والتي تستفيد من نهج موازنة التحميل الخاص بنا لمزيد من استغلال التوازي متعدد النواة (AVMVN & # x02009 + & # x02009LB). تعيّن جميع مخططات التحديث توزيعًا متساويًا للوزن بين تحديث المعلمات المستمرة وتحديث الشجرة. ينتج عن نواة الانتقال AVMVN ، المجهزة بنهج موازنة التحميل الخاص بنا ، زيادة في الأداء مقارنة بنواة انتقال BEAST الافتراضية بين 171 و 424٪ ، مقاسة بـ ESS / دقيقة ، على نظام وحدة المعالجة المركزية 24 نواة وبين 221 و 520٪ ، تقاس بـ ESS / دقيقة ، على نظام وحدة المعالجة المركزية 40 نواة

نلاحظ أقل زيادة في الأداء لمعلمة معدل المواليد لعملية Yule (& # x003c8) ، مما يشير إلى أن هذا هو التقدير الأكثر صعوبة. يمكن تحسين الخلط عن طريق تحديد نواة انتقالية منفصلة على معامل معدل الولادة ، مع معامل الضبط الخاص بها وربما زيادة الوزن. ومع ذلك ، فإن متابعة ذلك يتجاوز نطاق هدفنا لمقارنة أداء نواة الانتقال الافتراضية ونواة الانتقال متعددة المتغيرات الخاصة بنا.

3.2 العينات غير المتجانسة

تتكون مجموعة بيانات فيروس إيبولا 633-taxa من منطقة تشفير كبيرة ، والتي نقسمها وفقًا لموقع الكود ، ومنطقة غير مشفرة. نفترض مرة أخرى أن كل قسم يتطور وفقًا لنموذج HKY (Hasegawa وآخرون.، 1985) ، بفرض توزيع غاما منفصل مع 4 فئات معدل (يانغ ، 1996) على كل قسم ، والسماح لمواضع الكودون بالتطور بمعدلات (نسبية) مختلفة وتفترض ساعة جزيئية صارمة. جنبًا إلى جنب مع تحديد نمو أسي مترابط مسبقًا على الشجرة ، يؤدي هذا إلى تقدير 15 معلمة: أربعة نسب انتقال / تحويل (κ1، κ2، κ3، κ4 ) - تحويل سجل ، أربع معلمات شكل لنمذجة معدلات متغيرة عبر المواقع (α1، α2، α3، α4 ) - تحويل سجل ، أربعة معدلات نسبية (μ1، μ2، μ3، μ4 ) - لوغاريتم قياسى - محوّل ، معدل الساعة الصارم & # x003b3 - اللوغاريتمات المحولة ، وحجم السكان الفعال ϕ - اللوغاريتمات المحولة - ومعدل النمو الأسي & # x003c1 في الاندماج السابق.

لتحقيق أقصى أداء لمجموعة البيانات هذه ، استخدمنا نواة انتقال AVMVN مختلفة على مجموعتين منفصلتين من المعلمات. أوزان نواة الانتقال الافتراضية لـ α1، α2، α3، α4 تم زيادتها إلى 3 ، بينما تم الاحتفاظ بأوزان نواة الانتقال الأخرى بقيمها الافتراضية ، أي 3 لعملية التحديث المشتركة على μ1، μ2، μ3، μ4 ، 1 لكل من κأنا, أنا ∈ 1… 4 و 30 لمعدل الساعة & # x003b3وحجم السكان ϕ ومعدل النمو الأسي & # x003c1 في الاندماج السابق. تم الاحتفاظ بأوزان حبات الانتقال الشجري بقيمها الأصلية في وقت كتابة هذا التقرير.

أول نواة انتقالية AVMVN لدينا تعمل على كلا المعلمتين لنموذج التوحيد للنمو الأسي بوزن 60 ، وهو الوزن المجمع لنواة الانتقال الافتراضية. نحن قادرون على زيادة أداء kernel & # x02019s من خلال الإعداد ج0 إلى 2.000 و ن0 = 1.000 ، على الرغم من أن الإعدادات الافتراضية المقترحة (من ج0 = 5.000 و ن0 = 2.500) قدم أداءً مشابهًا تقريبًا من حيث ESS لكل وحدة زمنية. تعمل نواة انتقال AVMVN الثانية الخاصة بنا على المعلمات المتبقية باستخدام إعداداتها الافتراضية (من ج0 = 5.000 و ن0 = 2.500) ، بما في ذلك معدل الساعة (الذي يؤدي التغيير المقترح أيضًا إلى إعادة حساب كامل لجميع احتمالات البيانات الملحوظة) ، مرة أخرى مع تعيين وزن لمجموع أوزان نواة الانتقال الافتراضية على هذه المعلمات. يعد استخدام نواتين انتقاليين منفصلين اختيارًا معقولًا نظرًا لأن تقييم كثافة التوحيد يستغرق جزءًا صغيرًا فقط من الوقت المطلوب لحساب أي من احتمالات البيانات المرصودة. علاوة على ذلك ، يسمح هذا بتعيين أوزان مختلفة لنواة انتقال AVMVN وتحسين معلمة ضبط مختلفة.

يظهر في الشكل 2 مقارنة الأداء بين نواة الانتقال لمجموعة بيانات فيروس الإيبولا على أنظمة خادم وحدة المعالجة المركزية المختلفة عبر خمسة مكررات مستقلة. نظرًا لوجود حجم مجموعة بيانات أكبر بكثير مقارنة بمجموعة بيانات آكلات اللحوم ، فإننا نقيس الأداء في كلا السيناريوهين عن طريق حساب إجمالي ESS لكل ساعة لجميع المعلمات ذات الأهمية. تتشابه مكاسب الأداء المرصودة مرة أخرى عبر كلا النظامين ، ولكن يتم تحقيق مكاسب أكبر في الأداء على نظام Westmere المكون من 40 نواة مقارنة بمنصة Haswell ذات 24 نواة الأحدث. تُترجم سرعة التنفيذ الأبطأ للأولى إلى أقسام / خيوط إضافية يتم إنشاؤها بواسطة خوارزمية موازنة التحميل ، حيث يتم تبادل المعلومات بين الخيوط بشكل أقل تكرارًا ، مما يسمح بفترات زمنية أطول يمكن خلالها للخيوط المختلفة إجراء عمليات حسابية متزامنة. تنشئ خوارزمية موازنة الحمل في المتوسط ​​ثلاثة أقسام / خيوط إضافية أعلى الأقسام / الخيوط الأربعة الأولية في نظام Haswell وفي المتوسط ​​ستة أقسام / خيوط إضافية أعلى الأقسام / الخيوط الأربعة الأولية في نظام Westmere ، والتي تبلغ قيمتها إلى ما مجموعه 7 و 10 أقسام / خيوط في المتوسط.

مقارنة الأداء على مجموعة بيانات جينوم كاملة لفيروس إيبولا ، مقسمة وفقًا لموضع الكودون ، عبر خمس مكررات تم قياسها على أنظمة Xeon ذات 24 نواة و 40 نواة. تتم مقارنة خلط جميع المعلمات ذات الأهمية بين نواة انتقال BEAST الافتراضية ونواة انتقال AVMVN ونواة انتقال AVMVN التي تستفيد من نهج موازنة التحميل لمزيد من استغلال التوازي متعدد النواة (AVMVN & # x02009 + & # x02009LB). تعيّن جميع مخططات التحديث توزيعًا متساويًا للوزن بين تحديث المعلمات المستمرة وتحديث الشجرة. بالنسبة إلى نواة انتقال BEAST الافتراضية ، فإن أداء نواة انتقال AVMVN ، المجهزة بنهج موازنة الحمل الخاص بنا ، يزيد بنسبة تتراوح بين 76٪ و 1057٪ ، مُقاسة بـ ESS / دقيقة ، على نظام وحدة المعالجة المركزية 24 نواة وبين 134 و 1452٪ (ل & # x003bc4، المعدل النسبي للقسم غير المشفر) ، المقاس بـ ESS / ساعة ، على نظام وحدة المعالجة المركزية 40 نواة

باستثناء تلك المعلمات المرتبطة مباشرة بتقدير شجرة الاندماج ، أي معدل الساعة وحجم السكان ومعدل النمو الأسي ، يمكن رؤية زيادة كبيرة في أداء نواة انتقال AVMVN عبر نواة الانتقال الافتراضية في الشكل 2. في حين أننا نلاحظ زيادة في الأداء بمقدار 2 إلى 3 أضعاف لمعدل الساعة وحجم السكان ومعلمات معدل النمو الأسي ، فإن أداءهم يتخلف بشكل واضح عن أداء المعلمات الأخرى. لا يؤدي تغيير الأوزان النسبية لكل من نواة انتقال AVMVN إلى أي مكاسب إضافية في الأداء ، كما لا يؤدي ضبط إعدادات النواة & # x02019.


المواد التكميلية

يرجى ملاحظة ما يلي: مجلة إدارة الأسماك والحياة البرية ليست مسؤولة عن محتوى أو وظائف أي مواد تكميلية. يجب توجيه الاستفسارات إلى المؤلف المقابل للمقال.

نص S1. إعدادات كود Stan و R والبرامج وسلسلة Markov Monte Carlo (MCMC) لحساب عامل Bayes. نعرض الكود والإعدادات لتقدير ومقارنة نموذج نمو فون برتالانفي وجومبيرتز لسمك السلور الأزرق Ictalurus furcatus من Wilson Reservoir on the Tennessee River in Alabama تم جمعها بين عامي 2004 و 2006 ، كما نناقش في المخطوطة.

نص S2. إعدادات كود Stan و R والبرامج وسلسلة Markov Monte Carlo (MCMC) لحساب معيار معلومات Watanabe-Akaike (WAIC). نعرض الكود والإعدادات لمقارنة منحنيات التوظيف الخطية ، و Ricker ، و Beverton-Holt ، و Cushing ، و Shepherd في Atlantic Salmon سالمو سالار من نهر مارجاري ، كندا ، تم جمعها بين عامي 1961 و 2008 ، كما نناقش في المخطوطة.

نص S3. إعدادات كود Stan و R والبرامج وسلسلة Markov Monte Carlo (MCMC) لحساب التحقق المتبادل (LOO). نعرض الكود والإعدادات المستخدمة لمقارنة منحنيات الاستجابة الوظيفية من النوع الأول والنوع الثاني والنوع الثالث لـ Largemouth Bass Micropterus salmoidesسمكة السلور Sharptooth كلارياس غاريبينوس، كيب كوربر Sandelia capensis، ونهر جوبي جلوسوجوبيوس كاليدوسكما نناقش في المخطوطة.


شاهد الفيديو: BIOL 6330 Unit 1 8 2 Bayesian Analysis and Markov Chain Monte Carlo (كانون الثاني 2022).