معلومة

ما الذي يمكنني البحث عنه لأطروحة حول تخزين بيانات الحمض النووي من الرياضيات؟


أنا باحث في الرياضيات ، لقد انتهيت للتو من الحصول على درجة الماجستير في رموز تصحيح الأخطاء. لقد شاهدت مؤخرًا عرضًا تقديميًا عن تخزين البيانات المستندة إلى الحمض النووي الذي أحببته.

أرغب في مواصلة دراستي في (الرياضيات التطبيقية) في هذا الموضوع.

تلقيت عرضًا لدرجة الدكتوراه وعندما ذكرت الموضوع ، كان المدير المحتمل متقبلًا ، لكنه لم يكن على دراية جيدة بالموضوع أيضًا ، لذلك اقترح أن أتوصل إلى مسار بحثي ...

ما رأيك في موضوع بحث مثير للاهتمام (ويستحق المجتمع) حول تخزين بيانات الحمض النووي من منظور أكواد تصحيح الأخطاء؟

شكرا للمساعدة!


أفضل 50 موضوعًا بحثيًا في علم الوراثة للأوراق الأكاديمية

تتم دراسة علم الوراثة عبر مستويات مختلفة من نظام التعليم في المرافق الأكاديمية في جميع أنحاء العالم. إنه تخصص أكاديمي يسعى إلى شرح آلية الوراثة والجينات في الكائنات الحية. اكتشفت لأول مرة في خمسينيات القرن التاسع عشر ، وقد قطعت دراسة علم الوراثة شوطًا طويلاً ، وتلعب دورًا هائلاً في حياتنا اليومية. لذلك ، عندما يتم تكليفك بورقة بحث في علم الوراثة ، يجب عليك اختيار موضوع لا يثير اهتمامك فحسب ، بل موضوعًا تفهمه جيدًا.


حفظ البحث

ايمي ماكسمين
1 أغسطس 2013

& نسخ DRAFTER123 / ISTOCKPHOTO.COM طالب دراسات عليا في قسم الأحياء العضوية والتطورية بجامعة هارفارد في أوائل العقد الأول من القرن الحادي والعشرين ، أردت أن أشارك علنًا جميع الأبحاث التي دخلت في أطروحة الدكتوراه الخاصة بي من أجل المساهمة في المجموعة الصغيرة من المؤلفات العلمية حول مجموعة غير معروفة من المفصليات البحرية التي درستها عناكب البحر. ومع ذلك ، بعد أن نشرت بعض التقارير ونجحت في الدفاع عن درجة الدكتوراه ، فإن سعيي لتقديم الفصل الأخير من رسالتي إلى مجلة تم حلها بسبب المصاريف والوقت المستغرق. ومع ذلك ، في المناسبات النادرة التي طلب فيها الباحثون رؤيتها ، شعرت بالأسف لأنها تراجعت على رف كتبي. على الرغم من أن الفصل بعيد كل البعد عن تحطيم الأرض ، إلا أنه قد يوفر نقطة انطلاق لعالم أحياء آخر.

& ldquo هناك حاجة لتوصيل العلم بشكل أسرع إلى الباحثين الآخرين والجمهور ، لذلك من خلال وضع المخطوطات على الإنترنت في أماكن مثل [ما قبل الطباعة.

لحسن الحظ ، أصبحت المشاركة أرخص وأسرع الآن بعد أن ازدهرت مجموعات الوصول المفتوح للبيولوجيا عبر الإنترنت حيث يدرك الباحثون فوائد تحميل تقارير غير منشورة عن النتائج السلبية والملاحظات وتطبيقات المنح وملاحظات البروتوكول ونعم ، أطروحاتهم غير المنشورة على الويب من أجل على الآخرين الإطلاع عليها. في كانون الثاني (يناير) ، قمت أخيرًا بتحميل فصلي من أطروحة حول تحول عنكبوت البحر على عدة مواقع. في غضون 3 أسابيع ، أرسل لي أحد علماء الحيوان من ألمانيا عبر البريد الإلكتروني ليسألني عن كيفية الاستشهاد به وما إذا كنت لا أزال أتابع هذا المسار من الدراسة.

بالإضافة إلى ذلك ، قد تساهم التحميلات غير المنشورة بشكل مباشر في الحياة المهنية للفرد. هذا العام ، أعلنت مؤسسة العلوم الوطنية أن مراجعي المنح سيلاحظون "المنتجات" التي يسهل الوصول إليها بالإضافة إلى المنشورات. نظرًا لأن المستودعات عبر الإنترنت تمنح التقارير غير المنشورة معرف كائن رقمي ، أو DOI ، يمكن الإشارة إليه في الاقتباس ، فقد تؤدي هذه التحميلات الآن إلى تحسين سمعة العالم.

عادة ما يكون التقديم مجانيًا وبسيطًا نسبيًا. ومع ذلك ، يظل تقرير مدى سهولة قراءته واستخدامه وإمكانية العثور عليه للآخرين أمرًا متروكًا لك. من أجل استكشاف كيفية عمل العديد من المستودعات عبر الإنترنت ، قمت بتحميل فصل أطروحة كاختبار ، وتحدثت مع الخبراء الذين تحولوا إلى الويب لأسباب مماثلة.

هل تفكر في تحميل مخطوطة؟

يسرد الباحثون أسبابًا مختلفة لتحميل المواد غير المنشورة: للحصول على تعليقات على ورقة قبل تقديمها لمساعدة الآخرين على معرفة سبب قبول المنحة أو رفضها بحيث لا يحتاجون إلى تكرار نفس الأخطاء لوضع طابع زمني على بياناتهم أو أفكارهم لمشاركة الملاحظات. والبروتوكولات التي يمكن أن تكون مفيدة للعلماء الآخرين ونشر الأفلام والبيانات الأخرى بتنسيقات لا تستطيع معظم المجلات التعامل معها. إليك بعض النصائح لتحقيق أقصى استفادة من منشورك.

اختر كلماتك بحكمة
تنتقي محركات البحث عنوان وملخص التقارير التي تم تحميلها. لذلك ، من المهم التفكير في صياغتك. "من اللطيف أن يكون لديك عنوان مثل"أكون أو لا أكون"، يقول الفيزيائي بول جينسبارج ، مؤسس أول خادم رئيسي لما قبل الطباعة ، arXiv. "ولكن نظرًا لأن ذلك لا ينقل المحتوى الأساسي ، فسوف يفوته جمهورك المستهدف." أثنى Ginsparg على العنوان الذي اخترته لفصل الأطروحة الذي قمت بتحميله إلى arXiv ، "تطوير عنكبوت البحر: كيف ينضج Anoplodactylus eroticus من حورية طافية إلى بالغ راسخ." ويقول إنها تتضمن كلمات قد يستخدمها غير المتخصصين في Google بالإضافة إلى مصطلحات تقنية مثل "حورية" و "تشفير" قد يستخدمها الباحثون في هذا المجال للبحث عن الورقة. بالإضافة إلى ذلك ، ينصح Ginsparg الباحثين بإرفاق الكثير من البيانات الوصفية ، مثل الكلمات الرئيسية التي تتراوح من العام إلى الخاص ، لكل تحميل.

تحقق من الترخيص
قبل الضغط على زر الإرسال في مستودع معين ، اقرأ معلومات الترخيص الخاصة به بعناية. تقدم العديد من المستودعات الآن تراخيص المشاع الإبداعي (CC). النوع الأكثر شيوعًا ، "CC BY" ، يسمح لأي شخص بقراءة وتوزيع الورقة طالما أنها تعطي الإقرار المناسب للمؤلف. بهذه الطريقة ، لا داعي للقلق بشأن الانتهاك لأي شخص يرغب في نشر المحتوى على ويكيبيديا أو موقع ويب آخر ، طالما أنه يشير إلى المؤلف. تضيف فئة فرعية من ترخيص المشاع الإبداعي ، "CC BY-NC" ، البند الذي ينص على أنه لا يمكن للآخرين توزيع التقرير لأغراض تجارية. إذا كان المؤلف ينوي أيضًا إرسال التقرير إلى مجلة تمت مراجعتها من قِبل الزملاء ، فإن هذا الخيار أفضل ، حيث تميل المجلات إلى الحصول على الحق الحصري في توزيع المقالة لأغراض تجارية.

ضغط الملفات الضخمة وإلحاق البيانات الأولية
تتباهى بعض المستودعات بأنها توفر حجم تحميل غير محدود ، لكن هذا قد لا يكون نعمة. إذا تمكنت من تحميل ملف ضخم قبل انتهاء مهلة الخادم ، فقد يتسبب التقرير في ضعف أداء المتصفح وقد لا يتمكن القراء من تنزيل الملف بدون اتصال عالي السرعة. لهذا السبب ، يوصي Ginsparg بأن يقوم الباحثون بضغط الأرقام في ملف PDF واحد ، ولكن أيضًا تحميل ملف منفصل بتنسيق يحافظ على البيانات الأولية.

اختيار مضيف

تم إطلاق arXiv (1991)
بول جينسبارج ، ARXIV.ORG نشر علماء الفيزياء النظرية تقارير غير منشورة على arXiv.org لأكثر من عقد ، ومؤخراً ، يقوم عدد متزايد من علماء الأحياء بذلك أيضًا. (انظر الرسم البياني في هذه الصفحة.)

العنوان الفرعي لعلم الأحياء ، "علم الأحياء الكمي" هو عنوان فضفاض ، مع مواضيع تتراوح من السرطان إلى علم التخلق.

عدد التقارير التي تم تحميلها: حوالي 860.000 تقرير من مجموعة متنوعة من التخصصات العلمية

عدد التقارير المتعلقة بالنقل البيولوجي: تم تسجيل 7200 ضمن فئة البيولوجيا الكمية

كلفة: التحميلات مجانية. اعتبارًا من عام 2001 ، يتم استضافة الموقع والتعامل معه من قبل مكتبة جامعة كورنيل في إيثاكا ، نيويورك.

تقديم: يمكن لأي شخص تحميل تقرير ، بشرط أن يكون لديك منظمة أو انتماء مؤسسي.

إمكانية البحث: يقوم محرك بحث arXiv المحلي بفهرسة اسم المؤلف والكلمات الرئيسية والكلمات الموجودة في العنوان والملخص. كما يقوم بتمشيط نص ملف PDF (تنسيق مقترح وشائع للتحميلات) ، ولكن بشكل أقل دقة.

طليعة: سمعة. مع مليوني عملية تنزيل أسبوعيًا ، تكتشف Google ومحركات البحث الأخرى الأوراق الموجودة على arXiv بسرعة ، ويتعرف معظم الباحثين على الفور على موقع الويب باعتباره الدعامة الأساسية في النشر عبر الإنترنت.

يخدع: سهولة الاستخدام. لا توجد ميزة تعليق ، لذلك إذا أراد باحث آخر نقد العمل ، فعليه إرسال بريد إلكتروني. أيضًا ، فإن معظم تحميلات علم الأحياء الكمي تكون بتنسيق PDF ، كما يقترح arXiv. على هذا النحو ، لا يمكن للباحثين تحديث البيانات داخل تقرير تم ضغطه.


تينشارك (تم إطلاقه عام 2011)
ازدهر استخدام figshare بعد أن أوصت Nature بالموقع كبديل عندما توقفوا عن قبول الطلبات المقدمة إلى Nature Precedings ، وهي مجلة ما قبل الطباعة على الإنترنت (figshare هي شركة شقيقة لمجموعة Nature Publishing Group). يتضمن محتوى Figshare بيانات تكميلية مرتبطة بالأبحاث المنشورة ، بالإضافة إلى مجموعات البيانات والتقارير غير المنشورة ، والعروض التقديمية للمؤتمرات ، والمزيد.

عدد التحميلات: مئات الآلاف ، لكن الكثير منها عبارة عن بيانات تكميلية مرتبطة بالمخطوطات التي راجعها النظراء

عدد المستخدمين المسجلين: الآلاف من المستخدمين النشطين ، في المقام الأول في علوم الحياة

كلفة: بشكل عام مجاني. يخطط الموقع للحفاظ على نفسه من خلال العمل مع الناشرين ، مثل F1000Research و PLOS ، الذين يدفعون مقابل خدمات figshare للمساعدة في المحتوى المرئي الذي لا تستطيع تلك المجلات التعامل معه بسهولة.

تقديم: كل تحميل مجاني ويقتصر على 250 ميجابايت ، ويمكن للمستخدمين تحميل أي عدد من المشاريع كما يحلو لهم ، طالما أن التحميلات عامة. الخصوصية ، أو الخصوصية الجزئية مع حفنة من المتعاونين المختارين ، هي أيضًا خيار ، ومع ذلك ، فهي تقصر الباحثين على 1 غيغابايت إجمالاً. إذا كان هناك طلب على مساحة غير محدودة ، يقول المؤسس Mark Hahnel إنه يمكنه إنشاء حسابات مميزة مقابل رسوم رمزية.

طليعة: سهولة الاستخدام. يتميز Figshare بواجهة مستخدم سهلة الاستخدام. بالإضافة إلى ذلك ، بذل Hahnel جهدًا خاصًا في كيفية عرض بيانات الفيديو وغيرها من التنسيقات غير التقليدية بسبب إحباطه لأنه لم يتمكن بسهولة من مشاركة مقاطع الفيديو الخاصة به عن ديناميكيات الخلية. أخيرًا ، تشجع Figshare التعليقات من خلال تسهيل ترك التعليقات أسفل المخطوطة كما هو الحال على YouTube أو لوحة المناقشة.

يخدع: شباب. كموقع حديث نسبيًا للبيانات العلمية ، والمطبوعات المسبقة ، والأوراق المنشورة ، لم تثبت فيجشير بعد قدرتها على البقاء.


ResearchGate (تم إطلاقه عام 2008)
التجميع على جميع المستويات: ركز عملي في التخرج على تطور المفصليات ، باستخدام عناكب البحر كنموذج. تم جمع بعض عناكب البحر من الصخور على طول ساحل المحيط الهادئ لليابان. تُظهر صورة المجهر متحد البؤر (إدراج) الجهاز العصبي لعنكبوت البحر اليافع موصول بعلامة فلورية ومشفرة بالألوان للإشارة إلى العمق. كان هدفي في تحميل الفصل الأخير من رسالة الدكتوراه الخاصة بي هو مشاركة المزيد من بياناتي مع علماء آخرين. تركز مجاملة إيمي ماكس مين كاتسومي ميازاك ريسيرش جيت على الشبكة الأكاديمية للباحث أكثر من المواقع الأخرى. تقوم في البداية بإنشاء هذه الشبكة من خلال مطالبة المستخدم بدعوة المؤلفين المشاركين ، وتحديد موقعهم تلقائيًا عن طريق مسح البحث المنشور للمستخدم. عندما يقوم الأشخاص في شبكتك بتحميل تقارير غير منشورة ، يظهر إشعار على صفحتك الرئيسية (ما لم يطلب المؤلفون الخصوصية). يتكون معظم المحتوى الموجود حاليًا على ResearchGate من مواد منشورة تمت مراجعتها من قِبل النظراء ومنشورات ذات صلة بالعلوم ، ومع ذلك ، قام الشريك المؤسس Ijad Madisch بتوسيع قاعدة البيانات في ديسمبر 2012 لتشمل المشاركات غير الخاضعة لمراجعة الأقران. جزئيًا ، أجرى ماديش التغيير لأن "80 بالمائة من التجارب التي جربتها لم تنجح ، ولم أشارك أبدًا تلك النتائج السلبية" ، كما يقول. "كنت متأكدًا من أن شخصًا آخر قد ارتكب نفس الأخطاء ، وأردت أن أتمكن من العثور عليها."

عدد الوظائف المتعلقة بالبيولوجيا: أكثر من 100000 تحميل غير خاضع لمراجعة الأقران ، بما في ذلك العديد من مجموعات البيانات

عدد المستخدمين المسجلين: اعتبارًا من منتصف يوليو ، سجل ما يقرب من 630.000 عالم أحياء في ResearchGate.

تقديم: يقوم المستخدمون بتسجيل الدخول باستخدام بريد إلكتروني مرفق بمؤسسة أكاديمية.

إمكانية البحث: نظرًا لأن ResearchGate يجمع بسلاسة مجموعة كبيرة من الأبحاث المنشورة ، فإن البحث عن موضوع "sea spider" ، على سبيل المثال ، يعرض مكتبة من المعلومات ، والمعلومات المنشورة وغير المنشورة على حدٍ سواء.

كلفة: التحميلات مجانية. يمكن للشركات والمؤسسات نشر إعلانات الوظائف على الموقع مقابل رسوم.

طليعة: سهولة الاستخدام. يحصل المستخدمون على درجة بناءً على عدد المنشورات في المجلات التي يراجعها الأقران وعامل تأثير المجلات ، بالإضافة إلى درجة "RG" بناءً على مشاركتهم في الموقع. يمكن تقديم هذه الدرجة كجزء من طلب المنحة ، على الرغم من أن قيمة تأثيرها لا يزال يتعين رؤيتها. أيضا ، ردود الفعل اجتماعية. يمكن للقراء إرسال أسئلة حول تقرير إلى منتدى يراه جميع المستخدمين.

يخدع: الشبكات. قد يكره بعض الباحثين مشاركة استعلامهم حول تقرير ما بشكل علني مع منتدى ، وقد يتم إيقافه بطلبات من ResearchGate لدعوة الزملاء ، أو عن طريق الصفحة الرئيسية التي تشبه Facebook مع تدفق مستمر من التحديثات من علماء آخرين.

المستودعات المؤسسية (عبر الإنترنت بداية في أوائل التسعينيات)

حفظ البيانات: خلال بحثي ، جمعت عددًا كبيرًا من الصور المجهرية وتسلسلات الحمض النووي وغيرها من البيانات. مجاملة إيمي ماكسمين تشجع معظم الجامعات باحثيها على تقديم أطروحاتهم ومخطوطاتهم المنشورة إلى مستودعاتهم. يسمح المستودع الرقمي المسمى DASH (الوصول الرقمي إلى المنحة الدراسية بجامعة هارفارد) في جامعتي ، جامعة هارفارد ، أيضًا بتقديم تقارير غير منشورة ، لكن ستيوارت شيبر ، المؤسس والمدير السابق لمكتب هارفارد للاتصالات العلمية ، يقول إن الباحثين نادرًا ما يستخدمون لهذه الوظيفة. تستند مراجعتي لهذه المستودعات على DASH ، لكن قدرات المؤسسات المختلفة تختلف.

عدد التقارير عن داش: 12309. يتم نشر معظم التقارير من مجموعة متنوعة من المجالات. يتم تحميل 625 أطروحة إضافية من كلية الآداب والعلوم.

إمكانية البحث: يمكن للأشخاص الذين يرغبون في العثور على تقارير حول مستودعات المؤسسات الرقمية حول العالم البحث عنها في base-search.net/.

طليعة: سمعة. نظرًا لأن العضوية تتطلب الانتماء إلى الجامعة ، فقد يشعر القراء بالاطمئنان إلى أن البحث مستمد من مصدر مؤهل. في حين أن المنصات الأحدث قد تفقد قوتها بمرور الوقت ، فمن المرجح أن تصمد المنصات التي تستضيفها الجامعة أمام اختبار الزمن ، حتى لو ظلت غير مستغلة بشكل كافٍ.

يخدع: سهولة الاستخدام. نظرًا لأن عمليات الإرسال يتم فحصها يدويًا ، فإن فصلي لم يظهر على الإنترنت لمدة 5 أسابيع بعد أن قمت بتحميله في منتصف يناير. أيضًا ، لا يمكن للقراء ترك تعليقات أو النقر فوق زر لإرسال رسالة إلى المؤلف. أخيرًا ، شعر النظام بأنه أقل مرونة وأقل حدسية من مستودعات الإنترنت الأخرى المذكورة هنا.


متطلب علم الأحياء المتقدم

مطلوب ما لا يقل عن ثمانية عشر وحدة في دورات علم الأحياء المتقدمة المعتمدة (مرقمة 300 أو أعلى). يتم سرد الدورات التي يمكن احتسابها ضمن هذه الوحدات الـ 18 بعد Biol 2960 و Biol 2970 في قسم "دورات علم الأحياء - الائتمان الرئيسي". يجب أن تؤخذ دورة واحدة على الأقل في كل مجال من مجالات التوزيع الثلاثة (A-C) ودورة معملية متقدمة ، حيث يتم احتساب كل دورة من هذه الدورات ضمن وحدات البيولوجيا المتقدمة الـ 18 المطلوبة. يمكن احتساب ما يصل إلى 6 وحدات من Bio 500 ضمن 18 وحدة بيولوجيا متقدمة.

مطلوب ثلاثة مجالات للبيولوجيا (عروض خريف 2020 بالخط العريض):

  • المنطقة أ: بيولوجيا النبات والهندسة الوراثية (بيول 3041) علم الوراثة البشرية (بيول 324) بيولوجيا الخلية (بيول 334) جينومات حقيقيات النوى (بيول 3371) علم الأحياء الدقيقة (بيول 349) علم المناعة (بيول 424) الأمراض المعدية: التاريخ وعلم الأمراض والوقاية منها (بيول 4492) الكيمياء الحيوية العامة (بيول 451) الكيمياء الحيوية العامة 1 (بيول 4810) الكيمياء الحيوية العامة 2 (بيول 4820)
  • المجال ب: علم الغدد الصماء (بيول 3151) مبادئ في فسيولوجيا الإنسان (بيول 328) مبادئ الجهاز العصبي (بيول 3411) مقدمة في علم الأعصاب (بيول 3421) الجينات والعقول والسلوك (بيول 3422) كيف تعمل النباتات: علم وظائف الأعضاء والنمو والأيض (بيول 4023) الساعات البيولوجية (بيول 4030) علم الأحياء التطوري (بيول 4071) مبادئ تشريح الإنسان وتطوره (بيول 4580)
  • المنطقة ج: النباتات الخشبية في ميسوري (بيول 3220) داروين والخلافات التطورية (بيول 347)التطور (بيول 3501) سلوك الحيوان (بيول 370) مقدمة في علم البيئة (بيول 381) علم الوراثة السكانية والتطور الصغير (بيول 4181) التطور الكلي (بيول 4182) التطور الجزيئي (بيول 4183) إيكولوجيا المجتمع (بيول 419) علم البيئة المرضي (بيول 4195) علم البيئة السلوكية (بيول 472)

تجاوز الأخطاء

ولكن مثل جميع طرق تخزين البيانات ، فإن الحمض النووي لديه بعض أوجه القصور أيضًا. أهم عقبة مقدمة هي التكلفة. يقول هوكينز أن الأساليب الحالية مشابهة لتكلفة Apple Hard Disk 20 في عام 1980. في ذلك الوقت ، كان حوالي 20 ميغا بايت من التخزين و mdashor كمية البيانات التي تحتاج إلى استخدامها لتنزيل فيديو مدته 15 دقيقة و mdashwent مقابل 1500 دولار تقريبًا.

أبعد من ذلك ، الحمض النووي أيضًا عرضة للخطأ. تذكر القواعد النوكليوتيدية الأربعة التي تشكل سلم الحمض النووي. في المتوسط ​​، يقدم الحمض النووي حوالي خطأ واحد لكل 100 إلى 1000 نيوكليوتيد. يمكن أن تتخذ ثلاثة أشكال: الاستبدالات ، والإدراج ، والحذف.

في طفرة الاستبدال ، قد يتم تبديل حرف واحد في سلسلة من النيوكليوتيدات إلى حرف آخر. في الرسم أدناه ، يتم استبدال السيتوزين بالثيمين. تظل خيوط الحمض النووي بنفس الطول. ومع ذلك ، في عملية الإدراج أو الحذف ، يحصل الحمض النووي على قاعدة نيوكليوتيد إضافية ، أو يزيل واحدة. ولكن على عكس الأخطاء الموجودة في كود الكمبيوتر ، لا توجد مساحة متروكة خلفها حيث كانت القاعدة التي تمت إزالتها تعيش مرة واحدة ، والتي يمكن أن تصبح مشكلة بسرعة عندما تذهب لفك تشفير البيانات المخزنة في الحمض النووي.

يحب هوكينز مقارنة ذلك بالكلمات الإنجليزية: "حذف الحرف" L "يحول" العالم "إلى" كلمة ". بالإضافة إلى ذلك ، يؤدي إدخال حرف "S" إلى تحويله إلى "سيف". من الصعب قراءة "العالم" بشكل صحيح من كلمة "السيف" ليس فقط لأن السيف لا يزال كلمة إنجليزية صالحة ، ولكن لأن جميع الأحرف قد تغيرت. "

تجاوزت الأشكال الأخرى من تخزين الحمض النووي أخطاء النسخ هذه عن طريق تكرار التعليمات البرمجية للبيانات من 10 إلى 15 مرة ، ولكن هذا إهدار هائل للفضاء. في الطريقة الجديدة الموصوفة في ورقة بحث الفريق ، قاموا ببناء البيانات في الحمض النووي في شكل شبكي ، حيث تعزز كل جزء من البيانات التالي ، بحيث يحتاج إلى قراءتها مرة واحدة فقط.

لقد طوروا أيضًا خوارزمية تتغلب على أخطاء الإدراج والحذف والاستبدال في وقت واحد ، مما يجعل تخزين البيانات الرقمية المعتمد على الحمض النووي أكثر كفاءة. لهذا السبب تمكن الفريق بسهولة من وضع "ساحر أوز" على خيوط من الحمض النووي دون تكرار مجموعة القواعد A و C و T و G عدة مرات.


BIOL191 HM - ندوة علم الأحياء (تؤخذ مرتين)

معلم: طاقم عمل

تقدم: الخريف والربيع

وصف: العروض والمناقشات الشفوية حول مواضيع مختارة بما في ذلك التطورات الأخيرة. يشمل المشاركون تخصصات علم الأحياء وأعضاء هيئة التدريس والمتحدثون الزائرون. مطلوب لتخصصات البيولوجيا صغار وكبار. لا يمكن الحصول على أكثر من 2.0 ساعة معتمدة للندوات / الندوات الإدارية.

المتطلبات الأساسية: علم الأحياء بمؤسسة حمد الطبية (بما في ذلك تخصصات المفاصل) فقط.

MATH198 HM - منتدى الرياضيات للمرحلة الجامعية (يفضل أن يكون في السنة الإعدادية)

المدربون: كاسترو ، جاكوبسن ، أوريسون ، وينبورد ، زين بروكس إتش ، زين بروكس إل

تقدم: الخريف والربيع

وصف: الهدف من هذه الدورة هو تحسين قدرة الطلاب على توصيل الرياضيات ، إلى الجمهور العام والتقني. سيقوم الطلاب بتقديم مواد حول الموضوعات المخصصة وسيتم تقييم عروضهم التقديمية من قبل الطلاب وأعضاء هيئة التدريس. يعرض هذا التنسيق الطلاب في نفس الوقت لمجموعة واسعة من الموضوعات من الرياضيات الحديثة والكلاسيكية. مطلوب لجميع التخصصات الموصى بها لجميع التخصصات المشتركة في علوم الرياضيات والرياضيات وتخصصات البيولوجيا الرياضية ، عادةً في السنة الإعدادية.

MCBI199 HM - ندوة مشتركة لتخصص الأحياء الرياضية والحاسوبية

معلم: طاقم عمل

تقدم: الخريف والربيع

وصف: يجب على الطلاب المسجلين في الندوة المشتركة حضور عدد ثابت من محادثات الندوة خلال الفصل الدراسي في أي مجال (مجالات) تتعلق باهتماماتهم. قد تكون المحادثات في أي عضو في كليات كليرمونت أو أي جامعة قريبة وقد تكون في أي مجموعة واسعة من المجالات بما في ذلك علم الأحياء والرياضيات وعلوم الكمبيوتر وغيرها من تخصصات العلوم والهندسة بما في ذلك الهندسة الحيوية والعلوم المعرفية وعلم الأعصاب والفيزياء الحيوية و اللغويات. يُطلب من الطلاب المسجلين في الندوة المشتركة تقديم ملخص قصير عن كل حديث يحضرونه. لا يمكن الحصول على أكثر من 2.0 ساعة معتمدة للندوات / الندوات الإدارية.


DNA: القرص الصلب المطلق

عندما يتعلق الأمر بتخزين المعلومات ، فإن محركات الأقراص الثابتة لا تحمل شمعة الحمض النووي. يحزم شفرتنا الجينية مليارات الجيجابايت في جرام واحد. مجرد مليغرام من الجزيء يمكن أن يشفر النص الكامل لكل كتاب في مكتبة الكونجرس ويكون لديه الكثير من المساحة لتجنيبها. كان كل هذا في الغالب نظريًا - حتى الآن. في دراسة جديدة ، قام الباحثون بتخزين كتاب كامل في علم الوراثة في أقل من picogram من الحمض النووي - واحد تريليون غرام - وهو تقدم يمكن أن يحدث ثورة في قدرتنا على حفظ البيانات.

حاولت فرق قليلة كتابة البيانات في جينومات الخلايا الحية. لكن هذا النهج له بعض العيوب. أولاً ، تموت الخلايا - وهي ليست طريقة جيدة لتفقد ورقة المصطلح الخاص بك. كما أنها تتكاثر ، وتقدم طفرات جديدة بمرور الوقت يمكنها تغيير البيانات.

للتغلب على هذه المشكلات ، أنشأ فريق بقيادة جورج تشيرش ، عالم الأحياء الاصطناعية في كلية الطب بجامعة هارفارد في بوسطن ، نظامًا لأرشفة معلومات الحمض النووي لا يستخدم أي خلايا على الإطلاق. بدلاً من ذلك ، تقوم طابعة نافثة للحبر بتضمين شظايا قصيرة من الحمض النووي المركب كيميائيًا على سطح شريحة زجاجية صغيرة. لتشفير ملف رقمي ، يقوم الباحثون بتقسيمه إلى كتل صغيرة من البيانات وتحويل هذه البيانات ليس إلى وحدات 1 و 0 من وسائط التخزين الرقمية النموذجية ، ولكن بالأحرى إلى أبجدية الحمض النووي المكونة من أربعة أحرف وهي As و Cs و Gs و Ts. يحتوي كل جزء من الحمض النووي أيضًا على "رمز شريطي" رقمي يسجل موقعه في الملف الأصلي. تتطلب قراءة البيانات مُسلسِل الحمض النووي وجهاز كمبيوتر لإعادة تجميع كل الأجزاء بالترتيب وتحويلها مرة أخرى إلى تنسيق رقمي. يقوم الكمبيوتر أيضًا بتصحيح الأخطاء ، حيث يتم نسخ كل كتلة من البيانات آلاف المرات بحيث يمكن تحديد أي خلل في الصدفة وإصلاحه من خلال مقارنته بالنسخ الأخرى.

لإثبات عمل نظامه ، استخدم الفريق رقائق الحمض النووي لتشفير كتاب علم الوراثة شارك في تأليفه تشيرش. انها عملت. بعد تحويل الكتاب إلى حمض نووي وترجمته مرة أخرى إلى شكل رقمي ، كان لدى نظام الفريق معدل خطأ أولي يبلغ خطأين فقط لكل مليون بت ، وهو ما يصل إلى عدد قليل من الأخطاء المطبعية المكونة من حرف واحد. هذا على قدم المساواة مع أقراص DVD وأفضل بكثير من محركات الأقراص الصلبة المغناطيسية. وبسبب حجمها الصغير ، أصبحت رقائق الحمض النووي الآن وسيلة التخزين بأعلى كثافة معلومات معروفة ، حسبما أفاد الباحثون على الإنترنت اليوم في علم.

ومع ذلك ، لا تستبدل محرك الأقراص المحمول بمواد وراثية حتى الآن. يقول دانيال جيبسون ، عالم الأحياء الاصطناعية في معهد جيه كريج فينتر في روكفيل ، ميريلاند ، إن تكلفة مُسلسِل الحمض النووي والأدوات الأخرى "تجعل هذا الأمر غير عملي حاليًا للاستخدام العام" ، لكن المجال يتحرك بسرعة وستكون التكنولوجيا قريبًا تكون أرخص وأسرع وأصغر. " قاد جيبسون الفريق الذي أنشأ أول جينوم اصطناعي بالكامل ، والذي تضمن "علامة مائية" من البيانات الإضافية المشفرة في الحمض النووي. استخدم الباحثون نظام ترميز مكون من ثلاثة أحرف وهو أقل كفاءة من نظام فريق تشيرش ولكنه يحتوي على وسائل حماية مضمنة لمنع الخلايا الحية من ترجمة الحمض النووي إلى بروتينات. يقول: "إذا كان سيتم استخدام الحمض النووي لهذا الغرض ، وخارج بيئة المختبر ، فأنت تريد استخدام تسلسل الحمض النووي الأقل احتمالًا للتعبير عنه في البيئة". الكنيسة لا توافق. ما لم يقم شخص ما "بتخريب" نظام أرشفة بيانات الحمض النووي الخاص به عن عمد ، فإنه لا يرى خطورة تذكر.


الملخص

يظهر الحمض النووي الاصطناعي بسرعة كمنصة تخزين معلومات متينة وعالية الكثافة. يتمثل التحدي الرئيسي لاستراتيجيات تشفير المعلومات المستندة إلى الحمض النووي في ارتفاع معدل الأخطاء التي تنشأ أثناء تخليق الحمض النووي وتسلسله. هنا ، نصف شفرة HEDGES (Hash Encoded ، التي تم فك ترميزها بواسطة Greedy Exhaustive Search) والتي تعمل على إصلاح جميع الأنواع الأساسية الثلاثة من أخطاء الحمض النووي: عمليات الإدخال والحذف والاستبدال. تقوم HEDGES أيضًا بتحويل الأخطاء المركبة أو التي لم يتم حلها إلى بدائل ، واستعادة التزامن للتصحيح عبر كود Reed-Solomon الخارجي القياسي المشذّر عبر الخيوط. علاوة على ذلك ، يمكن أن تتضمن HEDGES فئة واسعة من قيود التسلسل التي يحددها المستخدم ، مثل تجنب التكرارات الزائدة ، أو محتوى الجوانين والسيتوزين (GC) المرتفع جدًا أو المنخفض جدًا. نحن نختبر الكود الخاص بنا من خلال محاكاة السيليكو ومع الحمض النووي المركب. من خلال أدائها المقاس ، قمنا بتطوير نموذج إحصائي ينطبق على مجموعات البيانات الأكبر بكثير. يشير الأداء المتوقع إلى إمكانية الاسترداد الخالي من الأخطاء لبيانات بحجم بيتابايت وإكسابايت من الحمض النووي المتدهور مع حدوث أخطاء تصل إلى 10٪. مع استمرار انخفاض تكلفة تخليق وتسلسل الحمض النووي ، نتوقع أن HEDGES سيجد تطبيقات في ترميز معلومات خالٍ من الأخطاء على نطاق واسع.

الحمض النووي هو وسيلة تخزين جزيئية مثالية للمعلومات الرقمية (1 ⇓ ⇓ ⇓ ⇓ – –7). يمكن تشفير الرسالة الرقمية التعسفية كتسلسل DNA ويتم تصنيعها كيميائيًا كمجموعة من خيوط قليلة النوكليوتيد. يمكن تخزين هذه الخيوط أو نسخها أو نقلها عبر المكان والزمان. يمكن بعد ذلك استخدام تسلسل الحمض النووي لاستعادة الرسالة الرقمية ، كما نأمل بالضبط. إن التقدم في تكلفة وحجم تخليق الحمض النووي وتسلسله يجعل تخزين المعلومات المستندة إلى الحمض النووي أمرًا ممكنًا اقتصاديًا بشكل متزايد. بينما تكاليف التوليف اليوم

مناقشة

تم تصميم HEDGES ليكون مرنًا فيما يتعلق بأطوال خيوط الحمض النووي ، وتسلسل الحمض النووي وتقنيات التوليف ، وخيارات الكود الخارجي ، وتفاصيل التشذير. الميزة الأكثر أهمية لـ HEDGES هي أنه دائمًا إما 1) يستعيد التزامن "المثالي" لشريط الحمض النووي الفردي الذي يتم تطبيقه عليه (أي ، يزيل تمامًا أخطاء الإدراج والحذف) أو 2) الإشارات التي لا يمكنه القيام بها لذلك عن طريق فشل فك. هنا تعني كلمة "مثالي" أن معدلات أخطاء البت والبايت المبلغ عنها ، والتي تكون صغيرة بما يكفي لتصحيحها بالكامل بواسطة كود خارجي قياسي مثل RS ، هي بالفعل شاملة لأي حالات متبقية من سوء المزامنة.

في المناطق المجدية (الخضراء) من الشكل 2 ، تحدث حالات فشل فك تشفير HEDGES تقريبًا كل 1 0 4 إلى 1 0 5 نيوكليوتيدات (الخلايا السفلية). هناك استراتيجيتان ممكنتان: 1) يمكننا الاحتفاظ بهذه الخيوط ووضع علامات على أنها تمحو البتات بعد نقطة الفشل ، أو 2) يمكننا ، بدلاً من ذلك ، استخدام حبلا آخر من البركة يظهر نفس معرف الخيط - وبالتالي زيادة متطلبات عمق التسلسل عن طريق كمية ضئيلة. قيم الأداء الموضحة في الشكل 2 تستخدم إستراتيجية 1 تلك الموجودة في إستراتيجية استخدام الجدول 2 2. الأهم من ذلك ، HEDGES يسمح بالقيود على سلاسل DNA المشفرة مثل تقليل تشغيل البوليمر المتجانس والحفاظ على محتوى GC متوازن. الملحق SIيوضح الشكل S3 ، عند مقارنته بالشكل 2 ، أن مثل هذه القيود تفرض عقوبة قليلة على كل من معدل الشفرة ومستوى تصحيح الخطأ. وبالتالي ، نظهر أن كلاهما استراتيجيات قابلة للتطبيق لتصحيح الخطأ.

أجرينا تجارب في السيليكو وفي المختبر للتحقق من صحة HEDGES عبر مجموعة متنوعة من معدلات الخطأ. يجب أن تكون هذه التحليلات الإحصائية للأحداث النادرة ، بناءً على كل من البيانات التجريبية والمحاكاة ، جزءًا مطلوبًا من جميع المقترحات المستقبلية لتخزين بيانات الحمض النووي. كان أداء HEDGES على الحمض النووي الحقيقي مع وجود أخطاء إجمالية ملحوظة تبلغ 1٪ و 3٪ (الجدولان 1 و 2) مشابهًا لمحاكاة الكمبيوتر بنفس معدلات خطأ الحمض النووي الإجمالية والنموذج الإحصائي الذي أنشأناه باستخدام أخطاء Poisson العشوائية البسيطة (الشكل. 2). في كلتا الحالتين ، يوضح HEDGES جدوى الاسترداد الخالي من الأخطاء على نطاق واسع بمعدلات تشفير تصل إلى 0.6 (1.2 بت لكل نيوكليوتيد) لـ ∼ 1٪ أخطاء DNA و 0.5 (1 بت لكل نيوكليوتيد) لأخطاء DNA ∼ 3٪. يكون التخزين على نطاق إكسابايت الخالي من الأخطاء أمرًا ممكنًا عند معدلات خطأ في الحمض النووي تصل إلى 7 إلى 10 ٪ بمعدل تشفير يبلغ 0.25 (0.5 بت لكل نيوكليوتيد). وهكذا ، يمهد HEDGES الطريق لتصحيح خطأ قوي في التوليف المجمع واسع النطاق ولكن المعرض للخطأ لمكتبات الحمض النووي الكبيرة.

.001 لكل نوكليوتيد ، يتوقع بعض المراقبين انخفاضًا في أوامر الحجم (8). يمكن لشريط من الحمض النووي يحتوي على أربعة نيوكليوتيدات طبيعية أن يشفر بحد أقصى 2 بت لكل سمة من سمات الحمض النووي. مع هذا المعدل الأقصى للشفرة (يُعرّف على أنه معدل r = 1.0) ، لا يمكن تصحيح الخطأ ، لأنه لا يوجد تكرار في الرسالة. ومع ذلك ، فإن كل من تخليق الحمض النووي وتسلسله يؤديان إلى حدوث أخطاء في تجمعات الحمض النووي الأساسية ، مما يتطلب أكواد فعالة لتصحيح الأخطاء (ECCs) لاستخراج المعلومات الأساسية. يقلل ECC من معدل الشفرة ولكنه ضروري للحماية من الأخطاء عندما يتم تشفير الرسالة كأحرف DNA ، وبعد ذلك ، عند فك تشفير أحرف DNA إلى بتات الرسالة.

يجب أن تصحح ECC الأنواع الثلاثة من الأخطاء المرتبطة بالحمض النووي - استبدال قاعدة بأخرى ، بالإضافة إلى عمليات إدخال أو حذف زائفة للنيوكليوتيدات في خيط DNA (indels). يمثل Indels أكثر من 50٪ من أخطاء الحمض النووي الملحوظة (الشكل 1أ). ومع ذلك ، فإن معظم مخططات ترميز الحمض النووي تستخدم ECCs التي يمكنها فقط تصحيح الاستبدالات ، وهي مهمة قياسية في نظرية الترميز (9 ⇓ ⇓ –12). تشير أدبيات نظرية الترميز فقط إلى عدد قليل من رموز تصحيح الأخطاء (ECC) التي تصحح عمليات الحذف ، ولا توجد طرق راسخة لجميع عمليات الحذف والإدخال والاستبدال الثلاثة (13 ، 14). تصحح تطبيقات تخزين الحمض النووي السابقة للإندلس من خلال التسلسل إلى عمق عالٍ ، متبوعًا بمحاذاة متعددة واستدعاء قاعدة إجماع (الشكل 1).ب) (1 ، 3 ، 6). يمثل هذا النهج "تكرارًا" غير فعال لرعاية الطفولة المبكرة. علاوة على ذلك ، فإن التكرار ECCs يصحح فقط الأخطاء المرتبطة بتسلسل الحمض النووي. يتطلب تصحيح أخطاء التوليف باستخدام هذا النهج أيضًا تجميع تفاعلات توليفية متعددة ، وهي الخطوة الأكثر تكلفة واستهلاكًا للوقت في تخزين المعلومات المستندة إلى الحمض النووي (2). أخيرًا ، لا تتعدى المحاذاة وفك تشفير الإجماع نطاقًا يتجاوز تجارب إثبات المبدأ الصغيرة. باختصار ، فإن ECCs التي تتطلب تكرارًا عالي العمق في الحمض النووي المخزن لها معدلات تشفير صغيرة جدًا لأن عددًا كبيرًا من النيوكليوتيدات المخزنة مطلوبة لكل بت رسالة مستردة.

(أ) توزيع أخطاء الإدراج والحذف (indels) في خط أنابيب تخزين الحمض النووي النموذجي (الجدول 1) الإضافية ، وحذف الإدراج ، والحذف الفرعي ، والاستبدال. (ب) (اليسار) تتطلب طرق الترميز الحالية القائمة على الحمض النووي التكرار على مستوى التسلسل ، ومحاذاة الخيوط ، ودعوة الإجماع لتقليل أخطاء indel. (حق) تقوم HEDGES بتصحيح أخطاء الاستبدال والإندل من قراءة واحدة. (ج) نظرة عامة على خط أنابيب الترميز المعشق المستخدم في هذه الورقة. (د) خوارزمية تشفير HEDGES في أبسط الحالات: كود نصف معدل ، بدون قيود على التسلسل. تعد خوارزمية ترميز HEDGES نوعًا مختلفًا من المفتاح التلقائي للنص العادي ، ولكن مع تقديم التكرار لأنه (في حالة رمز نصف المعدل ، على سبيل المثال) 1 بت من الإدخال يولد 2 بت من الإخراج. تجزئة كل قيمة بت بمعرفها ، ومؤشر البت ، وعدد قليل من البتات السابقة "تسمم" فرضيات فك التشفير السيئة ، مما يسمح بتصحيح indels. (ه) مثال على ترميز HEDGES ، بتشفير 9 من خيط البيانات المعروض (المربع الأحمر). كما في د، رمز معدل النصف ، لا قيود التسلسل. (F) إن خوارزمية فك تشفير HEDGES هي بحث جشع على شجرة متوسعة من الفرضيات. تخمن كل فرضية في وقت واحد واحدة أو أكثر من بتات الرسائل v i ، ومؤشر موضع البت الخاص بها i ، ومؤشر موضع حرف DNA المقابل لها. "معلمة الجشع" ف حسناً (انظر ملحق SI ، نص إضافي) يحد من نمو الشجرة الأسي: لا تتم إعادة زيارة معظم العقد المولدة أبدًا. (جي) رسم توضيحي لفك تشفير HEDGES مبسط. يتم ترميز رسالة حبلا بت المثال ثم تسلسلها بخطأ في الإدراج. Blue squares give decoding action order: 1, Initialize Start node 2 to 5, explore best hypothesis at each step and 6, traceback and output the best hypothesis message. DNA image credit: freepik.com.

Here, we describe an algorithm to achieve high code rates with a minimum requirement for redundancy in the stored DNA. We adapt the coding theory approach of constructing an “inner” code (so termed because it is closest to the physical channel, the DNA) to correct most indel and substitution errors. The inner code translates between a string of < A , C , G , T >and an intermediate binary string of < 0,1 >, with no added or dropped bits even in the presence of indels in the DNA string. An efficient “outer” code corrects residual errors with extremely high probability. Our inner code, termed HEDGES (Hash Encoded, Decoded by Greedy Exhaustive Search), is optimized for real-world DNA-based information storage: 1) It finds and corrects indels, or converts them to substitutions (which it also usually corrects). 2) It admits varying code rates, with correspondingly greater tolerance of DNA errors at lower code rates. 3) It is adaptable to the experimental constraints on DNA synthesis, for example, balanced GC content and the avoidance of homopolymer runs. 4) It has, effectively, zero strand ordering errors, removing a source of large bursts of errors. Although this paper’s main contribution is an efficient indel-correcting code, we also develop a specific implementation of the outer Reed–Solomon (RS) code for DNA-based storage. The RS code is applied “diagonally” across multiple DNA strands (Fig. 1ج) to more evenly distribute synthesis and sequencing errors, which improves error correction performance (15). We test our strategy (both in silico and in vitro) with degraded DNA oligonucleotide pools. Based on these experiments, we use computer simulations to demonstrate that this coding strategy enables error-free exabyte ( 1 0 18 )-scale DNA storage.


What can I research for thesis on DNA data storage from math? - مادة الاحياء

a Laboratory of Chemical Biology and State Key Laboratory of Rare Earth Resources Utilization, Changchun Institute of Applied Chemistry, Chinese Academy of Science, Changchun, Jilin 130022, P. R. China
E-mail: [email protected], [email protected]

b University of Chinese Academy of Sciences, Beijing 100039, P. R. China

c University of Science and Technology of China, Hefei, Anhui 230029, P. R. China

الملخص

DNA metallization has witnessed tremendous growth and development, from the initial simple synthesis aimed at manufacturing conductive metal nanowires to the current fabrication of various nanostructures for applications in areas as diverse as nanolithography, energy conversion and storage, catalysis, sensing, and biomedical engineering. To this, our aim here was to present a comprehensive review to summarize the research activities on DNA metallization that have appeared since the concept was first proposed in 1998. We start with a brief presentation of the basic knowledge of DNA and its unique advantages in the template-directed growth of metal nanomaterials, followed by providing a systematic summary of the various synthetic methods developed to date to deposit metals on DNA scaffolds. Then, the leverage of DNAs with different sequences, conformations, and structures for tuning the synthesis of feature-rich metal nanostructures is discussed. Afterwards, the discussion is divided around the applications of these metal nanomaterials in the fields mentioned above, wherein the key role DNA metallization plays in enabling high performance is emphasized. Finally, the current status and some future prospects and challenges in this field are summarized. As such, this review would be of great interest to promote the further development of DNA metallization by attracting researchers from various communities, including chemistry, biology, physiology, material science, and nanotechnology as well as other disciplines.


Supplementary Information 1

This file contains Supplementary Tables 1-4, Supplementary Figures 1-9, Supplementary Methods and Data, a Supplementary Discussion and Supplementary references. This file was replaced on 14 February 2013 to correct the DNA sequence in Supplementary Figure 8, which was misaligned. (PDF 2027 kb)

Supplementary Information 2

This file contains the full formal specification of the digital information encoding scheme. (PDF 244 kb)

Supplementary Information 3

This file contains FastQC QC report on Illumina HiSeq 2000 sequencing run. (PDF 411 kb)

Supplementary Data 1

This zipped file contains the five original files encoded and decoded in this study, namely wssnt10.txt (ASCII text file containing text of all 154 Shakespeare sonnets), watsoncrick.pdf (PDF of Watson & Crick’s (1953) paper describing the structure of DNA), MLK_excerpt_VBR_45-85.mp3 (MP3 file containing a 26 s excerpt from Martin Luther King's 1963 "I Have A Dream" speech), EBI.jp2 (JPEG 2000 format medium resolution colour photograph of the European Bioinformatics Institute) and View_huff3.cd.new (ASCII text file defining the Huffman code used to convert bytes of encoded files to base 3). (ZIP 646 kb)

Supplementary Data 2

This file contains the GATK ErrorRatePerCycle report on Illumina HiSeq 2000 sequencing run. (TXT 6 kb)


شاهد الفيديو: جامعة المنصورة بتعمل خريطة جينية للمصريين. التفاصيل في معكم منى الشاذلي (كانون الثاني 2022).