معلومة

تجميع الجينوم باستخدام القراءات

تجميع الجينوم باستخدام القراءات


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أنا آخذ فصلًا للمعلومات الحيوية عبر الإنترنت وأنا عالق في مشكلة. الموارد التي وجدتها لا تساعد كثيرًا. ها هي المشكلة:

"قم بتجميع القراءات الخالية من الأخطاء من جينوم دائري في مجموعة البيانات أدناه. لا تحتاج إلى النظر في التكملة العكسية للقراءات.

مجموعة البيانات: CGTTCT CTAG GACGT TAGAC

نظرًا لأن القراءات لا تحتوي على نفس الطول ، قم بتحويل القراءات إلى 4 قطع باستخدام النهج الذي اقترحه Idury و Waterman."

أعتقد أن هذا يعني أنني بحاجة إلى تحويل هذا إلى مجموعات من 4 أحرف لكل منها. هل أقوم ببساطة بتفريقهم بأخذ أول 4 أحرف وآخر 4 أحرف مثل هذا؟

CGTTCT: CGTT -> TTCT
CTAG: CTAG -> CTAG
GACGT: GACG -> ACGT
TAGAC: TAGA -> AGAC

وتنتهي بمجموعة بيانات جديدة من: "CGTT TTCT CTAG GACG ACGT TAGA AGAC"؟

أم أن هناك ما هو أكثر من ذلك؟ شكرا على اي مساعدة.


في الواقع ستكون مجموعة البيانات الجديدة ،

لـ k = 4 (قيمة k-mer)

CGTTCT -> CGTT GTTC TTCT

أو

المصدر: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2874646/


كتاب تمهيدي في علم الأحياء الجزيئي

5.10.2 تجميع الجينات

يشير تجميع الجينوم إلى عملية وضع تسلسل النوكليوتيدات بالترتيب الصحيح. التجميع مطلوب ، لأن أطوال قراءة التسلسل - على الأقل في الوقت الحالي - أقصر بكثير من معظم الجينومات أو حتى معظم الجينات. أصبح تجميع الجينوم أسهل من خلال وجود قواعد بيانات عامة ، متاحة مجانًا على موقع ويب المركز الوطني لمعلومات التكنولوجيا الحيوية (http://www.ncbi.nlm.nih.gov). مثلما أنه من الأسهل بكثير تجميع أحجية الصور إذا كنت تعرف شكل الصورة ، فإنه من الأسهل بكثير تجميع الجينات والجينومات إذا كانت لديك فكرة جيدة عن ترتيب التسلسل. في الجينوم البشري ، تحدث الجينات في نفس الموقع المادي على الكروموسوم ، ولكن يمكن أن يكون هناك أعداد مختلفة من النسخ وأعداد متغيرة من التسلسل المتكرر الذي يعقد التجميع. على الرغم من أن الجينومات البكتيرية أصغر بكثير ، إلا أن الجينات ليست بالضرورة في نفس المكان وقد تظهر نسخ متعددة من نفس الجين في مواقع مختلفة على الجينوم. لذلك ، حتى مع توفر البرامج التجارية وقواعد البيانات المرجعية المتزايدة باستمرار ، يمكن أن تستغرق عملية تجميع الجينوم وقتًا أطول بكثير من الوقت للحصول على التسلسل الفعلي.


يمكنك الذهاب إلى الموقع الرسمي لـ QUAST وانقر على تحميل زر.

يقوم QUAST بتقييم تجميعات الجينوم. لتقييم تجميع الميتاجينوم ، انظر لتصور محاذاة كونتيج ، راجع ...

سيتم توجيهك إلى صفحة تنزيل SOURCEFORGE حيث يمكنك تنزيل أحدث إصدار (كواست 5.0.2 عندما كنت أكتب هذا المقال) من QUAST. سيتم تنزيل الثنائيات المجمعة مسبقًا ويمكنك تشغيلها على الفور بعد الاستخراج.

يمكنك رؤية ما يلي بعد تنفيذ quast.py أو python quast.py.

بمجرد التأكد من أن QUAST يعمل بشكل صحيح ، يمكننا البدء في تقييم بعض التجميعات.


نتائج

تسلسل الجينوم والتجميع والشرح

قمنا بتجميع جينومات G. thurberi و G. davidsonii باستخدام البيانات من كل من تقنيات القراءة الطويلة nanopore وتقنيات القراءة القصيرة Hi-C. أنتجنا 114.3 جيجا بايت و 108.3 جيجا بايت قراءة نظيفة ، على التوالي ، لـ G. thurberi (

146 ×) و G. davidsonii (

135 ×) باستخدام منصة Nanopore (ملف إضافي 1: الجدول S1-S2). بعد التصحيح باستخدام قراءات Illumina القصيرة ، قمنا بإنشاء ملف G. thurberi 779.6 ميجا بايت مع contig N50 24.7 ميجا بايت القيم المقابلة لـ G. davidsonii كانت 801.2 ميجا بايت و 26.8 ميجا بايت (الجدول 1 والملف الإضافي 1: الجدول S3) ، تم تحسين استمرارية التسلسل بشكل كبير لكلا النوعين مقارنة بتجمعات الجينوم الأخرى التي تم الإبلاغ عنها مؤخرًا [15 ، 16].

باستخدام 284 مليونًا و 280 مليونًا من أزواج تفاعل Hi-C الصالحة لـ G. thurberi و G. davidsonii الجينوم ، على التوالي (ملف إضافي 1: الجدول S4) ، قمنا بتثبيت وتوجيه 777.2 و 799.2 ميجا بايت من التجميع على 13 كروموسوم زائف من G. thurberi و G. davidsonii على التوالي (ملف إضافي 2: الشكل S1-S2) ، والذي يمثل أكثر من 99.7٪ من إجمالي التجميع ، مما يشير إلى أن مجموعاتنا الجديدة وصلت إلى درجة مرجعية للجودة. كمؤشر على تحسين الاتصال ، طول contig لدينا G. thurberi يمثل الجينوم زيادة قدرها 940 ضعفًا مقارنة بما تم نشره سابقًا G. thurberi تسلسل (24.7 ميجا بايت مقابل 0.026 ميجا بايت) [7] ، ولدينا G. thurberi الجينوم لديه انخفاض في التجزئة بمقدار 3750 ضعفًا (74 مقابل 277903). وبالمثل ، كانت هناك زيادة بمقدار 836 ضعفًا لـ G. davidsonii طول كونتيج الجينوم (26.8 ميجا بايت مقابل 0.032 ميجا بايت) و 5150 ضعفًا في التجزئة (104 مقابل 535.698). علاوة على ذلك ، كان إجمالي طول التجميع ورقم التعليق التوضيحي للجينات أعلى بالنسبة لنا G. thurberi و G. davidsonii مجموعات الجينوم بالمقارنة مع التقارير التي تم الإبلاغ عنها مؤخرًا G. thurberi و G. davidsonii موارد الجينوم [7]. تم شرح ما يقرب من 58.0٪ و 58.6٪ من تسلسل التجميع كتسلسلات متكررة في G. thurberi و G. davidsonii التجميعات ، على التوالي (ملف إضافي 1: الجدول S5).

قمنا بعد ذلك بتقييم اكتمال التجميع من خلال محاذاة 192 و 212 مليون قراءة قصيرة من Illumina مع G. thurberi و G. davidsonii تجميعات الجينوم وتحليل BUSCO [17] ، أظهرت كلتا الطريقتين أن كلا المجموعتين ذات جودة عالية (ملف إضافي 1: الجدول S6-S7 وملف إضافي 2: الشكل S3).

التنوع الجيني بين ستة جينومات D.

جيلنا من مجموعات الجينوم عالية الجودة لـ G. thurberi و G. davidsonii يوفر فرصة لمقارنة أنواع جينوم D المختلفة التي تشترك في سلف مشترك ، مما قد يساعد في تحديد إعادة ترتيب الجينوم بعد الاختلاف في القطن. يتم الحفاظ إلى حد كبير على العلاقات الخطية الكلية بين الجينوم التجميعي حديثًا ، كما يدعمها أكثر من 78 ٪ من G. thurberi مطابقة الجينوم في الكتل التركيبية الفردية بنسبة 80.6 ٪ من G. davidsonii الجينوم. وبالمثل ، وجدنا ما يقرب من 78٪ من G. thurberi مطابقة الجينوم في الكتل المخلوطة واحد لواحد مع

81٪ من ج. ريموندي الجينوم (ملف إضافي 1: الجدول S8). و

77% G. davidsonii مطابقة الجينوم في الكتل المخلوطة واحد لواحد مع

83٪ من ج. ريموندي الجينوم. أظهرت دراستنا السابقة ذلك

86٪ من ج. ريموندي تطابق الجينوم في كتل مخلوية فردية مع جينوم D الفرعي جوسيبيوم هيرسوتوم (Gh_Dt1) ، مؤكدا ذلك ج. ريموندي هو نوع مانح معقول من أنواع القطن المتآصل الصبغية [4].

وجدنا أن الانقلابات هي نوع إعادة الترتيب الرئيسي بين جينومات D المختلفة. تمتد الانعكاسات بين التجميعين الجديدين تقريبًا 59.6 ميجا بايت في G. thurberi، وهو مستوى مشابه للمقارنة التي تم الإبلاغ عنها سابقًا بين ج. ريموندي والجينوم الفرعي TM-1 D [4]. من الجدير بالذكر أننا اكتشفنا انقلابًا كبيرًا على Chr11 بين G. thurberi و G. davidsonii تحتل ملاحظة 20.4 ميجا بايت ، تم تأكيد ذلك من خلال تعيين بيانات Hi-C لمدخل واحد مقابل جينوم الآخر ، و والعكس صحيح (الشكل 1 أ-د وملف إضافي 2: الشكل S4-S5). كشفت عمليات التوسيع من خرائط الحرارة عن إشارات متقطعة لهذه الانقلابات (في المنطقة المميزة بمثلث اللون في الشكل 1 ب).

توصيف التباين الجينومي بين جينومات D المختلفة. أ مقارنة الجينوم بين باربادنس (D subgenome ، Gb_DT2), G. هيرسوتوم (D subgenome ، Gh_Dt1), ج. ريموندي5), G. davidsonii3), G. thurberi1)، و G. Turneri10). تم تمييز الانقلابات باللون البرتقالي والأرجواني. ب تحديد انعكاس كبير على Chr11 بين G. thurberi و G. davidsonii. تعرض اللوحة خرائط حرارة تفاعل الكروماتين بما في ذلك G. thurberi Hi-C تعيين البيانات G. thurberi1_map_D1) و G. davidsonii Hi-C تعيين البيانات G. thurberi1_map_ د3). يشير المثلث إلى الانقلابات في خرائط الحرارة. ج مقارنة الجينوم بين G. thurberi و G. davidsonii في Chr11. د تعرض اللوحة خرائط حرارة تفاعل الكروماتين بما في ذلك G. davidsonii Hi-C تعيين البيانات G. davidsonii3_map_ د3) و G. thurberi Hi-C تعيين البيانات G. davidsonii1_map_D3). يشير المثلث إلى الانقلابات في خرائط الحرارة. ه تمثل حجيرات A / B باللون البرتقالي Chr11 المقصورات A بينما يمثل اللون الأزرق مقصورات B. تشير الصناديق الشفافة إلى مناطق تبديل مقصورة A-B. F خريطة حرارية TAD حول نقطة التوقف الصحيحة للانعكاس الكبير في Chr11

اكتشافنا ذلك G. davidsonii, G. Turneri، و ج. ريموندي مشاركة علاقة تركيبية محفوظة لمنطقة Chr11 المقلوبة الكبيرة تدعم أن انعكاس Chr11 هذا خاص بـ G. thurberi. علاوة على ذلك ، اكتشفنا ذلك G. thurberi يعرض Chr11 تحويلًا واسعًا لمقصورة B إلى A على وجه التحديد في منطقة مجاورة لنقطة التوقف اليمنى للانعكاس الكبير (الشكل 1 هـ). ووجدنا ذلك أيضًا بالنسبة إلى G. davidsonii، من الواضح أنه تم إعادة تنظيم المجالات المرتبطة طوبولوجيًا (TAD) على نطاق واسع بالقرب من نقاط التوقف الخاصة بـ G. thurberi نقاط توقف Chr11 (الشكل 1f). قمنا بتحليل مقصورات A-B المحفوظة والمبدلة في المناطق المقلوبة وعلى مستوى الجينوم الكامل. وجدنا 39 مقصورة محفوظة و 26 مقصورة A-B في المناطق المقلوبة ، والقيم المقابلة للجينومات بأكملها كانت 1045 و 532. اقترحت اختبارات Chi-square أنه لا يوجد أي تحيز تجاه تبديل المقصورة A-B في المناطق المقلوبة (اختبار مربع كاي ، ص = 0.2664). في المقابل ، اكتشفنا نسبة عالية من حدود TAD المعاد تنظيمها بالقرب من نقاط التوقف (70 من 190) عند مقارنتها بالجينوم بأكمله (1143 من 6184) (اختبار خي مربع ، ص & lt 0.0001) (ملف إضافي 2: الشكل S6). تقدم هذه النتائج عروض توضيحية تجريبية توضح أن الانقلابات في جينومات النبات يمكن - بالإضافة إلى آثارها المفهومة بشكل أفضل على تباعد تسلسل الجينوم الخطي أحادي البعد - أن تؤدي أيضًا إلى التباعد في تكوين حدود TAD.

بالإضافة إلى Chr11 ، وجدنا أيضًا بعض الانقلابات من Chr01 و Chr05 و Chr06 و Chr12 الخاصة بـ G. thurberi لأنهم مشتركون بواسطة G. davidsonii و G. Turneri (الشكل 1 أ). وبالمثل ، فإن بعض الانقلابات من G. davidsonii تتضمن انعكاسات من Chr02 و Chr05 و Chr06 و Chr10 و Chr13 ، والتي يتم مشاركتها بواسطة ج. ريموندي و G. thurberi. علاوة على ذلك ، لاحظنا ذلك في G. Turneri10), G. هيرسوتوم، و جوسيبيوم باربادنس (Gb_DT2) ، فإن معظم الانقلابات خاصة بالأنواع (الشكل 1 أ) ، مما يشير إلى أن مثل هذه الانقلابات قد تشكلت أثناء تباعد الأنواع مثل إعادة الترتيب الهيكلية يمكن أن تكون قد ساهمت بشكل مباشر في الجدة الجينية التي ساهمت في هذا الاختلاف.

المناظر الطبيعية الجينومية G. thurberi و G. davidsonii

كما هو الحال مع معظم الجينومات ، فإن G. thurberi و G. davidsonii يتم إثراء التسلسلات الموضوعة بالقرب من التيلومير بجينات التشفير مع وجود مستوى أقل من المتوسط ​​من متواليات التكرار (الشكل 2 أ). مرة أخرى كما هو متوقع ، يتم إثراء المناطق المحيطة بالوسط لتكرار التسلسلات ولكنها تظهر عجزًا في جينات الترميز مقارنةً بالمتوسط ​​على مستوى الجينوم (الشكل 2 أ).

توسع الأسرة الجينية بين 11 نوعا من القطن. أ المشهد الجينومي بين G. thurberi و G. davidsonii الجينوم. (ط) جينومات G. thurberi (اللوحة اليمنى) و G. davidsonii (اللوحة اليسرى). (2 ، 3) العناصر القابلة للتحويل وكثافة الجينات. (4) مستويات مثيلة الحمض النووي 5mC. (ت) مستويات مثيلة الحمض النووي 6mA. (6) المقصورتان A و B عبر الكروموسوم ، البرتقالي يشير إلى المقصورات A والأزرق يشير إلى المقصورات B. (7) مستوى التعبير بناءً على تحليل RNA-seq للأوراق. تم تطبيع مستوى التعبير من خلال عدد القراءات لكل حاوية / (عدد القراءة المعينة (بالملايين)) × طول الصندوق (كيلو بايت). (ثامنا) كثافة InDel بين G. thurberi و G. davidsonii. (التاسع) كثافة SNP بين G. thurberi و G. davidsonii. (x) كثافة PAV بين G. thurberi و G. davidsonii. (11) كتلة تركيبية بين G. thurberi و G. davidsonii. يتم عرض جميع البيانات الموجودة في اللوحة (i) - (x) في نوافذ بحجم 500 كيلوبايت. ب شجرة النشوء والتطور تعتمد على 7561 جينة أحادية النسخ. تظهر نسب توسع الجينات وتقلص كل فرع في المخططات الدائرية. توضح الأرقام عدد عائلات الجينات التي تعرضت للتوسع أو الانقباضات. ج,د إثراء مسار KEGG للعائلات الجينية التي شهدت توسعًا أو انكماشًا في G. thurberi و G. davidsonii

تنميط تعبير RNA-seq (الترميز وغير المشفر) لـ G. thurberi و G. davidsonii (الأوراق الصغيرة) أظهرت أن التسلسلات في المناطق المحيطة بالوسط يتم التعبير عنها بمستويات أقل عمومًا مقارنة بالتسلسلات في أذرع الكروموسوم (الشكل 2 أ). درسنا بعد ذلك الاختلافات الصغيرة (InDels و SNPs) بين G. thurberi و G. davidsonii. أظهرت كثافات InDel نمطًا متناقصًا ، وأظهرت كثافة SNP ميلًا متزايدًا للانتقال من منطقة التيلومير إلى منطقة السنترومير (الشكل 2 أ والملف الإضافي 2: الشكل S7).

اكتشفنا بعد ذلك تباينات التواجد / الغياب (PAVs) وحددنا ما مجموعه 14401 من G. thurberi- PAVs الجينومي المحدد و 15684 من G. davidsonii- PAVs جينومية محددة ، تشغل 39.5 ميجا بايت و 52.0 ميجا بايت بوصة G. thurberi و G. davidsonii الجينوم. يتم توزيع PAVs بالتساوي عبر الكروموسومات ، مع كون معظم PAVs أقصر من 10 كيلو بايت (الشكل 2 أ والملف الإضافي 2: الشكل S8a).

تم تحديد ما مجموعه 490 و 570 من الجينات المترجمة PAV على أنها G. thurberi- أو G. davidsonii- جينات محددة. ما يقرب من 39.6٪ و 37.4٪ من جينات PAV من G. thurberi و G. davidsonii كان لديه أطباء تقويم واضحون من واحد على الأقل من الثلاثة الآخرين جوسيبيوم الأنواع ، مما يؤكد أن نسبة صغيرة نسبيًا من جينات PAV كانت موجودة في جينوم الأجداد (ملف إضافي 2: الشكل S8b). جينات PAV بدون أطباء تقويم واضحين في الفحص جوسيبيوم من المحتمل أن تكون قد نشأت أثناء التباعد وقد تمثل مصادر للجينات المؤثرة التي ساهمت في الانتواع والخصائص المتكيفة حاليًا لـ G. thurberi و G. davidsonii.

التطور داخل وبين أحد عشر جينوم قطن

قمنا أيضًا بمقارنة جينات الترميز الجديدة من التجميعات الجديدة بـ جوسيبيوم أربوريوم2), Gossypium australe (جي2), ج. ريموندي5), G. Turneri10) ، والجينومات الفرعية D لأنواع القطن المتفرعة الصبغية الخمسة (G. هيرسوتوم, باربادنس, جوسيبيوم تومينتوسوم, Gossypium mustelinum، و Gossypium darwinii). تدعم شجرة النشوء والتطور الخاصة بنا أصلًا أحادي النمط لأنواع متآصلة الصبغيات والتي من المحتمل أن تكون مشتقة من تهجين بين ج. ريموندي وأنواع الجينوم أ (الشكل 2 ب). تم تحديد ما مجموعه 35454 مجموعة تقويم من خلال orthoMCL ، وكما هو متوقع ، تم تحديد G. australe (جي2) و أربوريوم2) يحتوي على جينات فريدة أكثر من تلك الخاصة بأنواع جينوم D ، لأن الاختلافات الجينية تكون أكثر أهمية في مجموعات الكروموسومات المتنوعة منها داخل مجموعة واحدة (ملف إضافي 2: الشكل S9a). كشف تحليل GO عن إثراء "إعادة تركيب الحمض النووي" و "تكامل الحمض النووي" و "عملية التمثيل الغذائي للحمض النووي" من بين مجموعات الجينات الفريدة لـ G. thurberi و G. davidsonii (ملف إضافي 2: الشكل S9b-c).

استخدام أربوريوم وأربعة أنواع من جينوم D (G. thurberi, G. davidsonii, ج. ريموندي، و G. تيرنرi) ، قمنا بتقييم أوقات الاختلاف بين جينوم ثنائي الصبغة A وأربعة أنواع من جينوم D ووجدنا أنها تباعدت على ما يبدو بين 5.07 و 5.13 MYA ، وتباعدت جينومات D الأربعة بين 1.51 و 2.04 MYA (ملف إضافي 2: الشكل S10). داخل كليد الجينوم D ، تم اكتشاف أكبر درجات الاختلاف بينهما G. Turneri والأنواع الثلاثة الأخرى ، ثم كان الاختلاف التالي بينهما ج. ريموندي والأنواع الثلاثة الأخرى ، وكان الاختلاف الأخير بينهما G. thurberi و G. davidsonii (الشكل 2 أ).

استخدمنا بعد ذلك CAFE (التحليل الحسابي لتطور عائلة الجينات) لتقدير توسعات عائلة الجينات وانقباضاتها بين مجموعات تقويم العظام البالغ عددها 23،825 ، والتي كشفت أن 8 من أصل 11 نوعًا تم اختبارها قد شهدت توسعات في عائلة الجينات أكثر من تقلصات عائلة الجينات (ص & lt 0.05) (الشكل 2 ب). يعد هذا مفيدًا عند النظر إليه مقابل ديناميكيات عائلة الجينات المعروفة للجينومات الفرعية D للقطن المتآصل الصبغية: اكتشافنا أن نسبة أعلى نسبيًا من عائلات الجينات الخاصة بالأنواع قد شهدت توسعًا أو تقلصات في أنواع جينوم D ثنائية الصبغة مقارنة بديناميكيات عائلة الجينات في دعم الجينات الفرعية D أن هذا الشكل من تباعد الجينوم أقل نشاطًا في الجينومات الفرعية D منه في أنواع جينوم D (ملف إضافي 2: الشكل S11).

اكتشفنا ذلك G. thurberi شهدت توسعًا في الجينات المتعلقة بالتخليق الحيوي للستيرويد والتخليق الحيوي للبراسينوستيرويد ، وكذلك للجينات التي تشفر إنزيمات البكتينستريز (ملف إضافي 2: الشكل S12). بالنظر إلى الأدوار المبلغ عنها لهذه المسارات والأنزيمات البيوكيميائية في استجابات متنوعة لتحمل الإجهاد ، ربما يكون هذا التوسع قد ساهم في التقارير السابقة التي تم الإبلاغ عنها. الفرتيسيليوم الداليا مقاومة G. thurberi [18]. الجينات المخصبة الخاصة بـ G. davidsonii تم إثراء الجينات التي تعمل في التمثيل الضوئي ومسارات الفسفرة المؤكسدة ، في مركز تفاعل النظام الضوئي الأول (PsaB) ، وفي مركز تفاعل النظام الضوئي الثاني (psbD و psbE) في G. davidsonii (ملف إضافي 2: الشكل S13) ، تشير النتائج بوضوح إلى إمكانات قدرات التمثيل الضوئي التفاضلية في G. davidsonii.

تغييرات التعديلات الجينية في البنية ثلاثية الأبعاد

يمكن لكل من PacBio و Nanopore التمييز بين القواعد المعدلة من القواعد النوكليوتيدية القياسية في النباتات [19 ، 20]. ومع ذلك ، من المعروف أن دقة تسلسل SMRT للكشف عن مثيلة الحمض النووي تتأثر بشدة بتغطية التسلسل [21 ، 22]. استخدمنا بيانات nanopore لتحليل المشهد العالمي للتعديلات اللاجينية على الكروموسومات. إن المستوى العالمي N6- ميثيل ديوكسيدينين (6mA) يقارب 1.1٪ من جميع الأدينينات لـ G. thurberi و 1.3٪ ل G. davidsonii ، هذه النسب أعلى بكثير من التقارير السابقة حول G. هيرسوتوم و باربادنس التي كانت تستند إلى بيانات تسلسل PacBio [19]. لكليهما G. thurberi و G. davidsonii، توزيع 6mA غير متساوٍ عبر الكروموسومات ، على سبيل المثال إظهار الإثراء في كل من المناطق الوسطى لأذرع الكروموسوم وفي المناطق المحيطة بالوسط (الشكل 2 أ) ، النتائج التي تدعم الاقتراح من دراسة الأرز بأن التوزيع الجيني لـ 6 مللي أمبير ليس عشوائيًا [ 23]. مقارنة بين G. davidsonii أظهرت ترددات مثيلة الجينوم التي تم إنشاؤها باستخدام تقنية Nanopore مع ترددات المثيلة التي تم الحصول عليها من خلال تقنية تسلسل الجينوم الكامل بيسلفيت ارتباطًا ممتازًا بين الطريقتين (ص = 0.88). من بين الأنواع الثلاثة للميثلة (CHG ، CG ، و CHH) ، أظهر CHG أعلى ارتباط (0.95) ، يليه CG (0.92) و CHH (R = 0.77) (ملف إضافي 2: الشكل S14).

يمكن تحديد الكروموسوم تجريبيًا في مقصورات مفتوحة (أ) أو مغلقة (ب) ، ويمكن تقسيم حجيرات أ / ب هذه إلى أجزاء صغيرة من TADs. وجدنا أن المقصورات A تميل إلى التجمع عند أذرع الكروموسوم ، بينما المقصورات B تميل إلى الكتلة بالقرب من المناطق المحيطة بالمركز (الشكل 2 أ). ما يقرب من 41.5 ٪ من G. thurberi ينتمي الجينوم إلى المقصورات A بنسبة 42.3٪ G. davidsonii و 42.0٪ ل ج. ريموندي الجينوم. لاحظ أن نسب حجرة A / B هذه متشابهة مع النسب التي تم الإبلاغ عنها مسبقًا للجينات الفرعية D المتآصلة [24].

قمنا أيضًا بتقييم الميزات اللاجينية في مقصورات A / B لـ G. thurberi و G. davidsonii في تحليل باستخدام نوافذ 100 كيلوبايت. لكل من G. thurberi و G. davidsonii الجينوم ، كانت كثافة الجين أعلى بكثير في المقصورات A من المقصورات B (الشكل 3 ج). علاوة على ذلك ، كان من المثير للاهتمام ملاحظة أن مستويات كل من 5mC (CG و CHH و CHG) و 6 مللي أمبير كانت أقل بشكل ملحوظ في المقصورات A مقارنة بالمقصورات B (الشكل 3 أ). وبالمثل ، كان محتوى TE أقل بكثير في المقصورات A مقارنة بالمقصورات B (الشكل 3 ب).

ميزات الميثيل للكروماتين ثلاثي الأبعاد. أ-ج مستوى الميثيل ، ونسبة TE ، وكثافة الجينات في المقصورتين A و B في G. thurberi و G. davidsonii. تشير رتبة موقع ويلكوكسون ذات الوجهين إلى وجود اختلافات كبيرة في **ص & lt 0.001. د ميزة المثيلة حول حدود TAD. تمت مقارنة مستويات المثيلة في حدود TAD (الخطوط البرتقالية) المحيطة بـ 100 كيلو بايت مع مستويات المثيلة تلك في مناطق الجينوم العشوائية (الخطوط الزرقاء). تشير الخطوط الموجودة على الجانب الأيمن (من 0 إلى 100 كيلو بايت) إلى مناطق TAD ، وتشير الخطوط الموجودة على الجانب الأيسر (- 100 إلى 0 كيلو بايت) إلى مناطق TAD عندما تم تنظيم TADs بشكل متتالي أو مناطق غير TAD عندما لم يكن أحد TAD متجاورًا بشكل وثيق للآخرين. ه توزيع الجينات حول حدود TAD. كانت طريقة استخراج المناطق الجينومية حول الحدود هي نفسها الموجودة في اللوحة د. F حجرة A-B التبديل بين G. thurberi1) و G. davidsonii3) أو بين ج. ريموندي5) و G. davidsonii3). ز مقارنة حدود TAD بين G. thurberi و G. davidsonii1_Vs_D3) أو ج. ريموندي و G. davidsonii5_Vs_D3)

قمنا أيضًا بتحليل التعديلات اللاجينية حول حدود TAD ووجدنا أن الكروماتين المحيط بحدود TAD في كلا النوعين القطنيين اللذين تم فحصهما كان له مستويات أقل نسبيًا من 5mC (CG ، CHG ، و CHH) و 6 مللي أمبير مقارنة بالمناطق الجينومية التي تم أخذ عينات منها عشوائيًا (الشكل ثلاثي الأبعاد) . والجدير بالذكر أن هناك إثراء لتسلسل ORF عند حدود TAD ، مما يشير إلى أن التعديلات اللاجينية قد تساهم على ما يبدو في التنشيط التفاضلي للجينات الموضوعة على حدود TAD.

للتحقق من الاختلافات الهيكلية عالية المستوى التي قد تكون مرتبطة باختلاف أنواع جينوم D ، قمنا بمقارنة الهياكل ثلاثية الأبعاد بين G. thurberi, G. davidsonii، و ج. ريموندي. على وجه التحديد ، أنشأنا خرائط تفاعل الكروماتين لـ G. thurberi, G. davidsonii، و ج. ريموندي عند استبانة 50 كيلو بايت ، وكما هو متوقع ، أظهر تواتر التفاعلات داخل الكروموسومات انخفاضًا سريعًا مع امتداد المسافة الخطية (ملف إضافي 2: الشكل S15-S17). كشف هذا التحليل عن إعادة توصيل قوية لتفاعلات الكروماتين في المناطق المقلوبة ، بما يتوافق مع نموذج المناطق المتميزة المكونة من أذرع كروموسوم فردية (ملف إضافي 2: الشكل S18). على سبيل المثال، G. thurberi أظهر حمل انعكاس محيط مركزي على Chr11 تفاعلات تفضيلية بين هذه المواقع عند وجودها على نفس ذراع الكروموسوم (ملف إضافي 2: الشكل S18).

نحن نقارن تنظيم حجرات A / B بين G. thurberi و G. davidsonii أو بين G. davidsonii و ج. ريموندي. ما مجموعه 57.8 ميجا بايت و 44.7 ميجا بايت في G. thurberi و ج. ريموندي تمثل الجينوم تبديلًا واضحًا لمقصورة A-to-B مقارنة ببيانات حالة المقصورة لـ G. davidsonii (الشكل 3 و). وبالمثل ، فإن ما مجموعه 28.9 ميجا بايت و 28.1 ميجا بايت من مناطق الجينوم تمثل على ما يبدو تبديل حجرة B-to-A بين G. thurberi و ج. ريموندي الجينومات (الشكل 3f) ، النتائج التي تسلط الضوء على أن التبديل من B إلى A والتبديل من A إلى B غير متساويين بين جينومات D ثنائية الصبغة. لقد فحصنا أيضًا إمكانية التعبير التفاضلي للجينات الموجودة في مناطق تبديل A / B: من بين 3189 جينات تبديل A / B بين G. thurberi و G. davidsonii، كان 556 DEGs. من بين 3670 جينات التبديل بين أ / ب ج. ريموندي و G. davidsonii، 613 كانت DEGs. تدعم هذه النتائج الفكرة السابقة القائلة بأن مجموعة فرعية صغيرة فقط من الجينات تتأثر نسبيًا بتغييرات الحيز [25].

قمنا بعد ذلك بمقارنة حدود TAD ووجدنا أن أكثر من 90٪ من G. thurberi و ج. ريموندي تم حفظ حدود TAD في G. davidsonii (الشكل 3g) ، مما يشير إلى أن حدود TAD تم الحفاظ عليها بقوة نسبيًا بين الأنواع الشقيقة بعد الاختلاف.

التفاعلات طويلة المدى في G. thurberi و في G. davidsonii

تساهم تفاعلات الكروماتين طويلة المدى وظيفيًا في تنظيم النسخ الجيني ، ولكن لا يُعرف سوى القليل جدًا عن تفاعلات الكروماتين ثلاثية الأبعاد في القطن. سعياً لتوصيف نمط تفاعلات الكروماتين طويلة المدى ، أجرينا تحليلاً على نطاق الجينوم وقمنا بتوضيح قمم Hi-C الموضوعة ضمن 2 كيلو بايت في المنبع أو 1 كيلو بايت في اتجاه مجرى TSS للجينات على أنها "قمم Hi-C القريبة" (P ) تم شرح جميع الآخرين كـ "قمم Hi-C البعيدة" (D). حددنا 22،328 P و 8304 D متورطين في تفاعلات الكروماتين طويلة المدى في G. thurberi جي. ديفيدسوني يحتوي على 22،816 P و 8808 D تشارك في تفاعلات الكروماتين طويلة المدى (الشكل 4 أ).

تفاعلات بعيدة المدى بين المناطق التنظيمية القريبة والبعيدة. أ مثال على التفاعلات طويلة المدى على Chr08 في G. thurberi و G. davidsonii. ب توزيع التفاعلات بعيدة المدى في كل كروموسوم. ج تم تقسيم التفاعلات طويلة المدى إلى تفاعلات P-P و P-D و D-D. د مقارنة بين جميع التفاعلات G. thurberi و G. davidsonii. ه مقارنة بين تفاعلات P-D G. thurberi و G. davidsonii. F مؤامرات الكمان للتفاعلات طويلة المدى في G. thurberi و G. davidsonii. يشير الخط الأحمر المركزي في الرسم البياني إلى الوسيط ، بينما تشير الخطوط السوداء إلى الربعين العلوي والسفلي لوقت الإدراج. ز ملخص لعدد تفاعل P-D مع مسافات متغيرة في G. thurberi و G. davidsonii. ح مقارنة مستوى التعبير عن الجينات التي تتفاعل أو لا تتفاعل مع تفاعلات الكروماتين (**ص & lt 0.0001 ، اختبار تصنيف موقع من جانب ويلكوكسون). أنا حالة النسخ للجينات مع أو بدون تفاعلات الكروماتين. "غير نشط" يمثل الجين مع FPKM & lt 0.1 يمثل "نشط" الجين مع FPKM ≥ 0.1. يشير الحرف "w" إلى الجينات ذات التفاعلات الكروماتينية "w / o" التي تشير إلى الجينات التي لا تحتوي على تفاعلات الكروماتين. ي مثال على واحد D تفاعل مع اثنين من P في G. davidsonii. في اللوحة العلوية ، يمثل الخطان البرتقالي والأزرق روابط Hi-C بتنسيق G. thurberi و G. davidsonii. على التوالي ، وتمثل المربعات الزرقاء الجينات الموجودة في حلقة التفاعل. تشير اللوحة الوسطى إلى الجين (Gd07G24850) حول P1 و P2. اللوحة السفلية هي تغطية القراءة التي تم إنشاؤها بواسطة mRNA-seq

قمنا أيضًا بتصنيف كل هذه التفاعلات إلى ثلاث مجموعات: القريبة - القريبة (P - P) ، القريبة - القاصية (P - D) ، والبعيدة - القاصية (D - D). تم تحديد ما مجموعه 47604 و 51367 تفاعلات داخل الكروموسومات G. thurberi و جي. ديفيدسوني، على التوالى. ما يقرب من 60 ٪ من هذه التفاعلات كانت تفاعلات P-P ، تليها P-D (

10٪) (الشكل 4 ج). تعد المقارنة بين متوسط ​​عدد الحلقات المشكلة مفيدة: وجدنا أن واحدًا D يمكن أن يشكل متوسط ​​1.56 أو 1.62 حلقة مع P لـ G. thurberi و G. davidsoniiعلى النقيض من ذلك ، يمكن أن يشكل P واحد في المتوسط ​​1.34 أو 1.31 حلقة مع P. لذلك ، في المتوسط ​​، يخضع D لتفاعلات أكثر من P ، ويبدو أن الجينات التي تنظمها D تفضل التجمع معًا في الجينوم.

تراوح عدد التفاعلات في كل كروموسوم من 2759 إلى 4417 بوصة G. thurberi و 2999 إلى 4763 بوصة G. davidsonii (الشكل 4 ب). كان هناك 44675 تفاعل داخل الكروموسومات تم تحديدها في كل من G. thurberi و G. davidsonii، بينما كانت التفاعلات 2936 و 6693 خاصة بـ G. thurberi و G. davidsonii. وجدنا 27،531 تفاعلًا P-P ، و 18،752 تفاعلًا P-D ، و 5465 تفاعل D-D تم حفظها بين G. thurberi و G. davidsonii، في حين أن تفاعلات 1043 و 2597 P-P و 1578 و 3782 P-D و 761 و 1067 D-D كانت محددة على التوالي لـ G. thurberi و G. davidsonii (الشكل 4 د). تؤكد هذه النتيجة أن مجموعة فرعية صغيرة فقط من التفاعلات داخل الكروموسومات متباينة بين أنواع القطن الشقيقة.

اللافت للنظر أن أكثر من 73٪ من مروجي هذه الجينومات القطنية لديهم 3 أو أكثر من تفاعلات P-P ، مع معظم المروجين لديهم حوالي 1 P-D (الشكل 4 هـ). وجدنا أن متوسط ​​طول التفاعلات داخل الكروموسومات كان 90 كيلو بايت و 100 كيلو بايت لـ G. thurberi و G. davidsonii، على التوالي (الشكل 4f). أظهرت الدراسات السابقة على الإنسان أن المعززات تفضل تنظيم الجينات القريبة [26]. كانت معظم تفاعلات P-D في حدود 100 كيلو بايت لكلا النوعين ، وكان أقل من 6٪ من هذه التفاعلات أكبر من 300 كيلو بايت (الشكل 4 جم).

قمنا بعد ذلك بإنشاء مجموعات بيانات النسخ باستخدام mRNA-Seq of G. thurberi و G. davidsonii أوراق للمساعدة في الكشف التجريبي عن العلاقات بين تفاعلات الكروماتين وتنشيط النسخ لجينات القطن. قمنا بمقارنة ملفات تعريف التعبير عن الجينات مع أو بدون تفاعلات كروموسومية ووجدنا أن الجينات ذات تفاعلات الكروماتين لديها مستويات تعبير أعلى نسبيًا من تلك التي لا تحتوي على تفاعلات (ص & lt 0.0001 ، اختبار رتبة مجموع ويلكوكسون) (الشكل 4 ح). على الرغم من أن تفاعلات الكروماتين تم التقاطها بواسطة Hi-C ، وجدنا ذلك

40٪ من الجينات ذات التفاعلات التي لم يتم التعبير عنها أو التعبير عنها بشكل منخفض للغاية (FPKM & lt 0.1) (الشكل 4i). ومع ذلك ، فإن ما بين 43 و 46 ٪ من الجينات التي لم يكن لها تفاعلات الكروماتين في أي منهما G. thurberi و G. davidsonii تم التعبير عنها في الأوراق ، وهو مستوى أعلى بقليل من تقرير لمثل هذه الجينات في تحليل البراعم والآذان غير الناضجة في الذرة [26] (الشكل 4 أ).

ثم قمنا بفحص تقاطع الجينات المعبر عنها تفاضليًا بينهما G. thurberi و G. davidsonii والجينات التفاضلية للتفاعل P-D لاستكشاف الأدوار المحتملة للمعززات في التعبير الجيني. من بين الجينات ذات التفاعلات التفاضلية بين P-D G. thurberi و G. davidsonii، هناك 509 جينًا غيرت مستويات التعبير بشكل كبير ، وأظهرت هذه الجينات إثراءًا لمصطلحات GO بما في ذلك "الاستجابة للمحفزات الحيوية" و "الاستجابة الدفاعية" (ملف إضافي 2: الشكل S19). مثال على هذه الجينات هو جين homobox Gd07G248500، والذي يشفر تقويم العظام AtHB16، والذي يُعرف بأنه ينظم تطور الأوراق وحساسية فترة الضوء في نبات الأرابيدوبسيس thaliana [27]. وجدنا أن المروج Gd07G248500 تتفاعل مع قمم 2 D في كليهما G. thurberi و G. davidsonii، لكن شدة التفاعل كانت أقوى في G. davidsonii من هؤلاء الموجودين في G. thurberi (15.13_vs_0.06 و 12.94_vs_1.2) ، والتي قد تروج للتعبير عنها بتنسيق G. davidsonii أوراق (الشكل 4 ي) ، حالة مثل الذرة PSB1 التي لها تفاعل P-D خاص بالفرقات مع تعبير أعلى في اللقطة من ذلك في الأذن غير الناضجة [26].

الترتيب الجيني والتباين الهيكلي بين G. thurberi و G. davidsonii

لتحليل ترتيب الجينات ، تم تحديد ما مجموعه 32981 زوجًا متعامدًا بين G. thurberi و G. davidsonii، من بينها 1104 زوجًا من الجينات المتعامدة كانت موجودة في مناطق الانقلاب (الجدول 2) التي تمثلها هذه الأزواج

3.3٪ من مجموع أزواج الجينات المتعامدة التي تم تحليلها. حقيقة أن هذا يمثل نسبة أعلى من تلك الموجودة بين G. هيرسوتوم يدعم الصنفان TM-1 و ZM24 تأثر المزيد من الجينات بانقلابات بين الأنواع مقارنة بانقلابات داخل الأنواع.

67٪) أزواج الجينات المتعامدة مع طفرات مغلوطة فقط في CDS أو InDels بدون إطار G. thurberi و G. davidsonii. ومع ذلك ، فقط

9 ٪ من أزواج الجينات المتعامدة لم يكن لديها أي تغيرات في الأحماض الأمينية G. thurberi و G. davidsonii، وحوالي 2٪ و 1٪ من هذه الأزواج لم يكن لديهم أي اختلاف في تسلسل الترميز (CDS) أو أجسام الجينات (مناطق CDS و intron) ، على التوالي (الجدول 2). هذه النسب أقل بكثير من تلك المقارنة G. هيرسوتوم الصنفين TM-1 و ZM24 (71٪ ، 69٪ ، 56٪) ، مما يشير إلى أن أطباء تقويم العظام بين الأنواع أكثر تباينًا من متماثلات الأنواع. لاحظ أن أكثر من 9٪ من أزواج الجينات المتعامدة التركيبية تحمل طفرات ذات تأثير كبير ، بما في ذلك 3n ± 1 InDel ، وطفرة بدء الكودون ، وطفرة إيقاف الكودون ، وطفرة تقبل لصق ، وطفرة متبرع لصق في مناطق CDS (الجدول) 2). تأثر أكثر من 11٪ من أزواج الجينات المتعامدة التركيبية بالتغيرات الهيكلية الكبيرة ، حيث فقد 85٪ من هذه الأزواج إكسون واحدًا على الأقل ، وسيتطلب الأمر مزيدًا من الدراسة.

وصفنا أيضًا مدى تضخيم الجينات في G. thurberi و G. davidsonii الجينوم. تم تحديد أكثر من 3400 من الجينات المكررة الترادفية في كليهما G. thurberi و G. davidsonii، من بينها المسارات المرتبطة بالإجهاد ، استقلاب فينيل ألانين ، استقلاب الجلوتاثيون ، تفاعل العوامل الممرضة للنبات ، والتخليق الحيوي للفينيل بروبانويد التي تم إثرائها في تحليل KEGG ، مما يشير إلى أن الازدواج الترادفي قد عزز على ما يبدو تحمل G. thurberi و G. davidsonii لضغوط مختلفة (ملف إضافي 2: الشكل S20). في المجموع ، تم تحديد 3136 و 3154 جينًا كجينات مفردة في G. thurberi و G. davidsonii، على التوالي (ملف إضافي 1: الجدول S9). It was notable that there was a much higher proportion of transcription factors in the whole-genome duplication and segmental duplication sets than those from singleton genes (Fisher’s exact test, ص < 2.2e−16), supporting our previous finding [4] that transcription factors have a tendency to be retained after duplication (Additional file 1: Table S10).

Identification of centromeres using a Hi-C heatmap method

Centromeres are mainly composed of repetitive retrotransposons and satellite repeats, and the challenge of accurately assembling centromeres using short-read sequencing data is well-documented [28] accordingly, centromere evolution is poorly understood. Previous studies of Hi-C matrices have shown that centromeres form a unique type of interacting subcompartment which can function as a barrier and prevent intra-chromosomal arm interactions [29]. By exploiting the insulation feature of centromeres in Hi-C heatmap data, we successfully developed a new method for centromere characterization based on Hi-C data.

In this method, we first map the Hi-C contact data against its corresponding reference genome to obtain valid read pairs (Fig. 5a). Next, we use the valid read pairs to generate a Hi-C heatmap (at 50 kb resolution), and then use this to search regions which apparently form barriers to intra-chromosomal arm interactions. Testing confirmed that these regions, which have less frequent contacts between chromosome arms on either side compared with their frequency of intra-arm contact, are indeed centromeres (Fig. 5b). Thirdly, based on the phylogenetic relationship, we used the known cotton centromeric LTRs to align against the reference genomes to validate these Hi-C centromeres (Fig. 5c). Finally, the centromere sequence features—including sequence composition, LTR insertion time, LTRs insertion pattern, and centromeric enriched LTRs—can be cataloged systematically to support studies of centromere evolution (Fig. 5d,e). Using this new method (Additional file 2: Fig. S21), we successfully identified the centromeres in the model plant نبات الأرابيدوبسيس thaliana, أرز أسيوي, and the new G. thurberi و G. davidsonii assemblies (Additional file 2: Fig. S22-S25).

An overview of centromere identification based on Hi-C data. أ A diagram of Hi-C data mapping against the reference genome. ب Characterization of centromeres in Hi-C heat maps. The left panel shows chromatin interactions, including G. davidsonii mapped to G. thurberi (D3_map_D1) و G. thurberi mapped to G. thurberi (D1_map_D1). The middle panel presents a genomic alignment around the centromeres. The three-dimensional rings indicate the centromeres. The right panel shows chromatin interactions, including G. davidsonii mapped to G. davidsonii (D3_map_D3) و G. thurberi mapped to G. davidsonii (D1_map_D3). The regions within the orange lines are the centromere regions. ج Validation the centromeres by centromeric LTR (Centromere Retroelement جوسيبيوم, CRG) BLAST analysis. The data showed the validation on Chr08. د Centromere feature analysis. The right panel presents a comparison of the repetitive elements for centromeres vs. the whole genome. The middle shows LTR insertion time distributions for centromeres specifically, and for the whole genome. The center red line in the plot indicates the median, and the black lines indicate the upper and lower quartiles for insertion times. The right panel shows an analysis of the intact LTR insertion pattern. An example is presented for G. thurberi Chr04. The digits present the insertion time of nearby LTRs. ه Analysis of centromere LTR enrichment. The left panel represents the sequence identity characteristic of a “CentLTR” sequence, as examined in centromeres and non- non-centromeric regions in four D genomes. The right panel is the identity distribution pattern of CenLTR hits presented as a dot plot. This analysis detected a total of 152,285 CenLTRs in D1 centromeres, with 163,217 in D1 non-centromeric regions 158,815 in D3 centromeres, with 139,231 in D3 non-centromeric regions 16,093 in D5 centromeres, with 76,875 in D5 non-centromeric regions and 80,537 in Gh_Dt1 centromeres, with 246,791 in Gh_Dt1 non-centromeric regions

As we used nanopore long reads for our new genome assemblies, the centromeres are well assembled with the excellent coverage (Additional file 2: Fig. S26), thereby providing an unprecedented opportunity to study cotton centromere evolution. As we aligned G. thurberi ضد ال G. davidsonii genome, we clearly found that there were no collinearities in the middle region of each orthologous chromosome (Additional file 2: Fig. S27). Chromosomal collinearity analysis showed that many non-syntenic regions were located in the centromeric regions (Additional file 1: Table S11), indicating that the centromeric regions have higher divergence compared to their neighboring (flanking) regions.

To further support this, we aligned the previously reported G. raimondii و G. hirsutum CENH3 ChIP-Seq data against the four genomes available for D genome species (G. thurberi, G. davidsonii، و جيh_Dt1) (Additional file 2: Fig. S28). We detected a strong peak in a narrow region on G. raimondii Chr08 when mapping G. raimondii ChIP-Seq data (Additional file 2: Fig. S28a). However, upon mapping G. raimondii ChIP-Seq data against the other three examined جوسيبيوم genomes (G. thurberi, G. davidsonii، و G. raimondii), the signals were dispersed over a broader region, with no obvious major peaks. رسم الخرائط G. hirsutum CENH3 ChIP-Seq data against the G. hirsutum genome revealed an apparent peak on D12 no major peaks were detected when we mapped this data to the four other D genomes (Additional file 2: Fig. S28b). These findings underscore that centromeric regions can be highly divergent among closely related species.

We also mapped the G. thurberi Hi-C data against the G. davidsonii assembly and vice versa, we observed large gaps in the centromeric regions this indicates that centromeric sequences from the orthologous chromosomes in G. thurberi و G. davidsonii were highly divergent (Fig. 5b and Additional file 2: Fig. S3-4). Although the centromeric regions are highly divergent (without any syntenic blocks), we found that the flanking regions of the centromeres are highly conserved with good collinearities. For Chr03, Chr04, Chr07, and Chr08, no large-scale inversions were detected between orthologous chromosomes, highlighting that chromosomes arms are highly syntenic and lack obvious changes in their centromeric positions. Although there were inversions located in the chromosome arms in Chr05, Chr06, and Chr10, we observed that these inversions had no effect on centromere locations, since the centromeric flanking regions retained synteny. Chr01, Chr02, Chr09, Chr11, Chr12, and Chr13 experienced pericentromeric inversions that is, we observed that the collinearities of flanking regions were reversed between the two genomes, suggesting that inversions spanning the centromere occurred after divergence.

Centromere LTRs have undergone rapid changes

We next examined whether there were any local sequence similarities among the centromeres from non-homologous chromosomes. We used the NCBI blastn tool to align the centromere sequences, and filtered the results with a loose filter (block length larger than 2000 bp with 95% identity). We observed that the centromeric sequences are highly repetitive, and detected more similar sequences from the intraspecies comparison than the interspecies comparison, indicating that centromeres have experienced duplication after speciation (Additional file 2: Fig. S29). Moreover, we found that the sequences from G. davidsonii are more similar, indicating that the duplications occurred later than those from G. thurberi.

The DNA sequences of plant centromeres usually contain many copies of simple tandem repeats, which occur in head-to-tail arrays only those which are associated with CENH3 nucleosomes are considered to be part of the functional centromere [30]. However, our understanding of the role of these sequences in centromere function remains rudimentary at best. Unlike centromere tandem repeats in many plants [31], we found that the tandem repeat content is very low in G. thurberi و G. davidsonii (Fig. 5d). Instead, we observed strong enrichment for LTRs (especially for الغجر-type retrotransposons), suggesting that cotton centromeres have arisen from retrotransposons.

We used Kimura to analyze LTR insertion times, which revealed that LTRs in centromeres are younger than those at the whole-genome level among all D genomes (D1، د3، د5 and Gh_Dt1) (Fig. 5d). The LTRs in G. davidsonii centromeres are younger than those from G. thurberi (median of 1.336 MYA vs. 1.979 MYA), indicating that centromeres in G. davidsonii have been much more active than those of G. thurberi and supporting that the centromeres in G. davidsonii experienced expansion compared with those from G. thurberi (Fig. 5d). Unlike the nested insertion of full-length LTRs previously reported for Brassica nigra and some cereal centromeric regions [20], we detected full-length LTRs that were independently inserted into the centromeric region, e.g., in Chr04 of G. thurberi, and we identified 16 intact الغجر-type LTRs that have inserted into centromeres between 1.49 and 9.31 MYA (Fig. 5d).

We constructed a phylogenetic tree of all the LTRs to describe the pattern of diversity (Additional file 2: Fig. S30). Three subclades were mainly found in the centromeric region these were all quite distinct in sequence from the D cotton genome LTRs from non-centromere regions (Additional file 2: Fig. S30a). Moreover, we found that the LTRs from G. davidsonii tend to cluster together in the phylogenetic tree, as did those from G. thurberi, findings which indicate that the LTRs of the centromeres in G. thurberi و G. davidsonii have proliferated and spread after these two species diverged from their common ancestor (Additional file 2: Fig. S30b).

We next identify and characterize the centromeric LTRs by mapping all the intact LTRs in the G. thurberi و G. davidsonii genomes with blastn. One LTR from Chr12 (26,780,294–26,783,754) of G. thurberi had significant BLAST hits for centromeres of each orthologous chromosome in G. thurberi و G. davidsonii (Fig. 5e), and we detected a variety of highly similar sequences throughout the centromeres (this LTR type was designated as “CenLTR”). Further, alignments clearly indicated strong divergence from centromere LTR types (GhCR1-GhCR4) from G. hirsutum (Additional file 1: Table S12).

We further aligned the G. raimondii and Gh_Dt1 genomes and found that the CenLTRs are also enriched in the centromeric their regions, indicating that CenLTRs are apparently widely distributed in the centromeres of D genome species. We compared the sequence identities between the centromeres and the non-centromere sequences for each species. A lot of CenLTR polymorphisms were detected between G. davidsonii centromeres and G. davidsonii non-centromere sequences (Fig. 5e). Similar CenLTR polymorphisms were evident between Gh_Dt1 centromeres and non-centromere sequences (Fig. 5e). Surprisingly, the identity with consensus sequence was lower in the centromeric regions compared with non-centromeric regions (Fig. 5e), indicating that the LTRs have undergone rapid changes in the centromeres.

Divergent evolution of genes involved in stress tolerance

As the D subgenome donor of the widely cultivated upland cotton, G. raimondii is known to have contributed stress tolerance traits to allotetraploid cotton [32]. Nevertheless, allotetraploid cotton is sensitive to الفرتيسيليوم الداليا infection and to growth in high salinity soils these represent major challenges facing cotton production worldwide, and a lack genetic resources for improving plant tolerance to these challenges is a major constraint in current cotton breeding programs. Here, we found that G. thurberi seedlings are more tolerant to الفرتيسيليوم الداليا من G. raimondii, indicating that G. thurberi is a promising resource for upland cotton improvement (Fig. 6a). We identified 3472 and 5042 genes associated to tolerance to الفرتيسيليوم الداليا في G. thurberi و G. raimondii، على التوالى. We identified a total of 106 genes including NB-LRR, NPR1/3/4, TGA, and downstream transcriptional factors (e.g., WRKY33, SARD1, and CPB60g) potentially involved in disease responses based on their differential responses to the الفرتيسيليوم الداليا treatments between G. thurberi و G. davidsonii (Fig. 6b). The SA biosynthesis signal pathway was activated in G. thurberi، مثل PAD4, EDS1, SAMT، و SBPB2 genes were upregulated in G. thurberi على الفرتيسيليوم الداليا challenge (Fig. 6c). We overexpressed WRKY33 (Gthurberi12G176500) genes in G. hirsutum to test whether the genes from wild cotton can be used in cultivated cotton improvement. As expected, the overexpression lines displayed improved upland cotton tolerance to الفرتيسيليوم الداليا, indicating that G. thurberi can be understood as an important genetic resource for cotton breeding (Additional file 2: Fig. S31).

Models depicting the molecular basis of فرتيسيليوم wilt and salt stress tolerance in G. thurberi و G. davidsonii. أ Phenotypic comparison of G. thurberi (D1) و G. raimondii (D5) seedlings (35-day-old seedlings) in response to challenge with الفرتيسيليوم الداليا. Photographs were taken under normal conditions or 14 days after challenge with الفرتيسيليوم الداليا. ب Heat maps for differentially expressed genes with annotations related to salicylic acid (SA) signaling, NB-LRR, and WRKYs. Genes with an adjusted ص value < 0.05 and an absolute value of log2[foldchange] > 1 found by EdgeR were designated as differentially expressed. ج A proposed model showing that the SA signaling pathways enhance فرتيسيليوم wilt tolerance in G. thurberi. خامسا الداليا attack induces SA biosynthesis via the isochorismate synthase (ICS) and phenylalanine ammonia-lyase (PAL) pathways in plastids. Enhanced disease susceptibility (EDS1) and phytoalexin deficient 4 (PAD4) are required for increased SA accumulation. SA methyltransferase (SAMT) catalyzes SA to MeSA, which diffuses into the cytoplasm, where it is converted back to active SA by SABP2. The red and blue digits in brackets represent the upregulated genes in D1 و د5، على التوالى. د Phenotypic comparison of G. davidsonii (D3) و G. thurberi (D1) seedlings in response to salt stress treatment (250 mM NaCl watering 21-day-old seedlings every 2 days). Photographs were taken under normal conditions or 14 days after treatment with NaCl solution. ه Heat maps for differentially expressed genes with annotations related to ABA, ethylene, and CBL-CIPK pathways. Genes with an adjusted ص value < 0.05 and an absolute value of log2[foldchange] > 1 found by EdgeR were designated as differentially expressed. F Transcriptional network related to salt response in G. raimondii و G. davidsonii. Ethylene biosynthesis, calcium signaling, and vacuole NHX are activated in G. davidsonii. ال NCED3 gene encodes the enzyme which catalyzes the first step of ABA biosynthesis. The ABA signaling pathway, comprising PYR/PYL/RCAR, PP2C, and SnRKs proteins, is a major plant hormone involved in salt stress responses. Ethylene biosynthesis is catalyzed by the SAM, ACS (ACC synthase), and ACO (ACC oxidase) enzymes. The ethylene signaling pathway includes ethylene receptor, CTR1, and EIN2. TPK (two-pore potassium) is K+ channel that trafficks K+ out of the vacuole. NHX1 (tonoplast-based Na+/H+ exchanger) is required for sequestration of excessive Na + and Cl − in the vacuole. The red and blue digits in the brackets represent the upregulated genes in D3 و د5, respectively

على عكس G. thurberi, G. davidsonii displayed significant salt tolerance in seedlings when compared with G. raimondii (Fig. 6d). A total of 14 ethylene-related genes (including سام, ACS, ACO, EIN4, CTR، و EIN3) showed differential responses to salt treatment between G. davidsonii و G. raimondii (Fig. 6e). Genes of the CBL-CIPK مسار سhowed differential responses to salt between G. davidsonii و G. raimondii، مع ال CIPK و NHX genes being upregulated by salt treatment of G. davidsonii (Fig. 6e). Moreover, we found that other well-known stress-related genes including ERFs, GRASs WRKY, NACs، و MYBs were upregulated in G. davidsonii upon salt treatment (Fig. 6f) such genes have likely played important roles in species divergence and have likely contributed to the spread of the cotton D genome sister species in their adaptation to new ecological contexts and environments.


الاستنتاجات

There are no gold standards for genome assembly and annotation. However, the availability of NGS data (particularly TGS data) and their analytical tools has enabled the sequencing of several high-quality genomes of species of importance in aquaculture in recent years. Beginners and small research groups still face challenges, because genome assembly and annotation are usually complex analytical procedures (or pipelines) requiring interdisciplinary collaborations (from biology to computer science) and hefty costs for refining/maintaining the genome. The recommendations addressed here are broad guidelines that could be considered to avoid common pitfalls throughout the whole-genome assembly and annotation process. However, the comprehensive features (e.g., advantages and disadvantages) of each step and/or technology have not been extensively discussed.

Finally, newly emerging technologies and analytical tools could dramatically improve end-to-end genome assemblies and annotations in the future by replacing the years-long efforts of the past with rapid and low-cost solutions. Meanwhile, emphasis should be placed upon the following: First, define the achievable research aim. Second, avoid the trap of trying to secure a perfect/complete genome assembly and annotation, which could lead to a never-ending project. Third, perform assembly and annotation to gain firsthand experience, including in bioinformatics. Fourth, seek internal and external help and advice from experts. Lastly, be open to sharing genomic data to both increase research productivity and promote public awareness.


3.� Bruijn Graphs: Standard, Multisized, and Paired

3.1. Terminology

Since various assembly articles use widely different terminology, below we specify a terminology that is well suited for PDBGs. All graphs considered below are directed graphs. A vertex w precedes (يتبع) vertex الخامس in a graph جي if there exists an edge from ث إلى الخامس (من عند الخامس إلى ث) في جي. indegree (الخامس) ( outdegree (الخامس)) is the the number of vertices preceding (following) الخامس. A vertex الخامس in a graph جي is called a مركز if indegree (الخامس) 1 or outdegree (الخامس) 1. A directed path in جي is called a hub-path (abbreviated h-path) if its starting and ending vertices are hubs and its intermediate vertices are not hubs. Obviously, each edge in the graph belongs to a unique h-path. An edge is called a hub-edge (abbreviated h-edge) if it starts at a hub. There is a correspondence between h-paths and h-edges: the first edge on each h-path is an h-edge, and the h-edge is unique to that h-path. 6 Given an h-edge & # x003b1, we define the h-path starting at & # x003b1 as path (& # x003b1) and denote the number of edges in this h-path (h-path length) as | path (& # x003b1)|. لو أ هل أنا-th edge in an h-path (1 ≤ أنا ≤ | path (& # x003b1)|) starting from an h-edge & # x003b1, we define h - edge (أ) = & # x003b1 and offset (أ) = أنا ( Fig. 1 ).

Notation for decomposing a de Bruijn graph into non-branching paths (h-paths). A de Bruijn graph on reads ACCGTجAGAAT and ACCGTجيAGAAT with edge size ك =𠂔, vertex size ك −𠂑 =𠂓. Hubs are shown as solid vertices, while vertices with indegree 1, outdegree 1 are hollow. ان h-path CGT → GTG → TGA → GAG →𠂚GA (shown in red with h-edge denoted & # x003b1) defines an h-read CGTGAGA. The whole path is denoted path (& # x003b1), and consists of | path (& # x003b1)| =𠂔 edges. The edges on this path have تعويضات 1, 2, 3, 4, as indicated. Each edge can be addressed by its path's h-edge and its offset.

3.2. Standard de Bruijn graphs

ان n-mer is a string of length ن. Given an ن-mer , we define prefix and suffix .

For the rest of the paper, we fix a positive integer ك. For a set R eads of strings (thought of as the DNA sequencing reads over the alphabet <أ, ج, جي, تي>), let ن be the number of ك-mers that occur in strings in R eads as substrings. نحدد ال de Bruijn graph DB(R eads , ك) as follows ( Fig. 2 ):

D1. Define an initial graph جي0 على 2ن vertices. For each ك-mer أ that occurs in strings in R eads as a substring, introduce two new vertices ش, الخامس and form an edge ش → الخامس. Label the new edge by أ, ش by prefix (أ)، و الخامس by suffix (أ). Note that we label edges by ك-mers and vertices by (ك −𠂑)-mers.

D2. Glue vertices of جي0 together if they have the same label.

Standard and multisized de Bruijn graph. A circular G enome CATCAGATAGGA is covered by a set R eads consisting of nine 4-mers, . Three out of 12 possible 4-mers from G enome are missing from R eads (namely ), but all 3-mers from G enome are present in R eads . (أ) The outside circle shows a separate black edge for each 3-mer from R eads . Dotted red lines indicate vertices that will be glued. The inner circle shows the result of applying some of the glues. (ب) The graph DB(R eads , 3) resulting from all the glues is tangled. The three h-paths of length 2 in this graph (shown in blue) correspond to h-reads ATAG, AGGA, and GACA. Thus R eads 3,4 contains all 4-mers from G enome . (ج) The outside circle shows a separate edge for each of the nine 4-mer reads. The next inner circle shows the graph DB(R eads , 4), and the innermost circle represents the G enome . The graph DB(R eads , 4) is fragmented into 3 connected components. (د) The multisized de Bruijn graph DB(R eads , 3, 4).

In the de Bruijn graph DB(R eads , ك), an h-path passing through ن vertices defines an (ن + ك −𠂒)-mer called a hub-read (abbreviated h-read) ( Fig. 1 ). Substituting every h-path in DB(R eads , ك) by a single edge labeled by its h-read results in a condensed de Bruijn graph.

We define R eads ك as the set of all h-reads in DB(R eads , ك). Obviously, DB(R eads , ك) =�(R eads ك, ك).

نحدد ال تغطية of an edge in the de Bruijn graph DB(R eads , ك) as the number of reads that contain the corresponding ك-مر. ال coverage of a path is defined as the average coverage of its edges.

3.3. Multisized de Bruijn graphs

The choice of ك affects the construction of the de Bruijn graph. Smaller values of ك collapse more repeats together, making the graph more متشابكة. قيم أكبر لـ ك may fail to detect overlaps between reads, particularly in low coverage regions, making the graph more fragmented. Since low coverage regions are typical for SCS data, the choice of ك greatly affects the quality of single-cell assembly. Ideally, one should use smaller values of ك in low-coverage regions (to reduce fragmentation) and larger values of ك in high-coverage regions (to reduce repeat collapsing). The multisized de Bruijn graph (compare with Peng et al. [2010] and Gnerre et al. [2011]) allows us to vary ك in this manner.

Given a positive integer δ < k, we define R eads ك-& # x003b4,ك as the union of & # x003b4 +𠂑 sets: . ال multisized de Bruijn graph, DB(R eads , k−δ, ك) is defined as DB(R eads ك-δ,k, ك). Figure 2 shows the standard de Bruijn graphs DB(R eads , 3) (tangled) and DB(R eads , 4) (fragmented) as well as the multisized de Bruijn graph DB(R eads , 3, 4), which is neither tangled nor fragmented.

3.4. Practical paired de Bruijn graphs: k-bimer adjustment

In this presentation, we focus on a library with bireads having insert sizes in the range دإدراج ± Δ. ال genomic distance between two positions in a circular genome (and ك-mers starting at these positions) is the difference of their coordinates modulo the genome length. For example, the genomic distance between a pair of reads of length ℓ oriented in the same direction with insert size دإدراج يكون دإدراج − ℓ. In the ensuing discussion, we will work with genomic distances between ك-mers rather than insert sizes.

Medvedev et al. (2011a) introduced paired de Bruijn graphs (PDBG), a new approach to assembling bireads similar approaches were recently proposed in Donmez and Brudno (2011) and Chikhi and Lavenier (2011). While PDBGs have advantages over standard de Bruijn graphs when the بالضبط insert size is fixed, Medvedev et al. (2011a) acknowledged that PDBG-based assemblies deteriorate in practice for bireads with variable insert sizes and raised the problem of making PDBGs practical for insert size variations characteristic of current sequencing technologies.

Since it is still impractical to experimentally generate bireads with exact (or nearly exact) distances, we describe a computational approach that addresses the same goal. أ k-bimer is a triple (أ|ب, د) consisting of ك-مرز أ و ب together with an integer د (estimated distance between particular instances of أ و ب in a genome). SPAdes first extracts ك-bimers from bireads, resulting in ك-bimers with inexact distance estimates (inherited from biread distance estimates). ال k-bimer adjustment approach transforms this set of ك-bimers (with rather inaccurate distance estimates) into a set of adjusted ك-bimers with exact or nearly exact distance estimates. Similarly to error correction, which replaces original reads with virtual error-corrected reads (Pevzner et al., 2001), ك-bimer adjustment substitutes original ك-bimers by adjusted k-bimers. المعدل ك-bimer can be formed by two ك-mers that were not parts of a single biread in the input data. نظهر ذلك ك-bimer adjustment improves accuracy of distance estimates and the resulting assembly.


مقدمة

During the last decade, developments in DNA sequencing technology have led to a surge in the number of eukaryotic genomes being published. The bulk of these genomes belong to animals, plants, and fungi, while single-celled eukaryotes (protists) remain largely absent 1 . This is unfortunate as protists have an enormous diversity of cellular morphologies, physiology, and genetics, possibly even more so than their multicellular relatives 2 . Although there has been a recent increase in the number of available protist genomes e.g. 3,4,5 , some groups are still completely devoid of any genomic information 6 .

One protist group, of which we have no genomic information is the green algal order Dasycladales whose species have a very characteristic cellular morphology. Despite being unicellular, and having only a single nucleus, some species can grow to more than 10 cm in length 7 . Acetabularia acetabulum is the most studied species of Dasycladales. This umbrella-looking organism is elongated in an apical-basal direction with the root-like rhizoid in the basal end and a disc-shaped cap in the apical end, separated by a long stalk 7,8 .

The size and highly elaborate cellular morphology, together with a large and distinct nucleus, made أسيتابولاريا an attractive model system for studies of cell biology and genetics. Already in the 1930s, Joachim Hämmerling used أسيتابولاريا to prove that cellular morphogenesis was influenced by so-called “morphogenetic substances” (later confirmed to be RNA) which were produced by the nucleus and distributed to the rest of the cell 9 . By transplanting and exchanging the apical and basal parts between A. acetabulum و A. crenulata, he observed that the cap developed into the morphology of the basal donor, demonstrating that the nucleus-containing rhizoid was in control of the morphogenetic fate of the cell 10,11 .

Despite its popularity and importance in early cell biology and genetics, the interest in A. acetabulum and its sister species dropped towards the end of the 1990s. As of yet, no attempt has been reported to sequence and assemble the genome of A. acetabulum, or any other dasycladalean species. The lack of Dasycladalean genomes, and protist genomes in general, can to a large extent be explained by the challenge of obtaining sufficient levels of genomic DNA required for sequencing. ال A. acetabulum cell has a life cycle of 3 months when cultivated in a highly nutritious media 12 and cultures cannot be grown densely (maximum 25 algae in 50 ml) 11 . Typical library preparation protocols for whole genome sequencing depend on several hundred nanograms of input DNA, which equates to thousands of A. acetabulum individuals for a single sequencing sample. Considering the potentially enormous size of the A. acetabulum genome, with the diploid nuclear genome estimated to be 1.85 pg (ca. 1.8 Gb) based on flow-cytometry measurements 13 , this further increases the demand for DNA input.

In order to solve the challenges of limited DNA material, several methods for amplification of genomic DNA have been developed. The earliest whole genome amplification (WGA) methods were based on short-length PCR amplifications with random or degenerate primers 14,15 . These methods often recovered only small fractions of the genomes and were hugely influenced by biases introduced by PCR amplification 16,17 . The most promising development in WGA has been the use of multiple displacement amplification (MDA). This method utilizes the phi29 polymerase which copies DNA with high fidelity and incorporates more than 70,000 nucleotides without falling off the template, resulting in large stretches of amplified DNA 16,18 . However, there are several challenges associated with the phi29-based MDA method. First, as the MDA method relies on random priming, the priming and amplification do not distinguish between target and possible contaminant DNA in the sample. من جديد assemblies can therefore be challenging if databases lack target genomes or contaminant sequences 19 . Second, and again like PCR-based amplification methods, MDA is also prone to amplification bias. Observations made on bacterial genomes amplified by MDA have shown that certain genomic regions seem to be more readily amplified than others, creating highly uneven coverage across the genome 19,20,21,22 . MDA-generated data therefore rarely results in full genome recovery. López-Escardó et al. 23 used MDA to amplify the genome of three cells of the protist Monosiga brevicollis and showed highly uneven coverage and a genome recovery of 6–36% from each cell when mapping to a reference assembly, and Mangot et al. 24 recovered about 20% of the genome when assembling cells of the protist group MAST-4. However, both studies highlighted the importance of amplifying the DNA from several cells, as this greatly increased recovery 23,24 .

A promising method to reduce bias associated with MDA, and thereby increase genomic coverage, is to divide the amplification reaction into nano-sized droplets, a method referred to as droplet MDA (dMDA) 25,26,27 . The idea behind dMDA is to isolate the target DNA fragments into tiny droplets and thereby reducing the competition of encountering a polymerase, leading to a more uniform amplification and overall improved genome coverage. Marcy et al. 25 tested the effect of droplet MDA by detection of 10 gene loci from 14 dMDA and 12 standard MDA reactions of بكتريا قولونية cells and found that all 10 loci were found in all 14 dMDA samples, but that several loci were missing from multiple standard MDA samples. In addition, samples generated with dMDA displayed a much more uniform amplification (measured by copies of loci/ul) than the samples generated by standard MDA. Likewise, the genome recovery from sequencing بكتريا قولونية cells was increased from 59% with standard MDA to 89% using dMDA 28 .

The goal of the present study was to genome sequence and من جديد assemble the genome of A. acetabulum. To obtain sufficient genomic DNA for sequencing we have amplified DNA from single embryonic cells using dMDA. We present an assessment of the sequencing data produced by single-cell dMDA, and its usefulness for assembly of large eukaryotic genomes. In addition, we compare three different assembly strategies assembling each single-cell dMDA library separately, assembling these individual assemblies into a meta-assembly, and assembling all the sequencing libraries combined (co-assembly). This study is among the first to use single-cell dMDA for sequencing and من جديد assembly of a eukaryote genome and should serve as a useful reference for future attempts to sequence species that are difficult to cultivate or collected from the environment.


الملخص

The red-spotted grouper Epinephelus akaara (E. akaara) is one of the most economically important marine fish in China, Japan and South-East Asia and is a threatened species. The species is also considered a good model for studies of sex inversion, development, genetic diversity and immunity. Despite its importance, molecular resources for E. akaara remain limited and no reference genome has been published to date. In this study, we constructed a chromosome-level reference genome of E. akaara by taking advantage of long-read single-molecule sequencing and de novo assembly by Oxford Nanopore Technology (ONT) and Hi-C. A red-spotted grouper genome of 1.135 Gb was assembled from a total of 106.29 Gb polished Nanopore sequence (GridION, ONT), equivalent to 96-fold genome coverage. The assembled genome represents 96.8% completeness (BUSCO) with a contig N50 length of 5.25 Mb and a longest contig of 25.75 Mb. The contigs were clustered and ordered onto 24 pseudochromosomes covering approximately 95.55% of the genome assembly with Hi-C data, with a scaffold N50 length of 46.03 Mb. The genome contained 43.02% repeat sequences and 5,480 noncoding RNAs. Furthermore, combined with several RNA-seq data sets, 23,808 (99.5%) genes were functionally annotated from a total of 23,923 predicted protein-coding sequences. The high-quality chromosome-level reference genome of E. akaara was assembled for the first time and will be a valuable resource for molecular breeding and functional genomics studies of red-spotted grouper in the future.


توقعات - وجهات نظر

Conservation applications

We have summarized information on current methods for whole-genome sequencing, assembly and annotation, with the aim of providing practical guidance for conservation or ecology-oriented research groups moving into the field of genomics. The focus has been on large and complex genomes of nonmodel organisms relevant from a conservation perspective. In the introduction, we outlined a number different ways in which genomic resources in general, and a complete genome sequence, in particular, can be applied in a conservation biology setting (see also Fig. 1). Conservation genomics being a young field, examples where genomic resources have been put to the test in an applied conservation context are still limited, but a few such cases may be worth highlighting.

One of the first nonmodel genomes to be sequenced using the Illumina technology was the giant panda (Li et al. 2010 ). While the focus of the panda genome paper was not on conservation issues, follow-up studies have utilized the draft genome to make inferences about population structure, adaptive genetic variation and demography (Wei et al. 2012 ). Likewise in the Aye-Aye, resequencing data from twelve individuals from different parts of Madagascar were utilized to infer fine-scale genetic population structure and conduct landscape genetic analyses. The results were used to provide guidance for allocation of conservation resources towards preserving large and contiguous habitats in northern Madagascar (Perry et al. 2013 ). Genomic resources have further been utilized in breeding programs of the Tasmanian devil, which is endangered in the wild due to a contagious facial cancer. The generation of a reference genome sequence in combination with genomewide resequencing data has made it possible to investigate many details of this disease, including the identification of candidate genes involved in tumorigenesis (Murchison et al. 2012 ). Similarly, genomic resources have been utilized to limit the spread of a developmental disease causing mutation in breeding programs of the California condor (Romanov et al. 2009 ). Finally, genomewide SNP screening has been effective in several studies of fishery stock monitoring and management (Primmer 2009 Nielsen et al. 2012a ).

Future directions

With rapid progress in sequencing nano-technology and further development of computational methods, we can expect that all steps of the workflow will continue to be improved. New library preparation protocols will enable sequencing from less starting material, producing libraries with longer and more precisely estimated insert sizes and generating longer reads with reduced error rates. The development of more efficient assembly algorithms and increasing computational power will make the bioinformatic data processing amenable to a larger spectrum of users. As the costs involved in genome sequencing and assembly continues to drop, the generation of a draft genome sequence will soon become routine, also for species with large genomes. This development will mean that even small research groups with limited funding will soon be expected to develop genomic resources for their species of choice, reinforcing the use of genomic approaches in conservation biology and related disciplines. سيكون التطوير المحتمل لحلول التسلسل السريع والمدمج التي يمكن تطبيقها مباشرة في الوضع الميداني مفيدًا بشكل خاص للعديد من تطبيقات الحفظ. هناك مجال مهم آخر للتقدم يكمن في استخدام عينات منخفضة الجودة ، تم الحصول عليها من أخذ العينات غير الغازية أو مواد المتحف التي من شأنها أن تسمح بمراقبة التنوع الجيني عبر الزمن. سيكون تطوير طرق تخزين ومشاركة البيانات الجينومية أمرًا حاسمًا أيضًا ، لتحقيق أقصى استفادة من هذه الموارد من أجل الحفظ. على الرغم من هذه التطورات الواعدة ، يجب أن ندرك أن العلم وحده لا يكفي لمواجهة تحديات الحفظ المستقبلية. لذلك يجب أن يكون الانتقال التقني من علم الوراثة للحفظ إلى بيانات مقياس الجينوم مصحوبًا بإحكام بمناقشة حول كيفية استفادة بيولوجيا الحفظ التطبيقية بشكل أفضل من البيانات الجينية (انظر على سبيل المثال McMahon et al. ، 2014). يجب أن تؤخذ هذه المناقشة على المستوى العام على أساس كل حالة على حدة وتشمل العلماء وصناع القرار السياسي على حد سواء.


شاهد الفيديو: اية واحدة و عشر قراءات (شهر فبراير 2023).