معلومة

حساب مصفوفة المسافة فوق المترية

حساب مصفوفة المسافة فوق المترية


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أنا جديد إلى حد ما في تحليل النشوء والتطور ، لذلك أعتقد أن هذا سؤال أساسي. إذا كان لدي مجموعة من التتابعات المحاذية ، وكنت مهتمًا في النهاية فقط بالمسافة الزوجية (على سبيل المثال لحساب التنوع الوراثي) ، فهل هناك أي طريقة للتأكد من أن هذه المسافات تعكس شجرة فائقة القياس دون الحاجة إلى حساب الشجرة نفسها أولاً؟ مما يمكنني قوله ، لإنشاء مصفوفة مسافة فائقة ، يجب أن أحسب أولاً شجرة فوق قياس ثم استخدم هذه الشجرة للحصول على مسافات. لكن هذا يبدو عكسيًا بعض الشيء بالنسبة لي ، حيث يمكنني إنشاء مصفوفة مسافة زوجية دون الحاجة إلى إنشاء شجرة ، لكن لا يمكنني معرفة ما إذا كانت هناك طريقة للتأكد من أن هذه المصفوفة تفترض نوعًا من الساعة الجزيئية الأساسية من أجل تأكد من أن المسافات تعكس شجرة فوق القياس.

أفترض أنني أخفق بشكل أساسي في فهم شيء ما. أي مساعدة سيكون محل تقدير كبير.


حسب فهمي ، لا يمكنك تخطي بناء الشجرة ، حيث لا يوجد ضمان بأن المسافات الزوجية متوافقة مع الشجرة ، حتى بالنسبة للأشجار غير المترية. أي ، لإنشاء مصفوفة مسافة زوجية تعكس المسافات الآبائية بين أوراق الشجرة ، تحتاج إلى إنشاء شجرة أولاً. حتى بدون شرط القياس الفائق.

العامل المعقد هنا هو أن مصفوفات المسافات المتوافقة مع الأشجار يجب أن تحترم أيضًا المسافات إلى العقد الداخلية غير المرصودة ... قد تكون مشاركة المدونة هذه حول كيفية جعل شجرة فوق القياس ذات صلة.


إطار متعدد الأبعاد لقياس الجدة الحيوية: ما مدى حداثة المجتمع؟

كونراد شيتكو ، بحوث التنوع البيولوجي / علم النبات المنهجي ، جامعة بوتسدام ، بوتسدام ، ألمانيا.

معهد برلين-براندنبورغ لأبحاث التنوع البيولوجي المتقدمة (BBIB) ، برلين ، ألمانيا

معهد علم الأحياء ، جامعة برلين الحرة ، برلين ، ألمانيا

Leibniz-Institute of Freshwater Ecology and Inland Fisheries (IGB) ، برلين ، ألمانيا

بحوث التنوع البيولوجي / علم النبات المنهجي ، جامعة بوتسدام ، بوتسدام ، ألمانيا

معهد برلين-براندنبورغ لأبحاث التنوع البيولوجي المتقدمة (BBIB) ، برلين ، ألمانيا

بيئة الاستعادة ، جامعة ميونخ التقنية ، فريسينج ، ألمانيا

معهد برلين براندنبورغ لأبحاث التنوع البيولوجي المتقدمة (BBIB) ، برلين ، ألمانيا

قسم البيئة ، علم النظم البيئية / علم البيئة النباتية ، جامعة برلين التقنية ، برلين ، ألمانيا

معهد برلين-براندنبورغ لأبحاث التنوع البيولوجي المتقدمة (BBIB) ، برلين ، ألمانيا

قسم البيئة ، علم النظم البيئية / علم البيئة النباتية ، جامعة برلين التقنية ، برلين ، ألمانيا

معهد برلين براندنبورغ لأبحاث التنوع البيولوجي المتقدمة (BBIB) ، برلين ، ألمانيا

قسم البيئة ، علم النظم البيئية / علم البيئة النباتية ، جامعة برلين التقنية ، برلين ، ألمانيا

معهد برلين براندنبورغ لأبحاث التنوع البيولوجي المتقدمة (BBIB) ، برلين ، ألمانيا

قسم البيئة ، علم النظم البيئية / علم البيئة النباتية ، جامعة برلين التقنية ، برلين ، ألمانيا

بحوث التنوع البيولوجي / علم النبات المنهجي ، جامعة بوتسدام ، بوتسدام ، ألمانيا

معهد برلين براندنبورغ لأبحاث التنوع البيولوجي المتقدمة (BBIB) ، برلين ، ألمانيا

معهد المناظر الطبيعية والفضاء المفتوح ، HSR Hochschule für Technik ، Rapperswil ، سويسرا

معهد برلين براندنبورغ لأبحاث التنوع البيولوجي المتقدمة (BBIB) ، برلين ، ألمانيا

معهد علم الأحياء ، جامعة برلين الحرة ، برلين ، ألمانيا

Leibniz-Institute of Freshwater Ecology and Inland Fisheries (IGB) ، برلين ، ألمانيا

بحوث التنوع البيولوجي / علم النبات المنهجي ، جامعة بوتسدام ، بوتسدام ، ألمانيا

معهد برلين براندنبورغ لأبحاث التنوع البيولوجي المتقدمة (BBIB) ، برلين ، ألمانيا

كونراد شيتكو ، بحوث التنوع البيولوجي / علم النبات المنهجي ، جامعة بوتسدام ، بوتسدام ، ألمانيا.

معهد برلين-براندنبورغ لأبحاث التنوع البيولوجي المتقدمة (BBIB) ، برلين ، ألمانيا

معهد علم الأحياء ، جامعة برلين الحرة ، برلين ، ألمانيا

Leibniz-Institute of Freshwater Ecology and Inland Fisheries (IGB) ، برلين ، ألمانيا

بحوث التنوع البيولوجي / علم النبات المنهجي ، جامعة بوتسدام ، بوتسدام ، ألمانيا

معهد برلين براندنبورغ لأبحاث التنوع البيولوجي المتقدمة (BBIB) ، برلين ، ألمانيا

بيئة الاستعادة ، جامعة ميونخ التقنية ، فريسينج ، ألمانيا

معهد برلين-براندنبورغ لأبحاث التنوع البيولوجي المتقدمة (BBIB) ، برلين ، ألمانيا

قسم البيئة ، علم النظم البيئية / علم البيئة النباتية ، جامعة برلين التقنية ، برلين ، ألمانيا

معهد برلين براندنبورغ لأبحاث التنوع البيولوجي المتقدمة (BBIB) ، برلين ، ألمانيا

قسم البيئة ، علم النظم البيئية / علم البيئة النباتية ، جامعة برلين التقنية ، برلين ، ألمانيا

معهد برلين براندنبورغ لأبحاث التنوع البيولوجي المتقدمة (BBIB) ، برلين ، ألمانيا

قسم البيئة ، علم النظم البيئية / علم البيئة النباتية ، جامعة برلين التقنية ، برلين ، ألمانيا

معهد برلين براندنبورغ لأبحاث التنوع البيولوجي المتقدمة (BBIB) ، برلين ، ألمانيا

قسم البيئة ، علم النظم البيئية / علم البيئة النباتية ، جامعة برلين التقنية ، برلين ، ألمانيا

بحوث التنوع البيولوجي / علم النبات المنهجي ، جامعة بوتسدام ، بوتسدام ، ألمانيا

معهد برلين براندنبورغ لأبحاث التنوع البيولوجي المتقدمة (BBIB) ، برلين ، ألمانيا

معهد المناظر الطبيعية والفضاء المفتوح ، HSR Hochschule für Technik ، Rapperswil ، سويسرا

معهد برلين براندنبورغ لأبحاث التنوع البيولوجي المتقدمة (BBIB) ، برلين ، ألمانيا

معهد علم الأحياء ، جامعة Freie Universität برلين ، برلين ، ألمانيا

Leibniz-Institute of Freshwater Ecology and Inland Fisheries (IGB) ، برلين ، ألمانيا


الملخص

يمكن أن تؤدي التغيرات البشرية المنشأ في أنظمة المناخ ، واستخدام الأراضي ، والاضطراب ، وكذلك إدخال الأنواع غير الأصلية إلى تحول العديد من النظم البيئية. عادة ما تتميز النظم البيئية الجديدة الناتجة بتجمعات الأنواع التي لم تحدث من قبل في منطقة معينة. إن تحديد الحداثة البيئية للمجتمعات (أي الجدة الحيوية) من شأنه أن يعزز فهم التغيير البيئي. ومع ذلك ، لا يزال التقدير الكمي يمثل تحديًا نظرًا لأن المقاييس الجديدة الحالية ، مثل عدد و / أو نسبة الأنواع غير الأصلية في المجتمع ، لا ترقى إلى مستوى النظر في الجوانب الوظيفية والتطورية للحداثة الحيوية. هنا ، نقترح مؤشر الجدة الحيوية (BNI) ، وهو مقياس متعدد الأبعاد بديهي ومرن يجمع (أ) الاختلافات الوظيفية بين الأنواع الأصلية وغير الأصلية مع (ب) الديناميات الزمنية لمقدمات الأنواع. نظهر أن BNI هو قسم مضاف من إنتروبيا Rao التربيعية ، يلتقط عنصر التفاعل الجديد للتنوع الوظيفي للمجتمع. تظهر عمليات المحاكاة أن المؤشر يختلف بشكل متوقع مع المقدار النسبي للجدة الوظيفية المضافة بواسطة الأنواع التي وصلت حديثًا ، وتوضح الحاجة إلى توفير نسخة قياسية إضافية من الفهرس. نقدم رمز R مفصلاً واثنين من تطبيقات BNI من خلال (أ) قياس التغيرات في الجدة الحيوية لمجتمعات نباتات الأراضي العشبية الجافة على طول تدرج التحضر في منطقة حضرية و (ب) تحديد الجدة الحيوية لتجمعات الأنواع النباتية على نطاق وطني . توضح النتائج قابلية تطبيق المؤشر عبر المقاييس ومرونته في استخدام البيانات ذات الجودة المختلفة. كشفت دراستا الحالة عن روابط قوية بين الجدة الحيوية وزيادة التحضر ، وهو مقياس للجدة اللاأحيائية. نستنتج أن إطار عمل BNI قد يساعد في بناء أساس لفهم أفضل للعواقب البيئية والتطورية للتغيير العالمي.


نتائج

نهج الحبيبات الخشنة لإعادة بناء النشوء والتطور

يعطي الشكل 1 توضيحًا موجزًا ​​حول كيفية تناسب خوارزمية CGP المقترحة مع كثافة تعدد الأشكال المحلي (SSPs) لأزواج الجينوم لاستنتاج شجرة النشوء والتطور الخاصة بهم ، مع التخلي عن إعادة بناء ARG. باختصار ، يعتمد CGP على نموذج رياضي [5 ، 6] يصف تطور تباعد التسلسل الجيني كميًا ، هذا النموذج قابل للتطبيق على كل من متواليات النوكليوتيدات وتسلسلات الأحماض الأمينية ، ولا يفترض معدل إعادة التركيب المنخفض. يمكن أن يؤدي إعادة التركيب إلى إدخال امتدادات الحمض النووي التي تتميز بكثافة عالية من الاستبدالات ، ويأخذ النموذج في الاعتبار كثافات الاستبدال المحددة في الأجزاء الجينومية. تنقسم محاذاة تسلسل النوكليوتيدات (أو السلسلة المقابلة لمحاذاة تسلسل الأحماض الأمينية) إلى سلسلة من المقاطع المتتالية غير المتداخلة ، ولكل منها لس مواقع لزوج من الجينومات ، نقوم بتعداد SSPs على كل جزء للحصول على توزيع SSP. تأخذ خوارزمية CGP توزيع SSP لكل زوج من الجينومات المعتبرة كمدخلات. يمكن استنتاج وقت اندماج اثنين من الجينومات عن طريق ملاءمة نموذج CGP لتوزيع SSP التجريبي. الشجرة فوق القياس التي تصف المكون الرأسي للميراث فيما بين ن يمكن استنتاج الجينومات من الأزمنة المترابطة الناتجة عن النوبات إلى ن(ن-1) / 2 توزيعات SSP تجريبية ، يتم تنفيذها بواسطة دالة درجات المعادلة. (3) (طرق). قمنا بتطوير خوارزمية CGP ، والتي تستخدم محاكاة مونت كارلو لأخذ عينات من النموذج + مساحة الشجرة ، وتحديد الشجرة والمعلمات التي تؤدي إلى أعلى الدرجات. كمثال ، يقارن الشكل 2 أشجار النشوء والتطور التي أعيد بناؤها بواسطة CGP و RAxML ، والشكل S3 للأشجار التي أعيد بناؤها بواسطة خوارزميات مختلفة.

توضيح لإجراءات خوارزمية CGP المقترحة. أ تأخذ الخوارزمية ن يتم تمثيل التسلسلات المتوافقة كمدخلات ، والتي يمكن أن تكون متواليات نيوكليوتيدية أو بدائل متواليات الأحماض الأمينية على التسلسلات بعلامات ملونة. ب كل من ن(ن-1) / 2 أزواج الجينوم مقسمة إلى أجزاء متساوية الحجم ، ويتم تعداد البدائل الزوجية على كل قطعة للحصول على توزيع كثافة SSPs المحلية (يشار إليها باسم ز(x)). ج تهدف الخوارزمية إلى استنتاج مصفوفة المسافة لأزواج تسلسل الجينوم من ن(ن-1) / توزيعات 2 SSP. د على وجه الخصوص ، تناسب الخوارزمية توزيعات SSP التجريبية مع نموذج يتضمن إدخال هذا النموذج مصفوفة من ن(ن-1) / 2 مرات اندماج ومعلمات النموذج الأخرى (معدل الطفرة ميكرومترمعدل إعادة التركيب ρ، متوسط ​​الاختلاف السكاني θ وكفاءة النقل δTE). ه في عملية التركيب ، فإن ن(ن-1) / 2 مرات الاندماج مقيدة (خلايا المصفوفة التي لها نفس اللون لها نفس القيمة) ، بحيث يمكن تعيين المصفوفة بشكل حيوي إلى شجرة UPGMA. F تستكشف الخوارزمية مساحة معلمة النموذج ومساحة الشجرة للحصول على أفضل شجرة فوق القياس


حساب مصفوفة المسافة

أشرح هنا حسابات مصفوفة المسافة باستخدام دالة R dist ().

أولاً ، دع & # 8217s يعد مجموعة بيانات صغيرة للعمل معها:

كيف تبدو مجموعة البيانات هذه في الفضاء ثلاثي الأبعاد؟

يمكننا أن نرى أن النقطتين 4 و 6 بعيدتان تمامًا عن بعضهما البعض.

سيكون حساب مصفوفة المسافة الأول الذي نحسبه & # 8217ll هو المسافة الإقليدية ، نظرًا لأنه & # 8217s أسهل في الفهم والافتراضي للتوزيع (). المسافة الإقليدية هي ببساطة المسافة التي يمكن للمرء أن يقيسها جسديًا ، على سبيل المثال باستخدام المسطرة. بالنسبة للأبعاد n ، صيغة المسافة الإقليدية بين النقاط ص و ف يكون:

كما نرى أعلاه في مصفوفة المسافة ، فإن المسافة بين النقطتين 4 و 6 هي 12691 (كما حسبنا باستخدام الصيغة) وهي أيضًا أبعد نقطتين (كما رأينا في مخطط التشتت ثلاثي الأبعاد).

التالي هو طريقة & # 8220maximum & # 8221. إذا قمت بكتابة؟ dist ، يمكنك الحصول على وصف الحد الأقصى

المسافة القصوى بين عنصرين من x و y (القاعدة العليا)

بصراحة ، ليس لدي أي فكرة عما يعنيه ذلك ، لذلك دعونا & # 8217s نحاول معرفة ذلك بمثال.

مسافة مينكوفسكي هي مقياس على الفضاء الإقليدي يمكن اعتباره تعميمًا لكل من المسافة الإقليدية ومسافة مانهاتن.

التجميع على أساس مقاييس بعيدة مختلفة

كان السؤال الأكثر أهمية بالنسبة لي هو كيف أثرت حسابات المسافة المختلفة على العلاقات في البيانات.

باستخدام متوسط ​​الارتباط ، تم الحفاظ على نفس العلاقات مع كل طريقة حساب مصفوفة المسافة (لمجموعة البيانات العشوائية هذه).

الارتباط بين مصفوفات المسافة

يقوم اختبار Mantel بإجراء ارتباط بين مصفوفتين للمسافات تم تنفيذهما في R وهو جزء من حزمة ade4.

يمكن اعتبار مسافة مينكوفسكي تعميمًا لكل من المسافة الإقليدية ومسافة مانهاتن ، وبالتالي لاحظنا الارتباطات العالية (0.98 و 0.96 على التوالي).

بينما ترتبط مسافة كانبرا بمسافة مانهاتن ، لا يوجد ارتباط بين مصفوفات المسافة.

الاستنتاجات

قد تؤثر مقاييس المسافة المختلفة بشكل كبير على العلاقات في مجموعة البيانات الخاصة بك. تتمثل إحدى طرق مقارنة ارتباط مصفوفات المسافات في اختبار Mantel ، الذي يتم تنفيذه في R ضمن حزمة ade4.

أنظر أيضا

هذا الدليل لتسمية النقاط على مخطط مبعثر ثلاثي الأبعاد (وكيفية عمل مخططات مبعثرة ثلاثية الأبعاد).

مسافات سلبية

علمت مؤخرًا (نوفمبر 2017) عن المسافات السلبية من ورقة التجميع عن طريق تمرير الرسائل بين نقاط البيانات ، وتحديداً المسافة الإقليدية التربيعية السلبية. تحتوي مجموعة حزمة R على الوظيفة negDistMat () ، والتي يمكن استخدامها لحساب المسافة الإقليدية التربيعية السالبة (وغيرها).

كما هو مذكور في ورقة التجميع ، للنقاط و ،

هنا & # 8217s التنفيذ في R.


/>
هذا العمل مرخص بموجب المشاع الإبداعي
ترخيص Attribution 4.0 International.

شارك هذا:

مثله:

متعلق ب

هل جربت أيضًا القياس متعدد الأبعاد على بيانات التوزيع؟

لا لم أحاول ذلك & # 8217t. & # 8217m لست متأكدًا من كيفية تفسير نتائج ذلك.

أهلا،
كنت أتساءل عما إذا كان يمكنك مساعدتي في وضعي. أقوم بإجراء اختبار Mantel لبياناتي البيئية ، وقمت بعمل مقاطع مختلفة في الغابة وداخل كل مقطع مقطعي لدي مسافات إقليدية لنباتاتي البؤرية. لذا ، كل شيء على ما يرام ، يمكنني إنشاء المصفوفات الخاصة بي دون استخدام الإحداثيات وأنا قادر على إجراء اختبار Mantel لكل مقطع مقطعي.
لكن ، الآن أريد أن أعرف ما إذا كان مجتمعي بأكمله (جميع المقاطع المقطوعة) لديه ارتباط تلقائي مكاني. لدي إحداثيات GPS لكل مقطع ، ولكن ليس لكل مصنع مما يعقد الأمور لأنني لا أستطيع معرفة المسافة لكل مصنع بين المقاطع. لذلك ، يمكنني معرفة المسافات بين المقاطع (عن طريق تحويل المنسقات الخاصة بي إلى مسافات إقليدية) ولكن كيف يمكنني إنشاء مسافات بين المحطات البؤرية؟
من الصعب جدًا شرح ذلك ، لذلك آمل حقًا أن أكون منطقية. هل تعرف ورقة قد تأخذني إلى الاتجاه الصحيح؟ أو هل تعرف كيف تفعل ذلك؟
شكرا لك على وقتك.

شكرًا على السؤال ولكن للأسف إنه & # 8217s خارج مجال بحثي قليلاً (أنا & # 8217m لست على دراية بما هو المقطع العرضي).

إذا كانت لديك إحداثيات كل نبات داخل مقطع مقطعي بالنسبة لمركز المقطع العرضي ، على سبيل المثال ، وتزامن مراكز المقاطع ، فيمكنك عندئذٍ العثور على إحداثيات كل نبات عن طريق إضافة الإحداثيات معًا.

R_plant = R_transect + r_plant_in_transect.

يعمل هذا طالما كان لديك إحداثيات للنباتات التي تم قياسها بالنسبة إلى موقع ثابت (وليس مجرد مسافة ، على الرغم من أن الإحداثيات يمكن أن تأخذ شكل مسافة + زاوية قطبية).

شكرا لك! لقد إصلاح المشكلة. الشيء الضخم هو أنه ليس لدي إحداثيات GPS لكل مصنع.


لنلقِ نظرة على مكونات المعادلة واحدًا تلو الآخر أولاً لأنه من السهل وصف كل جزء بمفرده. يمكننا القيام بذلك لأنه تمت إضافتهما معًا في حساب $ Q_$. المكون 1 ، $ (م -2) د_يقول $ أننا نريد كمية ستكون العقوبة الإجمالية ، إذا كانت كل مسافة لتسلسل $ m $ هي $ d_باستثناء مسافتين بينهما (التناسب المباشر بحيث يكون $ Q_ propto (م -2) د_$). المكون 2 ، $ اليسار ( sum_د_ right) يقول $ ، أننا ننظر إلى مجموع تسلسل المسافات $ i $ مقابل كل التسلسلات الأخرى التي تستثني نفسها (إنها تناسب عكسي بحيث يكون $ Q_ propto left ( sum_د_ right) ^ <-1> $) و $ left ( sum_د_ right) $ as component3 مماثل.

الجيران غير المباشرين يعني أنه على شجرة النشوء والتطور ، يوجد تسلسلان موجودان (تسلسلات في المحاذاة) لهما مجموعة تسلسلات أخرى يمكنها ربطهما معًا. إذا كان هناك تسلسلين مرتبطين ببعضهما البعض ، فعندئذٍ على شجرة النشوء والتطور سينتجان تشعبًا وأصغر مسافة بينهما على أنها مباشرة ذات الصلة ، $ (م -2) د_ & lt يسار ( sum_د_ + sum_د_ حق) $ ، على سبيل المثال. $ d_= 1 دولار والباقي أكبر من 1 يعطينا رقمًا منخفضًا. إذا كان $ f_<>> (د_) تم استخدام $ أننا سنستخدم أقصى مسافة للمكون 1 لذا فإن المقياس العام سيكون موجبًا وكبيرًا قدر الإمكان.

باختصار ، يوفر مقياسًا لوضع التسلسلات مع أقرب مسافة. قد تقول إن هذا "مبالغة" حيث يمكننا فقط البحث في مجموعة مسافات $ m ^ 2/2-m $ واختيار الحد الأدنى. في هدف إنتاج الشجرة ، تصبح الأمور أكثر إثارة للاهتمام. لنفترض إلقاء نظرة على 3 متواليات $ i، j، k $ لمجموعة أكبر $ m $ ، وسترى أن التسلسلات معًا لها نفس المسافة بينها $ d_= د_$ فيما يتعلق بـ $ i $. $ د_= د_يعني $ أن $ j $ مسافة متساوية لجميع التسلسلات الأخرى كما هو الحال مع $ i $ ولنفترض $ d_= ماكس الأرض د_= د_$ (التسلسل $ k $ هو متساوي البعد لجميع التسلسلات باستثناء تسلسل معين $ z $ ويمكن أن يحدث في بعض المناطق في المحاذاة). ما الذي ننضم إليه بـ $ i $؟ وفقًا للصيغة ، نختار $ k $ على $ j $ لأن $ k $ يكون أكثر بعدًا عن التسلسل (التسلسلات) الأخرى لأنه سيوفر عددًا سالبًا أكثر (القيم الأدنى تسبب المكونين الثاني والثالث على الرغم من أن المكون 1 هو نفسه في في القضيتين). على نحو فعال ، نريد الحد الأدنى للمسافة إلى $ i $ وفي نفس الوقت أقصى مسافة من التسلسلات الأخرى (يساعد تعاقب التسلسلات التي يمكن أن تكون وثيقة الصلة بالتسلسلات الأخرى على إنتاج شجرة أفضل بشكل عام).

أندرس جورم بيدرسن (من جامعة دي تي يو) في مقاطع الفيديو الخاصة به على Coursera (أيضًا على YT) يقدم بعض الأمثلة العددية لمعرفة كيفية إنتاج الأرقام على شجرة مثال.


أشجار UPGMA و WPGMA

هناك طريقتان متصلتان لاستنتاج أشجار النشوء والتطور من محاذاة تسلسل متعددة (MSAs) هما طريقة مجموعة الزوج غير الموزون مع المتوسط ​​الحسابي (UPMGA) وطريقة مجموعة الزوج الموزون بمتوسط ​​حسابي (WPGMA). كلاهما عبارة عن طرق تجميع من أسفل إلى أعلى تعمل عن طريق توصيل تسلسلات متشابهة أولاً ، ثم تسلسلات أكثر بعدًا.

تستنتج UPGMA و WPGMA الأشجار فوق الصوتية. هذه هي الأشجار التي يمكن رسمها على النحو التالي زمن وحيث تصطف النصائح في الوقت المناسب ر = 0. المحور الزمني للأشجار المستنبطة UPGMA و WPGMA في البدائل لكل موقع.

إذا تم إنشاء محاذاة تسلسل متعدد عن طريق تطور تسلسل أسلاف في العقدة الجذرية على طول الشجرة إلى الأطراف بمعدل استبدال (أو طفرة) ثابت ، يُقال أن التسلسل يشبه الساعة. عند التبديل معدل التسلسل معروف ، يمكن تحويل المسافات الجينية إلى مرات. بمعنى آخر ، يمكن استخدام التسلسلات في الوقت الحاضر كساعة لتقدير التوقيت الدقيق للعقد في الماضي!

ضع في اعتبارك شجرة الجانب الأيسر ، حيث يكون محور الوقت (المحور ص) في البدائل لكل موقع: لنفترض أن معدل الاستبدال هو 0.01 من الاستبدالات لكل موقع لكل مليون سنة. ثم يمكننا إعادة قياس المحور ص بهذا المعدل لاشتقاق شجرة الجانب الأيمن التي تبلغ ملايين السنين:

نظرًا لأن الأشجار المستنتجة فائقة القياس ، تفترض UPGMA و WPGMA ضمنيًا أن بيانات التسلسل يتم إنشاؤها بواسطة ساعة جزيئية. في حالة انتهاك الساعة الجزيئية ، لا ينبغي استخدام هذه الطرق.

الآن سوف نتعلم كيفية محاكاة التسلسلات من شجرة المثال أعلاه ، واستخدام MSA المحاكاة لإعادة بناء الشجرة الأصلية باستخدام UPGMA. يمكن ترميز شجرة المثال الخاصة بنا باستخدام سلسلة Newick التالية:

إذا حفظنا هذه السلسلة كملف باسم "example.tree" ، فيمكننا استخدام أداة محاكاة تسلسل الأحماض الأمينية والنيوكليوتيد Seq-Gen لإنشاء MSA. سيقوم الأمر التالي بأخذ عينة من تسلسل نوكليوتيد من 30 حرفًا في الطول ، وتطويره وفقًا لنموذج Jukes-Cantor لإنشاء MSA ، وحفظه في ملف جديد باسم "example.phy":

seq-gen -mHKY -l30 -op example.tree & gt example.phy

يتبع مثال MSA الذي تم إنشاؤه بواسطة الأمر أعلاه:

الخطوة الأولى عند إعادة بناء شجرة باستخدام UPGMA (أو WPGMA) هي حساب مصفوفة المسافة من بيانات التسلسل. سنطبق نموذج جوكس كانتور مرة أخرى هنا ، مما يجعل حساب مصفوفة المسافة أمرًا بسيطًا. قم أولاً بحساب عدد المواقع التي تختلف بين كل زوج من التسلسلات في MSA:

أ ب ج د ه
أ 0 13 15 15 15
ب 13 0 14 16 15
ج 15 14 0 8 13
د 15 16 8 0 14
ه 15 15 13 14 0

من هذا ، احسب المسافة P بين كل زوج تسلسلي. هذا هو ببساطة ملف نسبة من المواقع التي تختلف ، أو العناصر أعلاه مقسومة على طول التسلسل ، وهو في هذه الحالة 25:

أ ب ج د ه
أ 0.00 0.52 0.60 0.60 0.60
ب 0.52 0.00 0.56 0.64 0.60
ج 0.60 0.56 0.00 0.32 0.52
د 0.60 0.64 0.32 0.00 0.56
ه 0.60 0.60 0.52 0.56 0.00

وفقًا لنموذج جوكس كانتور ، تكون المسافة الجينية ببساطة - (3/4) × سجل (1 - (4/3) × ص)، أين ص هي المسافة P:

أ ب ج د ه
أ 0.00 0.89 1.21 1.21 1.21
ب 0.89 0.00 1.03 1.44 1.21
ج 1.21 1.03 0.00 0.42 0.89
د 1.21 1.44 0.42 0.00 1.03
ه 1.21 1.21 0.89 1.03 0.00

يمكننا الآن بناء الشجرة عن طريق تقليص مصفوفة المسافة بمقدار صف وعمود واحد في كل مرة. حدد أولاً العنصر غير القطري لمصفوفة المسافة بالقيمة الأقل. في هذه الحالة يكون الصف C بالعمود D (أو والعكس صحيح لأن المصفوفة متناظرة) بقيمة 0.42. استخدم نصف هذه القيمة بارتفاع العقدة التي تدمج C و D.

ادمج الصفين والعمودين. يمكننا تعيين هذه العقدة بالرقم 5، مع ترك الأرقام من 0 إلى 4 مجانًا للعقد الورقية. لكل عنصر في الصف الجديد ، احسب قيمته كمتوسط ​​المسافات الأصلية ، مرجحًا بعدد الأصناف الموجودة أسفل العقد المقابلة. على سبيل المثال ، عند حساب المسافة من 5 إلى B ، تكون المسافات الأصلية 1.03 (C إلى B) و 1.44 (D إلى B). يوجد تصنيف واحد (C) أسفل العقدة المقابلة للصف C ، وأصنف واحد (D) أسفل العقدة المقابلة لـ D.

وبالتالي فإن المسافة الجديدة هي (1.03 × 1/2) + (1.44 × 1/2) = 1.23. ملء باقي الصف والعمود الجديدين في:

أ ب 5 ه
أ 0.00 0.89 1.21 1.21
ب 0.89 0.00 1.23 1.21
5 1.21 1.23 0.00 0.96
ه 1.21 1.21 0.96 0.00

أقل قيمة خارج القطر هي الآن 0.89 ، لذلك سنقوم بدمج A و B. وسيكون ارتفاع العقدة A – B 0.5 × 0.89 = 0.44. ادمج الصفوف والأعمدة A و B باستخدام متوسطاتها الموزونة ، كما في السابق:

6 5 ه
6 0.00 1.22 1.21
5 1.22 0.00 0.96
ه 1.21 0.96 0.00

أقل قيمة خارج القطر هي الآن 0.96 ، لذلك سنقوم بدمج E والعقدة الداخلية 5. سيكون ارتفاع العقدة الجديد 0.48. يوضح حساب مصفوفة المسافة الجديدة بشكل جيد كيفية استخدام الترجيح. يوجد تصنيف واحد (E) أسفل العقدة المقابلة للصف E ، واثنان من الأصناف (C و D) أسفل العقدة المقابلة للصف 5. ستكون المسافة من 6 إلى 7 هي متوسط ​​المسافات الأصلية الموزونة حسب عدد الأصناف الخاصة بهم = (1.21 × 1/3) + (1.22 × 2/3) = 1.22.

6 7
6 0.00 1.22
7 1.22 0.00

لذلك سيكون ارتفاع عقدة الجذر 1.22 × 0.5 = 0.61. يمكنك أن ترى كيف يتم بناء الشجرة من الأسفل إلى الأعلى:

WPGMA هو نفسه UPGMA ، إلا عند تقليص مصفوفات المسافة ، لم تعد قيم الصفوف والأعمدة الجديدة مرجحة بعدد الأصناف. نعم هذا صحيح، غير مرجح يعتمد PGMA على موزون المتوسطات و موزون يعتمد PGMA على غير مرجح المتوسطات. حظا سعيدا تذكر هذا الاختلاف المربك!


يمكن تسجيل البيانات في مصفوفة المسافة في وقت التجميع. على سبيل المثال ، في بعض دراسات الإدراك ، يُطلب من الأشخاص تقييم المسافة النفسية بين أزواج من الأشياء ، ويتم تسجيل هذه المسافات في مصفوفة المسافات.

بشكل أكثر شيوعًا ، يتم حساب مصفوفة المسافة من a مسودة بيانات طاولة. في المثال أدناه ، يمكننا استخدام رياضيات المدرسة الثانوية (فيثاغورس) لمعرفة أن المسافة بين أ وب هي

يمكننا استخدام نفس الصيغة مع أكثر من متغيرين ، وهذا ما يعرف بـ المسافة الإقليدية.

العديد من الطرق الأخرى لحساب المسافة (مقاييس المسافة) تم تطويره. على سبيل المثال، مسافة كتلة المدينة ، المعروف أيضًا باسم مسافة مانهاتن ، يحسب ال مسافه: بعد بناءً على مجموع المسافات الأفقية والعمودية (على سبيل المثال ، المسافة بين A و B هي إذن.

يجب تحديد مقياس المسافة بطريقة معقولة لمجال الدراسة. على سبيل المثال ، إذا كان تجميع مواقع الجريمة في مدينة ما ، فقد تكون المسافة المجمعة بالمدينة مناسبة (أو الأفضل من ذلك ، الوقت المستغرق للتنقل بين كل موقع). في حالة عدم وجود مبرر نظري لبديل ، يجب تفضيل الإقليدية بشكل عام ، لأنها عادة ما تكون مقياسًا مناسبًا للمسافة في العالم المادي.


PD على أساس المسافة

يقيس الزوجي

إن مصفوفات المسافة للتطور الوراثي هي رياضيات مع أسماء الأنواع كأسماء صفوف وأعمدة ، والقيم في الخلايا تصور طول فرع phylo الذي يفصل بين كل زوج من الأنواع. قطري كلها صفر.

تمثل مصفوفة التباين والتغاير التطوري التباين المتوقع والتغاير بين الأنواع بافتراض نموذج لتطور السمات ، وعادة ما يكون نموذج الحركة البراونية. يزداد التباين المحتمل بشكل متناسب مع طول الفرع من الجذر إلى الحافة. الزيادات المشتركة المتوقعة مع طول الفرع المشترك.

يعني المسافة بين الزوجين

[mpd = فارك < sum_^مجموع_^ دلتا_>، i neq j ] ( delta_) هو pd بين النوعين i و j. يوجد ن الأنواع في المجتمع.

تحتوي حزمة picante على وظيفة mpd () لحساب mpd لجميع المواقع من موقع عن طريق مصفوفة الأنواع ومصفوفة مسافة phylo.

المتوسط ​​المرجح للمسافة الزوجية وراو

كما هو موضح في رمز R أعلاه ، يمكننا أيضًا الحصول على نسبة كبيرة من الوزن الموزونة: [mpd.f = frac < sum_^مجموع_^ دلتا_F_F_> < sum_^مجموع_^F_F_>، i neq j ] مسافة Rao & rsquos مماثلة لـ mpd.f ، باستثناء أن Rao & rsquos تسمحان بـ i = j في الصيغة أعلاه. من الناحية المفاهيمية ، هذه الليلة مهمة ، ولكن لا تهم النتائج. إذا لم يكن هناك قاسم في الصيغة أعلاه ، فسيصبح هذا هو مقاييس التنوع الوراثي التي اقترحها هاردي وسنتر.

مصفوفة vcv المستندة إلى Helmus et al

  • تباين السلالات التطورية (PSV): التباين المتوقع بين الأنواع في سلالة المجتمع من أجل سمة تتطور في ظل الحركة البراونية.
    • عندما تكون الشجرة فوقية ، يكون PSV نصف (؟؟) من متوسط ​​المسافة الزوجية (mpd).

    نموذج مكونات التباين لإعادة بناء النشوء والتطور في مصفوفة المسافة

    تصف أشجار التطور الوراثي العلاقات التطورية بين الكائنات الحية ذات الصلة (الأصناف). يفترض أحد الأساليب لتقدير أشجار النشوء والتطور أن هناك مصفوفة للمسافات التطورية المقدرة بين الأصناف متاحة. تم اقتراح طرق تكتلية يتم فيها دمج أزواج الأصناف المرتبطة ارتباطًا وثيقًا على التوالي لتشكيل أصناف أسلاف. تتضمن العديد من هذه الخوارزميات التجميعية ذات الكفاءة الحسابية خطوات لتقليل التباين في المسافات المقدرة. نقترح طريقة تكتلي للتطور النسبي تركز على النمذجة الإحصائية لمكونات التباين في تقديرات المسافة. نحن ننظر في كيفية تطور مكونات التباين هذه أثناء عملية التكتل. تنتج طريقتنا في وقت واحد شجرتين متجذرتين طوبولوجيًا متطابقتين ، واحدة لها أطوال متناسبة مع الوقت المنقضي ، والأخرى لها أطوال متناسبة مع الاختلاف التطوري الأساسي. تمثل الطريقة مصدرين رئيسيين للتباين تمت مناقشتهما بشكل منفصل في الأدبيات: الضجيج ، يعكس عدم الدقة في قياس الاختلافات ، والتشويه ، مما يعكس العشوائية في كميات التباعد في أجزاء مختلفة من الشجرة. تعتمد المنهجية على انحدارات المربعات الصغرى المعممة المتتالية الهرمية. إنه يشمل فقط الوسائل والتباينات والتفاوتات في تقديرات المسافة ، وبالتالي تجنب افتراضات التوزيع الكاملة. يؤدي استغلال البنية الجبرية للتقدير إلى خوارزمية ذات تعقيد حسابي يمكن مقارنته بالطرق التجميعية الرائدة المنشورة. يسمح إجراء التمهيد المعياري بتقييم عدم اليقين الكامل في إعادة بناء النشوء والتطور. يمكن تنزيل البرنامج الذي يطبق المنهجية مجانًا من StatTree.

    مجلة

    التطبيقات الإحصائية في علم الوراثة والبيولوجيا الجزيئية & ndash de Gruyter


    شاهد الفيديو: المصفوفة المعكوسة Transporse Matrix AT (ديسمبر 2022).