معلومة

احتمال تمثيل جميع الأليلات في عينة

احتمال تمثيل جميع الأليلات في عينة



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

أحاول التفاف رأسي حول بعض الصيغ المقدمة في ورقة عام 1992 من متطلبات حجم عينة تشاكرابورتي لمعالجة القضايا الجينية السكانية لاستخدام الطب الشرعي لطباعة الحمض النووي ، لكنني لم أتمكن من ذلك.

على وجه التحديد ، الجانب الأيمن من الصيغة (16) وعلاقته بالصيغة (13).

$ 1- sum limits_ {i = 1} ^ {k} (1-p_ {i}) ^ {2n} $ (13)

$ [1- (1-p) ^ {2n}] ^ {r} geqslant1- alpha $ (16)

تشير الصيغة 13 إلى الاحتمالية ، لموقع ذي $ ك $ فصل الأليلات التي ترد تردداتها في المتجه $ p $، أن جميع الأليلات ممثلة في عينة معينة من الحجم $ n $، والجانب الأيمن من الصيغة 16 يشير إلى احتمال $ r $ الأليلات التي سيتم تمثيلها في عينة معينة من الحجم $ n $.

بادئ ذي بدء ، لماذا ، استنادًا إلى 13 ، يشير التعبير الموجود داخل الجمع إلى احتمال بقاء أليل التردد p ، غير ملاحظ في عينة من الحجم n؟

حاولت أن أفهم هذا من معادلة هاردي واينبرغ ولكن لم أحقق أي نجاح.

ثانيًا ، لماذا نأخذ التعبير في (16) إلى القوة r؟

ما هي المفاهيم البيولوجية التي أفتقدها؟


سأجيب على الأسئلة بدقة ، بدلاً من الخوض في الدليل ، لأنه يتضمن الكثير من التنسيق الذي لست على دراية به. الاشخاص الاخرين مرحب بهم لتحرير هذا

المعادلة 13

تفترض هذه المعادلة النمط الجيني ثنائي الصيغة الصبغية ، الذي قدمه 2n دولار مع القوة $ n $ فرادى. بالنسبة إلى أي شيء يحتوي على عدد أكبر من الأحادي ، يكون من الأسهل رياضيًا تحديد احتمال أن يكون الأليل ليس هدية. كمثال ، انظر هذا الحساب لمعادلة توازن هاردي-وينبورغ ثلاثية الصيغ الصبغية. باستخدام هذا التبسيط ،

$ P (واحد $ $ أليل $ $ ليس $ $ الحاضر) $ $= (1$ $ - P (أليل $ $ present)) $ ^ $ (بلاوي) $ ^ $ (n) $

$= (1$ $ - P (أليل $ $ present)) $ ^ $ (ploidy $ * $ ن) $

مع $ ك $ بعزل الأليلات ، كل أليل له احتمالية عدم التواجد الخاصة به. احتمالية المجموع عدم التواجد هو 1 دولار - (مجموع $ $ من $ $ P (كل دولار $ غير $-حضور $)) $

المعادلة 16

في هذه المعادلة ، يصف المؤلف احتمالية وجود جميع الأليلات بتردد معين. هذه الأليل مستقلة عن بعضها البعض وبالتالي تكون مضاعفة. حيث $ P (أليل $ $ الحاضر) $ متجه ، يمكن تبسيط هذا المنتج إلى $ ^ r $


تسمح صيغ هاردي واينبرغ للعلماء بتحديد ما إذا كان التطور قد حدث أم لا. يمكن اكتشاف أي تغييرات في ترددات الجينات في السكان بمرور الوقت. ينص القانون بشكل أساسي على أنه إذا لم يحدث أي تطور ، فسيظل توازن ترددات الأليل ساري المفعول في كل جيل لاحق من الأفراد الذين يتكاثرون جنسيًا. من أجل أن يظل التوازن ساري المفعول (أي أنه لا يوجد تطور) ، يجب استيفاء الشروط الخمسة التالية:

  1. يجب ألا تحدث طفرات حتى لا تدخل الأليلات الجديدة في المجتمع.
  2. لا يمكن أن يحدث أي تدفق للجينات (أي لا يوجد هجرة للأفراد إلى أو خارج السكان).
  3. يجب أن يحدث التزاوج العشوائي (أي يجب أن يتزاوج الأفراد بالصدفة)
  4. يجب أن يكون عدد السكان كبيرًا حتى لا يتسبب أي انحراف جيني (فرصة عشوائية) في تغيير ترددات الأليل.
  5. لا يمكن أن يحدث أي اختيار بحيث لا يتم اختيار أليلات معينة من أجل أو ضد.

من الواضح أن توازن هاردي واينبرغ لا يمكن أن يوجد في الحياة الواقعية. بعض أو كل هذه الأنواع من القوى تعمل جميعها على المجموعات الحية في أوقات مختلفة ويحدث التطور على مستوى معين في جميع الكائنات الحية. تسمح لنا صيغ هاردي واينبرغ باكتشاف بعض ترددات الأليل التي تتغير من جيل إلى جيل ، مما يتيح طريقة مبسطة لتحديد حدوث التطور. هناك صيغتان يجب حفظهما:


كيف تصنع ساحة بونيت

يبدأ مربع Punnett الأساسي برسم مربع وتقسيمه إلى 4 أجزاء متساوية. الحروف التي تظهر في الجزء العلوي والجانبي من ميدان بونت هي الأليلات التي ساهم بها كل من الوالدين. يحصل كل أليل على عمود أو صف. الآن ، لملء مربع Punnett ، قم ببساطة بنقل كل حرف إلى العمود أو الصف الذي يبدأ به. عند الانتهاء من ذلك ، سيكون لديك مربع Punnett مثل المربع أدناه.

يمثل كل صندوق داخل مربع بونت نتيجة جينية محتملة للنسل. في ثنائي الصيغة الصبغية الكائنات الحية ، يمكن لكل كائن حي أن يحمل فقط أليلين. قد يكون هناك العديد من الأليلات الموجودة في السكان بشكل عام ، ولكن بين الفردين المتزاوجين ، يمكن أن يكون هناك فقط 4 أليلات مختلفة في المجموع. معظم مخططات Punnett المربعة البسيطة تأخذ في الاعتبار أليلين فقط.

تتم رسملة الأليلات بناءً على علاقتها بالأليلات الأخرى. إذا كان الأليل مهيمن، وستخفي تأثيرات الأليلات الأخرى ، يتم كتابتها بأحرف كبيرة. الأليلات التي تحتاج إلى نسختين لإنتاج أ النمط الظاهري مأخوذة في عين الأعتبار الصفة الوراثية النادرة، ويتم إعطاؤهم أحرفًا صغيرة. يشار إلى العلاقات الأخرى بين الأليلات بالأحرف المرتفعة والمنخفضة والتعيينات الأخرى لفصل الأليلات باستخدام سيادة غير تامة أو السيادة.


تعليمات الاتجاه - مربعات Punnett واحتمالات الميراث

قد يكون بعض طلابك قد تعرّفوا على مفهوم مربعات Punnett في علوم الحياة بالمدرسة الإعدادية ، لكن العديد من الطلاب لا يتذكرون كيفية تطوير مربع Punnett للتنبؤ بدقة باحتمالية التهجين الجيني.

من المهم تذكير الطالب بأن مربعات Punnett لا تخبرنا بالمستقبل! مربعات Punnett هي أداة لتنظيم الأنماط الجينية للوالدين من أجل سمة معينة ، وإنشاء التهجين ، وعد الأنماط الجينية / الأنماط الظاهرية المحتملة التي يمكن أن تنتج عن التهجين المحدد. لن يخبر مربع Punnett بالضبط ما سيحدث ، ولكنه سيسمح للطلاب بتتبع الأنماط الجينية للوالدين ، وإنشاء أنماط وراثية محتملة للنسل ، وحساب احتمال حدوث النسل في السكان.

مربعات Punnett هي أداة بسيطة للطلاب لإنشاء والتي ستنظم بياناتهم وتوفر تمثيلًا مرئيًا لتوزيع سمات معينة. على الرغم من أن مربعات Punnett هي أدوات مفيدة للتنبؤ بالنتائج ، إلا أن العديد من الطلاب ينظرون إليها على أنها ألغاز لأنها تعمل على حساب النتائج المحتملة.

كمقدمة بسيطة ، أو مراجعة محتملة ، سيقوم الطلاب بتسجيل ملاحظات محاضرة مربعات Punnett التي توضح كيفية إنشاء مربع Punnett والأساس المنطقي لاستخدام مربعات Punnett للتنبؤ بالنتائج الجينية المحتملة. تحتوي ملاحظات المحاضرة على خمسة أسئلة مراجعة لتعزيز الفكرة الرئيسية لإنشاء وحل مشاكل ممارسة مربع بونت.


الإجابات

للبدء ، حدد أولاً حرفًا عشوائيًا للأليل. اخترت الحرف f للريش. نحن نعلم أنه من المعتاد في علم الوراثة استخدام الحرف الكبير للإشارة إلى الأليل السائد والحرف الصغير للأليل المتنحي.

نحدد الآن ما يلي:

F / f - متغاير الزيجوت (النمط الظاهري: أزرق) F / F - سائد متماثل الزيجوت (النمط الظاهري: أزرق) f / f - متنحي متماثل (النمط الظاهري: أبيض)

يقع معبر الببغاء بين F / f x f / f.

عند الانتهاء ، يجب أن تحصل على اثنين من البيضة الملقحة مرتين:

يطلب السؤال نسبة النسل للحصول على ريش أزرق ، وهو متغاير الزيجوت F / f. نظرًا لوجود نسلين بهذا التركيب الوراثي لكل أربعة ذرية ، فإن النسبة هي:

2 ذرية / 4 نسل = 1/2 أو 0.5

قم بالتحويل إلى نسبة مئوية عن طريق الضرب في 100٪:

إذا أعجبك هذا الحل ، فيرجى النقر على "شكرًا" أو إعطاء تقييم!

تكفي نسخة واحدة من الأليل السائد للتعبير عنها ، لكن الأليلات المتنحية تحتاج إلى نسختين للتعبير عنها. لهذا السبب ، فإن الأنماط الجينية والأنماط الظاهرية المحتملة لألوان الريش هي:

الببغاء ذو ​​الريش الأزرق متغاير الزيجوت ، لذا فهو يحتوي على أليل سائد للريش الأزرق (ب) وأليل متنحي للريش الأبيض (ب) والنمط الجيني هو ب ب. الببغاء الآخر متماثل الزيجوت للريش الأبيض ، لذلك فهو يحتوي على اثنين من الأليلات b والنمط الجيني bb.

عندما ينتج الأفراد الأمشاج ، تنفصل الأليلات ، وبالتالي فإن الببغاء المتغاير الزيجوت سينتج الأمشاج B و b ، وينتج الببغاء متماثل الزيجوت اثنين من الأمشاج b.

تُظهر ساحة بونيت التركيبة المحتملة للأمشاج التي ينتجها الوالدان ، وبالتالي الأنماط الجينية للنسل:

ب - الريش الأزرق Bb - الريش الأزرق bb - الريش الأبيض - الريش الأبيض

2 من كل أربعة أفراد من النسل (50٪) سيكون لديهم النمط الجيني Bb والريش الأزرق.

مربع Punnett هو ملخص جدولي للتركيبات المحتملة للأليلات الأبوية والأمومية وبالتالي التنبؤ بالأنماط الجينية للكائنات الحية في تجربة التكاثر.

يمكن تمثيل الببغاء غير المتجانس المهيمن بالريش الأزرق بالنمط الجيني Bb. يمكن تمثيل الببغاء المتنحي متماثل الزيجوت مع الريش الأبيض بالنمط الجيني bb. عندما يتم إجراء تهجين بين هذين ، فإن نسبة النسل المتوقع أن يكون له ريش أزرق هي 50٪. يمكن تمثيلها أدناه-

النمط الظاهري - ريش أزرق × ريش أبيض

وبذلك تكون نسبة النسل ذو الريش الأزرق 50٪ بنمط وراثي Bb.

وفقًا لمربع بونت لهذا الصليب ، ما هي النسبة المئوية للنسل المتوقع أن يكون له ريش أزرق؟


المواد والأساليب

أداة GATK ASEReadCounter والمعايير

الأداة والوثائق المصاحبة لها متوفرة في GATK v.3.4 ، والتي يمكن تنزيلها من [44]. يمكن العثور على نص Python الذي يعالج الإخراج من SAMtools mpileup على [45]. تم تشغيل المقارنة المعيارية باستخدام GATK v.3.4 و SAMtools 1.2 على قراءات STAR المحاذاة من عينة Geuvadis NA06986.2.M_111215_4 باستخدام مواقع الأليلات غير المتجانسة من 1000 جينوم المرحلة الأولى. تم تنسيق القراءات وفرزها وفهرستها وفلترتها WASP لإنتاج BAM ملف يحتوي على 56362192 قراءة. تم إجراء قياس الأداء في وقت التشغيل باستخدام 100٪ و 75٪ و 50٪ من القراءات المأخوذة من الملف ، وتم الإبلاغ عنها على أنها متوسط ​​10 عمليات مع عرض فاصل ثقة 95٪. للمقارنة ، تم تشغيل ASEQ v.1.1.8 في وضع pileup. تم تشغيل المقارنة المعيارية على CentOS 6.5 مع إصدار Java 1.6 على وحدة المعالجة المركزية Intel Xeon CPU E7- 8830 @ 2.13 جيجاهرتز.

تصفية المواقع متماثلة اللواقح

من أجل تحديد المواقع المتماثلة الزيجوت التي يُحتمل أن يُساء فهمها باعتبارها SNP متغاير الزيجوت ، قمنا بنمذجة عدد القراءات التي يمكن ملاحظتها بسبب الخطأ الفني لخط الأنابيب الحسابي التجريبي والمنبع. لنفترض أن هناك ما مجموعه ن يقرأ مصدره موقع متماثل الزيجوت للأليل R. بافتراض معدل ضوضاء ε، يمكن للقراءة أن تدعم خطأً أليلًا آخر ، توزيع العدد الإجمالي للقراءات المحاذاة للأليل A ، ن أ، عن طريق التوزيع ذي الحدين. ومن ثم ، فإن احتمال المراقبة ن أ أو أكثر من القراءات المخصصة للأليل A في موقع متماثل اللواقح لـ R يتم إعطاؤها بواسطة:

أين BinCDF(ن أ, ن, ε) هي دالة التوزيع التراكمي ذات الحدين. على العكس من ذلك ، فإن احتمال المراقبة ن ص(ن = ن ص + ن أ) أو أكثر من القراءات المخصصة للأليل R في موقع متماثل اللواقح من أجل A يتم إعطاؤها بواسطة:

بافتراض أن معدل الضوضاء متساوٍ لجميع الأليلات. لذلك ، يمكن حساب احتمالية ملاحظة عدم التوازن الأليلي الشديد بسبب الفرضية الصفرية ، تماثل الزيجوت لأحد الأليلات ، عن طريق تلخيص الاحتمالين المذكورين أعلاه المطابقين لذيول التوزيع. من أجل اشتقاق تقدير تجريبي لمعدل الضوضاء ε استخدمنا النسبة بين المجموع الكلي للقراءات المخصصة للأليلات الأخرى ، تلك التي تختلف عن المرجع المعين أو الأليل البديل في كل موقع ، إلى العدد الإجمالي للقراءات في مكتبة مقسومًا على اثنين. لهذا الغرض ، نستبعد المواقع التي تحتوي على أكثر من 5٪ من القراءات المتوافقة مع الأليلات الأخرى من التحليل.

رسم الخرائط لتحليل AE

بالنسبة لجميع التحليلات ، ما لم يُذكر خلاف ذلك ، تم تعيين القراءات باستخدام STAR v.2.4.0f1 واستراتيجية التعيين ثنائي المسار على النحو الموصى به من قبل معهد Broad [39]. باختصار ، يتم الكشف عن تقاطعات لصق أثناء تعيين المسار الأول ، ويتم استخدامها لإبلاغ الجولة الثانية من التعيين. تم تعيين جميع القراءات إلى hg19 واستخدمت تعليقات Gencode v19 التوضيحية.

لرسم خرائط لجينوم شخصي ، تم استخدام أداة vcf2diploid ، وهي جزء من AlleleSeq ، لتوليد كل من جينوم الأم والأب لـ NA06986 من مرجع المرحلة الأولى المكون من 1000 جينوم باستخدام het-SNPs فقط. تم بعد ذلك تعيين القراءات لكلا الجينوم بشكل منفصل باستخدام إستراتيجية STAR ذات المسارين (على النحو الوارد أعلاه). تم الاحتفاظ بالقراءات التي تتماشى بشكل فريد مع جينوم واحد فقط ، وفي الحالات التي تم فيها تعيين القراءات بشكل فريد لكلا الجينوم ، تم استخدام المحاذاة مع جودة المحاذاة الأعلى.

تم إجراء التعيين باستخدام GSNAP مع الإعدادات الافتراضية وشروح موقع لصق من hg19 refGene. تم إجراء المحاذاة المدركة للمتغيرات باستخدام الخيار "-d" لـ NA06986 من المرجع المرحلي 1000 جينوم المرحلة 1 باستخدام het-SNPs فقط ، كما هو موضح في وثائق GSNAP.

تجميع متعدد الأبعاد للعينات بواسطة بيانات AE

تم إنتاج مصفوفة المسافة الزوجية لجميع عينات Geuvadis باستخدام بيانات AE واستخدمت في القياس الكلاسيكي متعدد الأبعاد (مقياس cmd) في R. ثم تم رسم البعدين الأولين مقابل بعضهما البعض لجميع العينات. تم حساب المسافة بين عينتين على النحو التالي: المسافة الزوجية = إجمالي عدد المواقع ذات AE المعنوية في عينة واحدة فقط / إجمالي عدد المواقع المشتركة. تم استخدام اختبار ذي الحدين بنسبة 5٪ FDR للدلالة مع عدم وجود قطع لحجم التأثير (الشكل 6 ج) أو حجم تأثير أدنى يبلغ 0.15 (الشكل 6 د).

قياس AE في جينات eQTL

تم استخدام بيانات RNA-seq من 343 فردًا من Geuvadis الأوروبيين لتوليد تعداد الأليل في het-SNPs. لكل فرد ، تم حساب AE (AE = | 0.5 - النسبة المرجعية |) لجميع المواقع مع 16 قراءة ، تم تقاطع كل موقع مقابل جميع جينات Geuvadis الأوروبية مع eQTL (eGene ، 5٪ FDR) ، ومتوسط ​​AE من جميع المواقع التي تغطي كل eGene تم حسابها. تم تحديد النمط الجيني لكل فرد لأعلى eQTL لكل جين على أنه إما متغاير الزيجوت أو متماثل الزيجوت. لكل eGene مع ما لا يقل عن 30 قياسًا من AE في كل من الأفراد متغاير الزيجوت ومتماثل الزيجوت ، تم حساب أهمية الاختلاف في AE بين الفئتين باستخدام اختبار مجموع رتبة ويلكوكسون (1 ٪ FDR). لتحديد إثراء المواقع داخل eSNP متغاير الزيجوت eGenes عبر طيف AE ، تم حساب النسبة المئوية لهذه المواقع في صناديق AE لكل فرد.

وحدات AE

نسبة المرجع = قراءات المرجع / إجمالي القراءات

تعبير أليلي (حجم التأثير) = | 0.5 - نسبة مرجعية |

توافر البيانات

تم استخدام بيانات RNA-seq من Geuvadis Consortium جنبًا إلى جنب مع بيانات النمط الجيني 1000 Genomes المرحلة الأولى لجميع التحليلات. تتوفر ملفات RNA-Seq FASTQ من أرشيف النيوكليوتيدات الأوروبي تحت الانضمام [ENA: ERP001942].


إجابات HW

المشكلة رقم 1. لقد قمت بأخذ عينات من السكان حيث تعلم أن النسبة المئوية للنمط الجيني المتنحي متماثل اللواقح (aa) تبلغ 36٪. باستخدام 36٪ ، احسب ما يلي:

  1. تردد & # 8220aa & # 8221 التركيب الوراثي. الإجابة: 36٪ كما وردت في المشكلة نفسها.
  2. تردد الأليل & # 8220a & # 8221. الجواب: معدل تكرار aa هو 36٪ أي أن q2 = 0.36 بحكم التعريف. إذا كانت q2 = 0.36 ، إذن q = 0.6 ، مرة أخرى حسب التعريف. بما أن q يساوي تردد الأليل ، فإن التردد يكون 60٪.
  3. تردد الأليل & # 8220A & # 8221. الجواب: بما أن q = 0.6 ، و p + q = 1 ، فإن p = 0.4 يكون تكرار A بحكم التعريف يساوي p ، لذا فإن الإجابة هي 40٪.
  4. ترددات الأنماط الجينية & # 8220AA & # 8221 و & # 8220Aa. & # 8221 الإجابة: تردد AA يساوي p2 ، وتكرار Aa يساوي 2pq. لذلك ، باستخدام المعلومات الواردة أعلاه ، فإن تكرار AA هو 16٪ (أي أن p2 هو 0.4 × 0.4 = 0.16) و Aa هو 48٪ (2pq = 2 × 0.4 × 0.6 = 0.48).
  5. ترددات نمطين ظاهريين محتملين إذا كانت & # 8220A & # 8221 هي المهيمنة تمامًا على & # 8220a. & # 8221 الإجابات: نظرًا لأن & # 8220A & # 8221 يهيمن تمامًا على & # 8220a & # 8221 ، سيظهر النمط الظاهري السائد إذا كان أحدهما تحدث الأنماط الجينية متماثلة اللواقح & # 8220AA & # 8221 أو متغايرة الزيجوت & # 8220Aa & # 8221. يتم التحكم في النمط الظاهري المتنحي بواسطة النمط الجيني متماثل الزيجوت aa. لذلك ، فإن تكرار النمط الظاهري السائد يساوي مجموع ترددات AA و Aa ، والنمط الظاهري المتنحي هو ببساطة تكرار aa. لذلك ، فإن التردد السائد هو 64٪ ، وفي الجزء الأول من هذا السؤال أعلاه ، أظهرت بالفعل أن التردد المتنحي هو 36٪.

المشكلة رقم 2. فقر الدم المنجلي مرض وراثي مثير للاهتمام. الأفراد العاديون متماثلون (SS) لديهم خلايا دم طبيعية يمكن إصابتها بسهولة بطفيلي الملاريا. وبالتالي ، فإن العديد من هؤلاء الأفراد يصابون بمرض شديد من الطفيلي ويموت الكثير منهم. الأفراد المتماثلون لسمات الخلايا المنجلية (ss) لديهم خلايا الدم الحمراء التي تنهار بسهولة عند إزالة الأكسجين. على الرغم من أن الملاريا لا يمكن أن تنمو في خلايا الدم الحمراء هذه ، غالبًا ما يموت الأفراد بسبب الخلل الجيني. ومع ذلك ، فإن الأفراد الذين يعانون من حالة متغايرة الزيجوت (Ss) لديهم بعض خلايا الدم الحمراء المنجلية ، ولكن بشكل عام لا تكفي للتسبب في الوفاة. بالإضافة إلى ذلك ، لا يمكن للملاريا البقاء على قيد الحياة بشكل جيد داخل خلايا الدم الحمراء هذه & # 8220 المعيبة جزئيًا & # 8221. وبالتالي ، تميل الزيجوت المتغايرة إلى البقاء على قيد الحياة بشكل أفضل من أي من الظروف المتماثلة اللواقح. إذا ولد 9٪ من السكان الأفارقة بنوع حاد من فقر الدم المنجلي ، فما النسبة المئوية من السكان الذين سيكونون أكثر مقاومة للملاريا لأنهم متغاير الزيجوت (Ss) بالنسبة لجين الخلية المنجلية؟ الإجابة: 9٪ = .09 = ss = q2. لإيجاد q ، خذ الجذر التربيعي لـ 0.09 لتحصل على 0.3. بما أن p = 1 & # 8211 0.3 ، فإن p يجب أن يساوي 0.7. 2pq = 2 (0.7 x 0.3) = 0.42 = 42٪ من السكان متغاير الزيجوت (ناقلات).

المشكلة رقم 3. هناك 100 طالب في الفصل. قام ستة وتسعون بعمل جيد في الدورة بينما قام أربعة بتفجيرها تمامًا وحصلوا على درجة F. آسف. في حالة الاحتمال الكبير أن تكون هذه الصفات وراثية وليست بيئية ، إذا كانت هذه الصفات تتضمن أليلات سائدة ومتنحية ، وإذا كانت الأربعة (4٪) تمثل تكرار الحالة المتنحية متماثلة اللواقح ، فيرجى حساب ما يلي:

  1. تردد الأليل المتنحي. الجواب: بما أننا نعتقد أن المتنحي المتماثل لهذا الجين (q2) يمثل 4٪ (أي = 0.04) ، فإن الجذر التربيعي (q) هو 0.2 (20٪).
  2. تردد الأليل السائد. الجواب: بما أن q = 0.2 ، و p + q = 1 ، ثم p = 0.8 (80٪).
  3. تواتر الأفراد متغاير الزيجوت. الجواب: إن تواتر الأفراد غير المتجانسين يساوي 2pq. في هذه الحالة ، 2pq يساوي 0.32 ، مما يعني أن تواتر الأفراد غير المتجانسين لهذا الجين يساوي 32٪ (أي 2 (0.8) (0.2) = 0.32).

المشكلة رقم 4. ضمن مجموعة الفراشات ، يكون اللون البني (B) هو المسيطر على اللون الأبيض (ب). و 40٪ من الفراشات بيضاء. بالنظر إلى هذه المعلومات البسيطة ، والتي من المحتمل جدًا أن تكون في الاختبار ، احسب ما يلي:

  1. النسبة المئوية للفراشات غير المتجانسة في السكان.
  2. تواتر الأفراد المسيطرين متماثل الزيجوت. الإجابات: أول شيء عليك & # 8217 القيام به هو الحصول على p و q. لذلك ، بما أن اللون الأبيض متنحي (أي bb) ، و 40٪ من الفراشات بيضاء ، فإن bb = q2 = 0.4. لتحديد q ، وهو تكرار الأليل المتنحي في المجتمع ، ببساطة خذ الجذر التربيعي لـ q2 الذي يعمل ليكون 0.632 (أي 0.632 × 0.632 = 0.4). إذن ، q = 0.63. بما أن p + q = 1 ، إذن يجب أن يكون p هو 1 & # 8211 0.63 = 0.37. الآن بعد ذلك ، للإجابة على أسئلتنا. أولاً ، ما هي النسبة المئوية للفراشات غير المتجانسة في السكان؟ حسنًا ، سيكون هذا 2pq ، لذا فإن الإجابة هي 2 (0.37) (0.63) = 0.47. ثانيًا ، ما هو تواتر الأفراد المسيطرين متماثلي اللواقح؟ سيكون هذا p2 أو (0.37) 2 = 0.14.

المشكلة رقم 5. يوجد عدد كبير إلى حد ما من مدربي علم الأحياء لديهم 396 فردًا أحمر الجانب و 557 فردًا ذو وجه أسمر. افترض أن اللون الأحمر متنحي تمامًا. يرجى حساب ما يلي:

  1. ترددات الأليل لكل أليل. الإجابة: حسنًا ، قبل أن تبدأ ، لاحظ أن الترددات الأليلية هي p و q ، وتأكد من ملاحظة أنه ليس لدينا & # 8217t أرقام دائرية لطيفة وأن العدد الإجمالي للأفراد المحسوبين هو 396 + 557 = 953. الأفراد كلهم ​​أحمر (q2) و 396/953 = 0.416. إذن ، q (الجذر التربيعي لـ q2) يساوي 0.645. بما أن p + q = 1 ، فإن p يجب أن تساوي 1 & # 8211 0.645 = 0.355.
  2. ترددات النمط الجيني المتوقعة. الإجابة: حسنًا ، AA = p2 = (0.355) 2 = 0.126 Aa = 2 (p) (q) = 2 (0.355) (0.645) = 0.458 وأخيرًا aa = q2 = (0.645) 2 = 0.416 (أنت تعرف هذا بالفعل) من الجزء أ أعلاه).
  3. عدد الأفراد غير المتجانسين الذين تتوقع وجودهم في هذه المجموعة السكانية. الإجابة: سيكون ذلك 0.458 × 953 = حوالي 436.
  4. ترددات النمط الظاهري المتوقعة. الإجابة: حسنًا ، النمط الظاهري & # 8220A & # 8221 = 0.126 + 0.458 = 0.584 و & # 8220a & # 8221 النمط الظاهري = 0.416 (كنت تعرف هذا بالفعل من الجزء أ أعلاه).
  5. تصادف أن تكون الظروف جيدة حقًا هذا العام للتكاثر ، وفي العام المقبل هناك 1،245 شابًا & # 8220 محتملاً & # 8221 معلمًا في علم الأحياء. بافتراض أنه تم استيفاء جميع شروط هاردي-واينبرغ ، فكم من هذه الشروط تتوقع أن تكون ذات جوانب حمراء وكم عدد الجوانب السمراء؟ الجواب: ببساطة ، النمط الظاهري & # 8220A & # 8221 = 0.584 × 1،245 = 727 ذو جانب تان و & # 8220a & # 8221 النمط الظاهري = 0.416 × 1،245 = 518 أحمر الجانب (أو 1،245 & # 8211 727 = 518).

المشكلة رقم 6. تحتوي مجموعة كبيرة جدًا من فئران المختبر العشوائية على 35 ٪ من الفئران البيضاء. اللون الأبيض ناتج عن النمط الوراثي المتنحي المزدوج & # 8220aa & # 8221. حساب الترددات الأليلية والوراثية لهذه المجموعة السكانية. الإجابة: 35٪ من الفئران البيضاء = 0.35 وتمثل تكرار النمط الجيني aa (أو q2). الجذر التربيعي لـ 0.35 يساوي 0.59 ، وهو ما يساوي q. بما أن p = 1 & # 8211 q ثم 1 & # 8211 0.59 = 0.41. الآن بعد أن عرفنا تواتر كل أليل ، يمكننا حساب تواتر الأنماط الجينية المتبقية في السكان (أفراد AA و Aa). AA = p2 = 0.41 x 0.41 = 0.17 Aa = 2pq = 2 (0.59) (0.41) = 0.48 وكما كان من قبل aa = q2 = 0.59 x 0.59 = 0.35. إذا جمعت كل ترددات النمط الجيني هذه ، فيجب أن تساوي 1.

المشكلة رقم 7. بعد التخرج ، تستأجر أنت و 19 من أقرب أصدقائك (لنقل 10 ذكور و 10 إناث) طائرة للذهاب في جولة حول العالم. لسوء الحظ ، تحطمتون جميعًا (بأمان) على جزيرة مهجورة. لا أحد يجدك وتبدأ مجتمعًا جديدًا معزولًا تمامًا عن بقية العالم. يحمل اثنان من أصدقائك (أي متغاير الزيجوت من أجل) أليل التليف الكيسي المتنحي (ج). بافتراض أن تواتر هذا الأليل لا يتغير مع نمو السكان ، فما معدل حدوث التليف الكيسي في جزيرتك؟ الجواب: يوجد 40 أليلات في 20 شخصًا منها أليلين ليفية كيسية. لذلك ، 2/40 = 0.05 (5٪) من الأليلات هي للتليف الكيسي. هذا يمثل p. وبالتالي ، فإن cc أو p2 = (.05) 2 = 0.0025 أو 0.25٪ من سكان F1 سيولدون مصابين بالتليف الكيسي.

المشكلة رقم 8. يمكنك أخذ عينة من 1000 فرد من مجموعة كبيرة من السكان لفصيلة دم MN ، والتي يمكن قياسها بسهولة نظرًا لوجود الهيمنة المشتركة (أي يمكنك اكتشاف الزيجوت المتغايرة). يتم كتابتها وفقًا لذلك:

فصيلة الدم الطراز العرقى عدد الأفراد التردد الناتج
م مم 490 0.49
MN MN 420 0.42
ن NN 90 0.09

باستخدام البيانات المقدمة أعلاه ، احسب ما يلي:

  1. تردد كل أليل في المجتمع. الإجابة: بما أن MM = p2 ، و MN = 2pq ، و NN = q2 ، فإن p (تردد الأليل M) يجب أن يكون الجذر التربيعي لـ 0.49 ، وهو 0.7. بما أن q = 1 & # 8211 p ، فيجب أن تساوي q 0.3.
  2. لنفترض أن التزاوجات عشوائية ، ترددات التزاوجات. الجواب: هذا أصعب قليلاً في اكتشافه. حاول إعداد ترتيب نوع & # 8220Punnett & # 8221 باستخدام الأنماط الجينية الثلاثة وضرب الأرقام بطريقة شبيهة بما يلي:
    مم (0.49)مينيسوتا (0.42)NN (0.09)
    مم (0.49)0.2401*0.20580.0441
    مينيسوتا (0.42)0.20580.1764*0.0378
    NN (0.09)0.04410.03780.0081*

المشكلة رقم 9. التليف الكيسي هو حالة متنحية تصيب حوالي 1 من كل 2500 طفل في سكان القوقاز في الولايات المتحدة. يرجى حساب ما يلي:


التوزيع الطبيعي

يمكن أن يكون استنتاج الاحتمالات من توزيعات البيانات (هذا ما فعلناه الأسبوع الماضي. تذكر؟) مفيدًا بالمعنى الوصفي ، ولكن بالنسبة للإحصاءات الاستنتاجية ، سنستخدم التوزيعات النظرية التي يمكننا تطبيقها على توقعاتنا الفارغة. على سبيل المثال ، إذا كنا مهتمين بتحديد ما إذا كانت وسيلتان في العينة تمثلان مجموعات إحصائية مختلفة ذات وسائل سكانية مختلفة ، أو عينتان من مجتمع واحد (اقرأ ذلك مرة أخرى. هذا هو السؤال الذي نطرحه عندما نقارن الوسائل لمعرفة ما إذا كانت تختلف) ، نود تحديد التوزيع الاحتمالي للفرق بين وسيلتين عينة مأخوذة من نفس السكان. هذا ال توقع فارغ، لأنه يتم تعريفه من خلال الحالة حيث تعني كلتا العينة تقدير نفس متوسط ​​السكان ، بدلاً من أن تمثل كل عينة مجتمعًا إحصائيًا مختلفًا. نستخدم التوقع الفارغ لأنه طريقة فعالة لإجراء مقارنة. هناك طريقة واحدة فقط يمكن من خلالها أن يمثل 2 عينة من السكان مجموعة إحصائية واحدة ، مما يعني أنه يتعين علينا فقط النظر في توزيع واحد ، وهو:

حيث تم استخلاص كلتا الوسيلتين من مجتمع إحصائي واحد. من هذا التوزيع ، يمكننا تحديد ما إذا كان الاختلاف الذي نلاحظه بعيد الاحتمال للغاية (تذكر أننا عرّفنا هذا سابقًا على أنه احتمال أقل من 0.05) بالنسبة لنا لقبول الافتراض القائل بأن كلا وسيلتي العينة كانت ، في الواقع ، مستمدة من نفس الإحصاء تعداد السكان.

بالنظر إلى التوزيعات الاحتمالية لنفس الاختلاف حيث تم استخلاص وسيلتي العينة من المجموعات الإحصائية ذات الاتجاهين المركزيين المختلفين ، ينتج عن ذلك عدد لا حصر له من التوزيعات المحتملة (واحد لكل مبلغ قد يختلف به الوسطان السكانيان). وبالتالي ، فإن وجود توزيع واحد فقط للتعامل معه (حيث تعني كلتا العينة تقدير متوسط ​​السكان نفسه) يجعل تحليلنا (وبالتالي حياتنا) أقل تعقيدًا بكثير.

أحد توزيعات الاحتمالات (في ظل ظروف معينة معينة سنهتم بها لاحقًا) يصف توزيع الاختلافات بين متوسطات العينة المأخوذة من مجموعة سكانية واحدة هو عادي (أو غاوسي) التوزيع. من المهم أن نتعرف على هذا التوزيع وخصائصه ، حيث إنه يلعب دورًا أساسيًا في افتراضات العديد من التحليلات التي سنتعلمها. يبدو التوزيع الطبيعي كما يلي:

جميع التوزيعات الثلاثة المذكورة أعلاه مأخوذة من مجتمع إحصائي بـ & # 956 = 10 ، والانحراف المعياري (& # 963) ، كما هو موضح في الرسوم البيانية نفسها ، يختلف من 1 إلى 3. إذا كان التغيير في شكل التوزيع مع التباين المتزايد الذي يفاجئك ، يرجى الرجوع ومراجعة قسم الإحصاء الوصفي. إذا كانت الرسوم المتحركة لا تعمل ، أو إذا كنت ترغب في عرض الرسوم البيانية بشكل فردي ، يمكنك عرضها هنا.

من الواضح أن التوزيع الطبيعي توزيع متماثل ، ولكن لا يمكن اعتبار جميع التوزيعات المتماثلة طبيعية. على الرغم من أن جميع التوزيعات الثلاثة المذكورة أعلاه قد تبدو مختلفة ، إلا أنها في الواقع جميعها متطابقة من ناحية واحدة. يتم تعريف توزيع الملاحظات حول المتوسط ​​بدقة شديدة على النحو التالي:

68.27٪ من الملاحظات تقع ضمن انحراف معياري واحد للمتوسط ​​(& # 956 & # 177 & # 963)

95.45٪ من الملاحظات تقع ضمن انحرافين معياريين عن المتوسط ​​(& # 956 & # 177 2 & # 963)

99.73٪ من الملاحظات تقع ضمن 3 انحرافات معيارية عن المتوسط ​​(& # 956 & # 177 3 & # 963)

أو بتنسيق أكثر قابلية للاستخدام:

50٪ من الملاحظات تقع ضمن 0.674 الانحراف المعياري للمتوسط ​​(& # 956 & # 177 0.674 & # 963)

95٪ من الملاحظات تقع ضمن 1.960 انحراف معياري للمتوسط ​​(& # 956 & # 177 1.960 & # 963)

99٪ من الملاحظات تقع ضمن 2.576 انحراف معياري للمتوسط ​​(& # 956 & # 177 2.576 & # 963)

لهذا السبب ، عادةً ما يتم الإبلاغ عن قيم التوزيع الطبيعي (والتوزيعات الاحتمالية الأخرى التي سنستخدمها في تحليلاتنا) على أنها الانحرافات المعيارية:

يؤدي الإبلاغ عن القيم على أنها انحرافات (Y - & # 956) إلى توسيط التوزيع حول الصفر ، وتقسيم الانحراف على الانحراف المعياري (& # 963) يعبر عن المتغير X (المسافة من الوسط) بوحدات الانحراف المعياري. ينتج عن تطبيق هذا الحساب على أي من التوزيعات الثلاثة الموضحة أعلاه (أو أي توزيع عادي لهذه المسألة) التوزيع التالي:

تميل العديد من ملاحظات العمليات والخصائص البيولوجية إلى اتباع التوزيع الطبيعي. أحد الأسباب المحتملة لذلك هو أن هذه العمليات والخصائص تميل إلى التأثر بالعديد من المحددات ، وإذا كانت تأثيرات هذه المحددات مضافة ، فيجب أن يقترب التوزيع الناتج من معلمات التوزيع الطبيعي. دعونا نتذكر مثلث باسكال ونفكر في سحوبات متعددة من الاحتمالات ذات الحدين:

كل رسم (تذكر أن k هو عدد السحوبات) يمكن أن يمثل عاملًا وراثيًا مختلفًا (واحد من أليلين) أو عامل بيئي (أحد الشرطين) يؤثر على شخصية معينة. احتمال ص يعكس الفرصة التي يضيفها تأثير معين إلى تلك الشخصية ، بحيث تكون قيمة الشخصية هي مجموع كل التأثيرات الإيجابية على تلك الشخصية. بالمقابل ف هو احتمال ألا يؤثر العامل على الشخصية. إذا قمنا بتعيين قيمة 1 لكل إضافة إلى الحرف ، فعندئذٍ بالنسبة للشخصية المتأثرة بعاملين فقط ، أي (ص + ف) ك أين ك = 2 ، نتوقع أن يعكس توزيع القيم لهذا الحرف قيمة 2 مع احتمال يساوي ص 2 (0.25 في حالتنا) ، القيمة 1 مع احتمال يساوي 2ص (0.5 في حالتنا) ، والقيمة 0 مع احتمال ف 2. ينتج عن هذا متماثل ، لكن ليس طبيعيا، توزيع.

كلما زادت العوامل التي تؤثر على قيمة الشخصية ، أي أكبر ك يصبح توزيع القيم لهذا الحرف أقرب إلى التوزيع الطبيعي ، كما هو موضح أدناه ، حيث تمثل الأشرطة توزيع القيم ، والخط الأحمر هو التوزيع الطبيعي المتوقع (تم إنشاؤه باستخدام دالة NORM.DIST في Excel ) لنفس المتوسط ​​والانحراف المعياري:

يتم عرض قيم المحور X في هذه الحالة كمسافات من المتوسط ​​، لأن القيمة المتوسطة للحرف تزداد مثل ك يزيد (المتوسط ​​المتوقع هو ص). استندت بيانات الرسم المتحرك السابق إلى 1000 عينة من التوسعات ذات الحدين مع ص = 0.5 وقيم ك كما هو موضح في الرسوم البيانية. إذا كانت الرسوم المتحركة أعلاه لا تعمل ، أو إذا كنت ترغب في إلقاء نظرة فاحصة على الرسوم البيانية ، فسيتم عرضها بشكل فردي هنا.

هذا النهج السريع نسبيًا للتوزيع الطبيعي هو نتيجة ص يساوي 0.5 ، مما يجعل التوزيع متماثلًا في جميع قيم ك. لقيم ص بخلاف 0.5 ، يحدث النهج إلى التوزيع الطبيعي بشكل أبطأ بكثير ، كما يمكن رؤيته أدناه (لـ ص = 0.2) بمقارنة قيم ك لأولئك من المظاهرة السابقة:

استندت بيانات الرسم المتحرك السابق إلى 1000 عينة من التوسعات ذات الحدين مع ص = 0.2 وقيم ك كما هو موضح في الرسوم البيانية. إذا كانت الرسوم المتحركة أعلاه لا تعمل ، أو إذا كنت ترغب في إلقاء نظرة فاحصة على الرسوم البيانية ، فسيتم عرضها بشكل فردي هنا. تم إنشاء البيانات المستخدمة في كل من الرسوم المتحركة السابقة في R باستخدام هذا البرنامج.

السؤال 1: اشرح لماذا يُتوقع أن تظهر العديد من المتغيرات البيولوجية توزيعًا طبيعيًا.

تمت الإشارة أعلاه إلى أن دالة Excel NORM.DIST تم استخدامها لإنشاء خطوط حمراء تشير إلى كثافات الاحتمال للتوزيع الطبيعي وفقًا لمتوسط ​​محدد وانحراف معياري. صيغة الوظيفة هي:

= NORM.DIST (x,يقصد,س،خاطئة)

أين x هي القيمة على المحور السيني التي ترغب في إيجاد كثافة الاحتمال لها. يجب أن تكون الوسيطة المنطقية في النهاية "خطأ" ، ما لم يكن الاحتمال التراكمي مطلوبًا (كما هو موضح في الخط الأحمر أدناه):

Question 2: What is the difference between the density function (black line above) and the cumulative density function (red line above)?

If you prefer pencil and paper to Excel functions, the normal probability density function can be calculated as:

While we will make no real use of the normal distribution as a probability distribution for our inferential statistical analyses (which is why I am not putting you through the busy work of generating z-scores, another term for probability densities for the normal distribution), the assumption that our observations are normally distributed will be required for most of our analyses. Although it may seem counterintuitive, we always test our assumptions. One might argue that they no longer should then be considered "assumptions", but that misinterpretation can easily be corrected by realizing that the assumptions are the assumptions of the analysis, and define the conditions under which the analysis will give us a result that can be properly interpreted. That is why we must test our data against those assumptions in order to determine whether the conclusion to which our analysis leads us is an appropriate one.

We have, in a sense, already evaluated several distributions for normality by a visual comparison of the bars to the red lines. Such a comparison, however, is strongly influenced by the size of a graph. As a young and impressionable lad, I was taught that draws from a binomial distribution, as was demonstrated above, would produce a distribution not distinguishable from a normal distribution on a graph printed on 8.5" x 11" paper when ك > 25. This is absolutely true, but in the examples I used above, normality was not achieved until ك ≈ 200 when ص = 0.5, and when ك ≈ 600 for ص = 0.2. While this specific set of circumstances might not be broadly applicable, it does serve to illustrate the point that one must be cautious with visual comparisons.

The preceding narrative should also have suggested to you that there are other ways to test for normality. One possibility is generating the probability densities and using a Goodness-of-Fit test to compare the observed frequencies to those expected for a normal distribution. We will deal with such approaches later on when we explore "Analysis of Frequencies" in week 13. For now, take comfort in the fact that there is a far better approach.

The Shapiro-Wilk statistic is the most reliable, and most widely applied test for normality. Unfortunately (although you might think it fortunate) it is too cumbersome and computationally intensive for us to do by hand, so when we need to test the assumption of normality, the result of the Shapiro-Wilk test for normality will be provided to you.

One application of the normal distribution (or more correctly, distributions that describe the approach to normality) involves the calculation of confidence intervals.


Probability of all alleles represented in a sample - Biology

Probability Tutorial for Biology 231

The aim of this tutorial is to guide you through the basics of probability. An understanding of probability is the key to success in Mendelian and evolutionary genetics. Along the way, you will be challenged with eight problems to test your understanding of the concepts.

    ص(أ) = the probability of outcome أ.

The value of any probability must lie within the range of 0.0 and 1.0. لو ص(أ) = 0.0, then outcome أ is impossible. لو ص(أ) = 1.0, then outcome x is guaranteed.

Consider a typical 6-sided die (the singular of dice). Assume that the die is "fair" (بمعنى آخر., it is equally likely to land with any of its six sides facing up). حدد أ as 3. What is ص(أ)? It is simply the probability of rolling a 3: ص(أ) = 1/6.

أ) = the probability of anything إلا outcome أ.

Using the above example, what is ص(

أ)? It is the probability of rolling anything غير ذلك a 3. This can be calculated as one minus ص(أ): 1 - 1/6 = 5/6.

If outcomes أ و ب نكون لا يعتمدوا على بعض، من ثم ص(أ,ب) = ص(أ) + ص(ب). Put another way, the joint probability of outcomes أ و ب equals the sum of their individual probabilities. This concept is central to the SUM RULE .

Here are a couple examples using the same die. First, define أ as the set <1,2>. حدد ب as the set <4,5,6>. في هذا المثال، ص(أ) = 2/6 (or 1/3) ص(ب) = 3/6 (or 1/2). Because outcomes أ و ب are mutually exclusive, ص(أ,ب) = 2/6 + 3/6 = 5/6.

Now let's redefine ب as the set <1,3,5>. What is the joint probability of أ و ب؟ It is no longer the sum of the individual probabilities, because أ و ب are not mutually exclusive they both have the outcome 1 in common. في هذا المثال، ص(أ,ب) = ص(1,2,3,5) = 4/6.

If outcomes أ و ب نكون مستقل، من ثم ص(AB) = ص(أ) × ص(ب). This concept is central to the PRODUCT RULE .

Applying Basic Probability to Mendelian Genetics.

    Mendel's First Law (Equal Segregation of Alleles). If an organism has the genotype د, Mendel's First Law tells us that half of its gametes should bear the د allele and half should bear the د أليل. In terms of formal probability, ص(د) = 0.5 and ص(د) = 0.5. If an individual has the DD genotype, then ص(د) = 1.0 and ص(د) = 0.0. If an individual has the ي genotype, then ص(د) = 0.0 and ص(د) = 1.0.

How is this applicable to Mendelian genetics? Consider the following cross: د (parent #1) × ي (parent #2). Using formal probability, what is the chance that a particular offspring has the د الطراز العرقى؟ We know there are only two ways that this can happen: either (i) parent #1 passes on a د allele and parent #2 passes on a د allele (outcome أ), or (ii) parent #1 passes on a د allele and parent #2 passes on a د allele (outcome ب). Here is what we want to know:

حيث أ و ب are mutually exclusive outcomes, we can use the Sum Rule and simply add together ص(أ) و ص(ب). But we first have to calculate these.

Let's begin with ص(أ), the probability that the د individual passes on a د allele and the ي individual passes on a د أليل. It should be apparent that we can use the Product Rule here, since the two parents are passing on alleles independently of each other. The probability that the د parent passes on a د allele is 0.5, and the probability that the ي parent passes on the د allele is 1.0. وبالتالي، ص(أ) = 0.5 × 1.0 = 0.5.

Now let's move on to ص(ب), the probability that the د parent passes on the د allele and the ي parent passes on the د أليل. Again, we can use the Product Rule. The probability that the د parent passes on the د allele is 0.5, and the probability that the ي parent passes on the د allele is 0.0 (right?). وبالتالي، ص(ب) = 0.5 × 0.0 = 0.0.

So, to finish the problem, we use the Sum Rule. Remember, we want to solve for ص(أ,ب). We've already accepted that the conditions for using the Sum Rule have been met, so ص(أ,ب) = ص(أ) + ص(ب) = 0.5 + 0.0 = 0.5.

Was this easier than using a Punnett square? على الاغلب لا. However, all of this reasoning is implicit to a Punnett square! A Punnett square is just a visual shortcut for doing the same arithmetic.

. ABDE ABdE AbDE AbdE
aBDE AaBBDDEE AaBBDdEE AaBbDDEE AaBbDdEE
aBDe AaBBDDEe AaBBDdEe AaBbDDEe AaBbDdEe
aBdE AaBBDdEE AaBBddEE AaBbDdEE AaBbddEE
aBde AaBBDdEe AaBBddEe AaBbDdEe AaBbddEe
abDE AaBbDDEE AaBbDdEE AabbDDEE AabbDdEE
abDe AaBbDDEe AaBbDdEe AabbDDEe AabbDdEe
abdE AaBbDdEE AaBbddEE AabbDdEE AabbddEE
abde AaBbDdEe AaBbddEe AabbDdEe AabbddEe

حق. There are 32 boxes (we got off easy. there could have been 64 for 4 genes). Let's find the ones with AabbddEE.

. ABDE ABdE AbDE AbdE
aBDE AaBBDDEE AaBBDdEE AaBbDDEE AaBbDdEE
aBDe AaBBDDEe AaBBDdEe AaBbDDEe AaBbDdEe
aBdE AaBBDdEE AaBBddEE AaBbDdEE AaBbddEE
aBde AaBBDdEe AaBBddEe AaBbDdEe AaBbddEe
abDE AaBbDDEE AaBbDdEE AabbDDEE AabbDdEE
abDe AaBbDDEe AaBbDdEe AabbDDEe AabbDdEe
abdE AaBbDdEE AaBbddEE AabbDdEE AabbddEE
abde AaBbDdEe AaBbddEe AabbDdEe AabbddEe

It looks like there's a 1/32 chance of getting this genotype. Now let's do it the easy way. Define outcome أ كما أأ, outcome ب كما ب, outcome د كما ي and outcome ه كما EE. We are interesting in determining ص(ABDE), the probability of simultaneously seeing all four outcomes. Because the genes are independently assorting, we can use the Product Rule: ص(ABDE) = ص(أ) × ص(ب) × ص(د) × ص(ه).

  • ص(أ): the probability of getting أأ من AA & مرات أأ cross is 1.0.
  • ص(ب): the probability of getting ب من ب & مرات ب cross is 0.25.
  • ص(د): the probability of getting ي من د & مرات د cross is 0.25.
  • ص(ه): the probability of getting EE من EE & مرات ه cross is 0.5.

TEST YOUR UNDERSTANDING.

Let's cross AaBBCcDdEEffGGHh & مرات AaBbccDDEeFfGgHh. Again, we'll assume that the genes are independently assorting.

First, what is the chance that a particular offspring has the AaBbccDDEeFfGghh الطراز العرقى؟ If you choose to set up a Punnett square, beware! You'll have 16 columns and 64 rows, for a grand total of 1024 boxes. Don't make any mistakes.

From the same cross. what is the probability that the offspring has the dominant phenotype for all eight genes, assuming that upper-case alleles are dominant to lower case alleles?

احتمال مشروط

    ص(أ|ب) = the probability of outcome أ given condition ب. This is not the same as a joint probability or a simultaneous probability.

لقد أتضح أن ص(أ|ب) is very easy to calculate: ص(أ|ب) = ص(AB) ÷ ص(ب) . تذكر، ص(AB) is the simultaneous probability of outcomes أ و ب. The conditional probability of أ منح ب is their simultaneous probability divided by the probability of ب.

هنا مثال. حدد أ as 3. Define ب as "odd numbers." First, determine ص(أ), the probability that a fair die lands on 3. The answer is 1/6 .

Now, determine ص(A|B), the probability of rolling 3 منح that the die lands on an odd number. The answer is 1/3. Why did the answer change? لم تفعل. We are asking two different questions. In the first case, we wanted to know the overall probability of outcome أ. In the second case, We were only interested in the chance of rolling 3 if condition ب was satisfied. If the die had landed on 2, 4 or 6, then condition ب would not have been satisfied.

Does the arithmetic described above work? The probability of outcome ب (rolling an odd number) is 1/2. The simultaneous probability of أ و ب is the probability of rolling 3, which is 1/6 since this is the only outcome that satisfies both أ و ب. Using the formula ص(أ|ب) = ص(AB) ÷ ص(ب), our answer is 1/6 ÷ 1/2 = 1/3.

A slightly trickier problem: determine ص(أ|

ب). We are now seeking the probability of rolling 3 منح that the die does ليس land on an odd number. The answer, of course, is zero. Does the math work? The probability of ليس rolling an odd number is 1/2. However, the probability of simultaneously satisfying أ و

ب (بمعنى آخر., rolling 3 and ليس rolling an odd number) is zero. وبالتالي ص(أ|

TEST YOUR UNDERSTANDING.

Let's apply this to a common Mendelian genetics problem. There is a gene in cats that affects development of the spine. Individuals with the MM genotype are phenotypically normal. Individuals with the Mm genotype are tailless (Manx) cats. ال مم genotype is developmentally lethal, so zygotes with this genotype do not develop into kittens. If you cross two Manx cats, what fraction of the kittens are expected to be Manx?

Let's try a different problem. In fruit flies, brown eyes result from a homozygous recessive genotype (br/br). A pair of heterozygous parents produce a son with wild type eye color. He is mated with a brown-eyed female. What is the probability that their first offspring has brown eyes?

Probability in Statistical Analysis.

For many statistical tests, we are interested in the so-called ص-القيمة . This is the probability of obtaining a particular value of a test statistic (or greater) just by chance. In general, we are using the statistical test to contrast ملاحظ results (our data) to متوقع results (those predicted by the hypothesis being tested). [We usually must make certain assumptions about the data in order to use the ص-value to reject or fail to reject the hypothesis.] If the difference between the observed and expected results is sufficiently great -- by convention, such that the ص-value corresponding to the test statistic value is less than 0.05 -- we reject the hypothesis used to generated the expected results. إذا كان ص-value is greater than 0.05, we fail to reject the hypothesis.

How do we put this in terms of formal probability? حدد أ as "the observed results or any results less likely given the hypothesis" and ب as "the hypothesis is correct." If all of the assumptions of the statistical test are valid, then the ص-value = ص(أ|ب) : the probability of observing the results or any less likely results given that the hypothesis is correct.

طريقة أخرى لتعريف ملف ص-value is as follows: it is the probability that, if we choose to reject the hypothesis, we are making a mistake! Obviously, we don't like to make mistakes. So we feel better about rejecting a hypothesis if our statistical test gives us a very low ص-القيمة.

The Binomial Distribution

A particularly broad class of repeated experiments falls into the category of Bernoulli Trials . By definition, Bernoulli trials have three characteristics:

    the result of each experiment (بمعنى آخر., trial) is either success or failure (yes or no, true or false, etc.)

If one knows in advance the probability of success (ص), then one can predict the exact probability of ك successes in ن Bernoulli trials. This probability can be written formally as:

ص(ك|pN) = [ن! ÷ (ك! × (ن-ك)!)] × ص ك × (1-ص) ن-ك.

In terms of formal probability, the probability of ك successes given ن trials and given probability of success = ص. [Note the awkward use of ص for two different purposes in the equation.] This formula is the basis of the Binomial Distribution .

Perhaps a more proper way to think about the Binomial Distribution is to consider the distribution, itself. The Binomial Distribution describes the probabilities of all possible outcomes of ن Bernoulli trials given probability of success = ص. It should be evident that one could observe, in principle, any integer number of successes ranging from 0 to ن.

To better understand the Binomial Distribution, it makes sense to break down the formula.

    [ن! ÷ (ك! × (ن-ك)!)] . If we perform ن trials and don't care which of those trials represent the ك successes, we must calculate the number of different ways that we can get ك successes. Consider a die-rolling experiment, where we define success as rolling a 3. If we roll the die 4 times, how many different ways are there to get 0, 1, 2, 3 or 4 successes? The following table summarizes this.

. التجربة 1 التجربة 2 التجربة 3 Trial 4
ك=0 يفشل يفشل يفشل يفشل
ك=1 النجاح يفشل يفشل يفشل
يفشل النجاح يفشل يفشل
يفشل يفشل النجاح يفشل
يفشل يفشل يفشل النجاح
ك=2 النجاح النجاح يفشل يفشل
النجاح يفشل النجاح يفشل
النجاح يفشل يفشل النجاح
يفشل النجاح النجاح يفشل
يفشل النجاح يفشل النجاح
يفشل يفشل النجاح النجاح
ك=3 يفشل النجاح النجاح النجاح
النجاح يفشل النجاح النجاح
النجاح النجاح يفشل النجاح
النجاح النجاح النجاح يفشل
ك=4 النجاح النجاح النجاح النجاح

By comparison, the formula gives the following answers:

ك ن! ك! ن-ك! [ن! ÷ (ك! × (ن-ك)!)]
0 1 × 2 × 3 × 4 = 24 1 (by definition) 1 × 2 × 3 × 4 = 24 24 ÷ (1 × 24) = 1
1 1 × 2 × 3 × 4 = 24 1 1 × 2 × 3 = 6 24 ÷ (1 × 6) = 4
2 1 × 2 × 3 × 4 = 24 1 × 2 = 2 1 × 2 = 2 24 ÷ (2 × 2) = 6
3 1 × 2 × 3 × 4 = 24 1 × 2 × 3= 6 1 24 ÷ (6 × 1) = 4
4 1 × 2 × 3 × 4 = 24 1 × 2 × 3 × 4 = 24 1 (by definition) 24 ÷ (24 × 1) = 1

For the die-rolling experiment, the probability of success, ص, is 1/6 the probability of failure, 1-ص, is 5/6. The following table shows the probabilities of ك من ن successes for ص=1/6:

ك ص ك (1-ص) (ن-ك) ص ك × (1-ص) (ن-ك)
0 (1/6) 0 = 1.0000 (5/6) 4 = 0.4823 1.0000 × 0.4823 = 0.4823
1 (1/6) 1 = 0.1667 (5/6) 3 = 0.5787 0.1667 × 0.5787 = 0.0965
2 (1/6) 2 = 0.0278 (5/6) 3 = 0.6944 0.0278 × 0.6944 = 0.0193
3 (1/6) 3 = 0.0046 (5/6) 1 = 0.8333 0.0046 × 0.8333 = 0.0039
3 (1/6) 4 = 0.0008 (5/6) 0 = 1.0000 0.0008 × 1.000 = 0.0008

ك ن! ÷ (ك! × (ن-ك)!) & مرات ص ك × (1-ص) (ن-ك) = ص(ك|pN)
0 1 & مرات 0.4823 = 0.4823
1 4 & مرات 0.0965 = 0.3858
2 6 & مرات 0.0193 = 0.1157
3 4 & مرات 0.0039 = 0.0154
4 1 & مرات 0.0008 = 0.0008

Below are binomial distribution plots for 10 Bernoulli trials with three different probabilities of success.

As the number of trials is increased, the binomial distribution becomes smoother. In fact, the normal distribution can be derived mathematically from a binomial distribution with ن = infinity and ص = 0.5.

TEST YOUR UNDERSTANDING.

Do we really expect the متوقع results of a cross? أمم. In mice, individuals with either the BB أو ب genotype have black fur, while those with the ب genotype have brown fur. [We are ignoring other genes that can interact with this gene to produce other fur colors.] You cross true-breeding black and brown mice to produce heterozygotes, then cross these to produce an F2 generation with sixteen mouse pups. What is the exact probability that you will observe the expected result: twelve black mice and four brown mice?

Consider, then, the two closest outcomes: eleven black/five brown mice and thirteen black/three brown mice. How much more likely is the expected result than each of these alternative results?

In traditional statistical analysis, we are estimating the probability of observed data منح the hypothesis. Sometimes, however, we are interested in the inverse: the probability of a hypothesis منح the observed data.

Consider the following scenario. A female human (Gladys) with an autosomal recessive phenotype has mated with a male human (Mickey) with the dominant phenotype. They have three offspring, all of whom show the dominant phenotype. What is the probability that Mickey was a heterozygote?

If we define أ as the observed results (بمعنى آخر., the data) and ب as the hypothesis that Mickey is heterozygous and Gladys is homozygous recessive, we are interested in the value of ص(ب|أ). As a conditional probability,

ص(ب|أ) = ص(BA) ÷ ص(أ) .

ص(أ|ب) = ص(AB) ÷ ص(ب) .

It should be obvious that

ص(AB) = ص(BA) .

Therefore, rearranging the formula for ص(أ|ب) and substituting ص(BA) for ص(AB), we get

ص(BA) = ص(أ|ب) × ص(ب) .

If we substitute this into the first formula, we get

ص(ب|أ) = [ص(أ|ب) × ص(ب)] ÷ ص(أ) .

This equation represents Bayes' Theorem. It has three components:

  • ص(ب) is the احتمال مسبق من ب. In other words, it is the probability of ب before we have any additional information.
  • ص(أ|ب) is the probability of أ منح ب.
  • ص(ب|أ) is the probability of ب منح أ.


At first glance, solving the Mickey/Gladys problem might seem straightforward. We want to calculate the posterior probability of Mickey being a heterozygote given the observation that three children have the dominant phenotype. However, it turns out that only one of the terms on the right side of the formula can actually be calculated with the information provided:

  • ص(أ|ب) is the probability of three dominant offspring from a cross of heterozygous and homozygous recessive parents. If we use جي و ز to represent the alleles of the relevant gene, the cross would be جيغ & مرات ز. This cross produces جيغ و ز offspring with equal probability (0.5). Since each offspring is produced independently, we use the Product Rule. here is a 0.5 × 0.5 × 0.5 (1/8) chance of having three phenotypically dominant offspring.


The other two terms, ص(أ) و ص(ب) can not be calculated with the information provided. We need one more piece of information: the prior probability that Mickey is heterozygous. That is, before we had any offspring data, what was the chance that Mickey was heterozygous? It depends on his parents. If they were both heterozygous, then there is a 2/3 chance that Mickey is heterozygous and a 1/3 chance that he is homozygous dominant. [Remember, we are conditioning these probabilities on the observation that Mickey has the dominant phenotype. Therefore, we only consider the outcomes of the cross that produce dominant offspring.] But if Mickey's parents had different genotypes, the chance that he is a heterozygote will change. So we need more information. Here it is: let's assume that we had prior information that led us to believe that both of Mickey's parents were heterozygous.

Now we can plug in a value for ص(ب), the prior probability that Mickey is heterozygous and Gladys is homozygous. We know that Gladys has the ز الطراز العرقى. We also know that Mickey has the dominant phenotype, so his genotype must be either GG أو جيغ. If both of his parents were heterozygous, then there is a 2/3 change that Mickey is heterozygous. Therefore, we will assume that the prior probability of Mickey being heterozygous and Gladys being homozygous, ص(ب), is 2/3.

What about ص(أ)? This actually still has to be calculated. In terms of formal probability,

ص(أ) = ص(أ|ب) × ص(ب) + ص(أ|

So, first, what is ص(أ|ب)? We calculated this already! So, next, what is ص(أ|

ب). That is, what is the probability of seeing three phenotypically dominant offspring if Mickey is ليس heterozygous? Since Mickey has the dominant phenotype, this means he must have the homozygous dominant genotype. Therefore, there is a 1.0 probability that the three offspring are phenotypically dominant. [GG & مرات ز can only produce جيغ offspring.] Therefore, using the formula above, ص(أ) = 1/8 × 2/3 + 1.0 × 1/3 = 1/12 + 4/12 = 5/12.

We are now ready to calculate the probability that Mickey is a heterozygote منح the fact that he and Gladys have three phenotypically dominant offspring. From Bayes' Theorem, ص(ب|أ) = [ص(أ|ب) × ص(ب)] ÷ ص(أ) = 1/8 × 2/3 ÷ 5/12 = 1/8 × 2/3 × 12/5 = 0.2.

This is a very important point: if we had made different assumptions about the genotypes of Mickey's parents, we would have obtained a different answer.

This is another very important point: the posterior probability of a hypothesis is generally different than the prior probability of a hypothesis. This is because the posterior probability of a hypothesis is calculated after additional information (the data) has been provided.

Let's take the Mickey/Gladys problem one step farther. Given the data, what are the relative likelihoods of our two competing hypotheses: ب, the hypothesis that Mickey is heterozygous and

ب, the probability that Mickey is homozygous(بمعنى آخر., an individual with the dominant phenotype but not the جيغ genotype)? We have already calculated the posterior probability that Mickey is heterozygous (assuming a prior probability of 2/3). We now must calculate the posterior probability that Mickey is homozygous (assuming the same prior probability). This can be written as

ب|أ) = [ص(أ|

ب) = 1. This was calculated earlier. It is the chance of getting three dominant offspring if Mickey has the GG الطراز العرقى.

This should actually make sense. If we already calculated that the posterior probability of Mickey being a heterozygote is 0.2, then the posterior probability that he is not a heterozygote should be 1 - 0.2, or 0.8.

So, given the data, what are the relative likelihoods of the two competing hypotheses?

ص(ب|أ) / ص(

ب|أ) = 0.2 / 0.8 = 1/4.

In other words, it is four times more likely that Mickey is a homozygote than it is that he is a heterozygote.

TEST YOUR UNDERSTANDING.

Consider a scenario where healthy individuals heterozygous for a recessive genetic disease represent 18% of the general population, while those with the disease represent 1% of the general population. A healthy male has undergone testing for the recessive allele and learns that he is heterozygous. His spouse is also healthy, but we do not know her genotype. They have a healthy child. What is the posterior probability that she is homozygous?

This next problem is pretty challenging. How many healthy children must they have before she can be more than 95% confident that she is homozygous? [Note: if they have even one child with the disease, the question is moot. We would know that she is heterozgous.]


حساب الارتباط

How can we calculate relatedness in inbred, mixed, or haplodiploid families? The procedure is essentially the same as with regular diploid families. We can trace genes from generation to generation and calculate the probability that they are shared or we can use a graphical technique similar to the one above. However, we can no longer assume that all steps reduce relatedness by a factor of 2 (multiplying by ½). Instead, we must label our family tree with the known relatedness at each step. As you make your path through the tree, write down the relatedness at each step. At the end, multiply all of the r values to obtain the coefficient of relatedness. The four trees below illustrate this for sample unrelated, inbred, mixed, and haplodiploid cases.

Unrelated. This tree simply adds the relatedness of ½ between parents and offspring and between siblings when there is no inbreeding.

Inbred. A was related to its mate by ½ (siblings) and B was related to its mate by ⅛ (first cousins). No other parents are related.

Mixed. In this tree, B and C share only one parent, A, reducing their relatedness to ¼. Similarly, D and E share only one parent, B.

Haplodiploid. This tree shows a family of wasps with multiple queens. Only G is male all the others are female. (Non-reproductive females are not shown.)

For example, what is the relatedness between D and G in the Inbred tree? Following the path D-B-C-G, we cross relatednesses of 9 &frasl16, ¾, and ½, giving a relatedness of 27 &frasl128 (about 0.211). For comparison, D and G are related by ⅛ (0.125) in the Unrelated tree. In the Mixed tree, how are D and K related? The path D-E-K has ¼ and ½, for a relatedness of ⅛. For more practice, try the problems below,which refer to the family trees above unless otherwise indicated. (For other families, you need to draw customized trees using the parent-offspring and sibling-sibling relatednesses given earlier in this tutorial.)


شاهد الفيديو: رحلة اليقين : أكل زيد لحم الكلب - تشابه الجينات دليل لنظرية التطور أم عليها (أغسطس 2022).