Чем отличается метод дробления ДНК от тех методов, которые использовал международный консорциум по чтению генома человека? Обычные методы подразумевают последовательный анализ генома: мы шагаем по хромосомам, читая фрагмент за фрагментом. Концы предыдущих прочитанных фрагментов выступают затравками для чтения новых и так далее. Этот подход надежен и неизбежно приводит к нужному результату, не требует каких-то сложных алгоритмов для анализа данных, но очень медлителен и требует серьезных усилий со стороны ученых-экспериментаторов, которым приходится ставить эксперимент за экспериментом, реакцию за реакцией.
Метод раздробления генома начал применяться для чтения коротких фрагментов ДНК еще в 1979 году271, но мало кто верил, что с его помощью можно будет прочитать большой геном. Мы взяли ДНК, раздробили, прочитали разрозненный набор фрагментов, которые называются чтениями. И что дальше? Как мы все это соберем? И можно ли вообще собрать такой “пазл”? Задача по “сборке” генома из чтений легла на специалистов в области вычислительной биологии – биоинформатики, еще одного бурно развивающегося направления современной науки.
Возьмем множество прочитанных фрагментов ДНК. Найдем такую пару последовательностей, которые имеют хорошее перекрытие, объединим их и получим более длинный фрагмент. Последовательно сшивая перекрывающиеся фрагменты, мы будем получать все более длинные последовательности, пока в идеале не получим целые хромосомы. Иллюстрация такого объединения фрагментов приведена ниже.
