В статье «Подход на основе графовых нейронных сетей для автоматической идентификации типов клеток» представлен scGraph, новый метод классификации типов клеток на основе данных секвенирования одноклеточной РНК (scRNA-seq) с использованием графовых нейронных сетей.

Предыдущие исследования показывают, что сети регуляции генов и межбелковых взаимодействий содержат ценную информацию для дифференциации типов клеток. Методы, совместно анализирующие scRNA-seq с этими генными сетями, показали улучшенную эффективность при решении таких задач, как прогнозирование и интерпретация. Руководствуясь этим, scGraph объединяет данные scRNA-seq и сети взаимодействия генов в модель графовой нейронной сети для надежной идентификации типов клеток. Это отражает сложные взаимоотношения генов, утраченные методами, использующими только экспрессию.

Авторы сравнивают scGraph с существующими подходами к различным наборам данных о людях и мышах. scGraph неизменно превосходит эти методы в классификации типов клеток. В целом, scGraph демонстрирует возможности объединения данных об экспрессии отдельных клеток с сетями взаимодействия для точной и биологически значимой идентификации типов клеток.

Сети взаимодействия генов

Сети взаимодействия генов представляют отношения между генами, часто в форме графа, где узлы соответствуют генам, а ребра обозначают взаимодействия между генами. scGraph использует эти сети для улучшения понимания взаимоотношений генов, что, в свою очередь, помогает в точном представлении клеток.

Типы сетей взаимодействия генов:В тексте упоминается набор различных сетей взаимодействия генов для оценки. Некоторые из используемых сетей включают в себя:

  • База данных STRING: сеть белок-белкового взаимодействия (PPI), которая собирает информацию из литературы и экспериментов.
  • HumanNet: функциональная генная сеть, которая объединяет различные типы данных омики с использованием байесовской статистики. Он включает в себя несколько типов генных сетей человека, включая PPI, кофункциональные связи, социтации и интерологи других видов.
  • FunCoup: Сети функциональных ассоциаций всего генома, которые объединяют разнообразные данные о функциональных ассоциациях с использованием байесовской интеграции.
  • GeneMANIA: комбинированная генная сеть, созданная путем взвешивания нескольких функциональных наборов геномных данных.
  • pgWalk: две матрицы функционального сходства, полученные на основе путей KEGG и биологических процессов Gene Ontology, которые были преобразованы в генные сети.

При применении сети взаимодействия генов к определенному набору данных сохраняются только пары взаимодействий, в которых оба взаимодействующих гена присутствуют в этом наборе данных. Пары взаимодействия, включающие гены, отсутствующие в наборе данных, отбрасываются. Это гарантирует, что рассматриваемые взаимодействия актуальны для конкретного анализируемого набора данных.

Сети взаимодействия генов рассматриваются как ориентированные графы, отражающие направления регуляции и сильные стороны между парами генов. Например, в ненаправленной генной сети, такой как сеть STRING PPI, каждое взаимодействие рассматривается как пара направленных ребер: одно от гена A к гену B, а другое от гена B к гену A.

Чтобы включить информацию от соседних генов, сохраняя при этом информацию об отдельных генах, в сеть взаимодействия генов добавляются пары псевдосамовзаимодействия. Эти псевдовзаимодействия помогают уловить влияние собственных особенностей гена, принимая во внимание взаимодействие с другими генами.

Как работает модель scGraph

scGraph состоит из трех основных модулей:

  • Модуль графического представления
  • Модуль извлечения функций
  • Модуль классификации

1. Модуль графического представления:

Этот модуль обрабатывает сеть взаимодействия генов и фокусируется на отношениях между генами. Он использует сверточный слой графа, который учитывает связи между генами в графе. В этом графе каждый узел представляет ген, а ребра между узлами представляют отношения между генами.

Сверточный слой графа объединяет информацию из соседних узлов для обновления характеристик каждого узла. Формула, используемая для обновления функций узла, основана на модифицированной версии формулы сверточного слоя GraphSAGE (выборка и агрегирование графиков). Формулу можно представить как:

  • h_v^k: вектор признаков узла v в k-м слое.
  • N(v): соседние узлы узла v.
  • W: Обучаемые параметры
  • σ(⋅): нелинейная функция активации.

Периферийная важность и внедрение генов:

Некоторые гены, например факторы транскрипции, более важны в генной сети, чем другие. Чтобы учесть различную важность взаимодействия, для каждого края вводится обучаемый параметр (взаимодействие генов). Формула обновления характеристик узла с учетом важности края:

Здесь:

  • H_v^(k-1): матрица объектов, построенная путем суммирования объектов предыдущего слоя.
  • S_v: вектор оценки важности ребер для сверточного слоя графа.
  • δ: функция активации сигмоида для масштабирования оценок важности ребер.

2. Модуль извлечения функций:

Агрегированные функции генов из предыдущего модуля обрабатываются в этом модуле. Характеристики гена проходят через два линейных слоя с разными скрытыми узлами, за которыми следует этап сглаживания и многослойный перцептрон (MLP) с двумя скрытыми слоями. За каждым скрытым слоем следует функция выпрямленной линейной единицы (ReLU) и уровень нормализации.

Цель модуля извлечения признаков — уменьшить размерность признаков гена, сохранив при этом значимую информацию. Выходные данные этого модуля служат входными данными не только для модуля классификации, но и для визуализации t-SNE.

3. Модуль классификации:

Функции высокого уровня, извлеченные модулем извлечения функций, используются для прогнозирования метки ячейки с помощью функции softmax. Выходные данные этого модуля предоставляют окончательные прогнозы для меток ячеек.

Стратегии и методы обучения scGraph

Инициализация параметров:Параметры модели scGraph инициализируются с использованием инициализатора Kaiming, который представляет собой метод, предложенный He et al. в 2015 году. Этот инициализатор предназначен для хорошей работы с активациями выпрямленных линейных единиц (ReLU) и предназначен для предотвращения проблем с исчезновением и взрывом градиента во время обучения.

Потери перекрестной энтропии: Потери перекрестной энтропии используются в качестве потерь обучения для модели scGraph. Эта потеря измеряет разницу между предсказанными вероятностями и истинными метками данных. Математически это можно определить как:

Здесь:

  • N — общее количество выборок (точек данных).
  • M — общее количество типов ячеек.
  • y_n^m равно 1, если n-я выборка принадлежит к m-му типу ячеек, в противном случае y_n^m равно 0.
  • x_n^m — прогнозируемая вероятность того, что n-й образец принадлежит m-му типу ячеек.

Пенализация L1 за важность ребра.Вектор оценки важности ребер S регуляризуется с помощью пенализации L1, что помогает контролировать сложность модели и предотвращает переобучение. Член регуляризации добавляется к функции потерь со степенью регуляризации λ, установленной равной 0,1. Окончательная функция потерь становится

Оптимизация. Оптимизатор Adam используется для обучения модели scGraph. Начальные настройки включают скорость обучения 0,01 и затухание веса (регуляризация L2) 10^(-4). Оптимизатор Адама адаптирует скорость обучения отдельных параметров во время обучения.

Стратегии скорости обучения. Процесс обучения включает в себя две стратегии скорости обучения:

  • Косинусный отжиг с теплым перезапуском. Первоначально веса модели инициализируются с использованием этой стратегии. Он включает в себя циклическое изменение скорости обучения с использованием графика косинусного отжига с теплым перезапуском. Это помогает модели исследовать различные области ландшафта потерь во время обучения.
  • Снижение скорости обучения. Во время обучения скорость обучения снижается в 0,1 раза, когда показатель F1 ​(показатель эффективности модели) перестает улучшаться. Эта стратегия помогает точно настроить скорость обучения модели для достижения лучшей сходимости.

Обработка несбалансированных данных. Наборы данных секвенирования одноклеточной РНК (scRNA-seq) часто несбалансированы, то есть некоторые типы клеток содержат меньше образцов, чем другие. Чтобы смягчить влияние этого дисбаланса, используются две стратегии:

  • Взвешенная перекрестная энтропия. Разные значения потерь присваиваются разным классам в зависимости от их частоты с использованием взвешенной перекрестной энтропии. Это придает большее значение недостаточно представленным классам во время обратного распространения ошибки.
  • Дополнение данных: используются методы увеличения данных, особенно в классах небольших типов ячеек, для искусственного увеличения количества выборок. Это помогает смягчить последствия дисбаланса данных.

Оценка эффективности с помощью базовых методов

Производительность scGraph оценивается по восьми базовым методам. Оценка выполняется на восьми наборах данных с использованием 5-кратной перекрестной проверки. Метриками, используемыми для оценки, являются среднее значение F1 (среднее значение F1 для разных типов клеток) и точность. Обе метрики используются для сравнения производительности scGraph и базовых методов. scGraph превосходит все восемь базовых методов на всех восьми наборах данных. Среди базовых методов ACINN и SVM выделяются как надежные и точные, а scGraph превосходит даже эти методы со значительным улучшением средних показателей F1. Улучшение количественно оценивается как среднее процентное увеличение среднего значения F1.

Открытие взаимодействия генов scGraph

scGraph не только обеспечивает современную производительность в классификации типов клеток, но также изучает взаимоотношения взаимодействия генов с помощью вектора оценки важности границ S. В процессе обучения оценки важности ребер обновляются, и после завершения обучения модель получает веса сети взаимодействия ген-ген.

Пары взаимодействия ген-ген сортируются на основе их оценок важности s. Лучшие уникальные гены-мишени отбираются для последующего анализа. Чтобы продемонстрировать способность scGraph последовательно изучать основные гены, используются несколько обученных моделей scGraph. Списки 50 лучших целевых генов собираются из различных групп перекрестной проверки конкретного набора данных (набор данных Т-клеток Чжана), и оценивается согласованность этих списков основных генов.

Сильные стороны и ограничения

Сильные стороны:

  • Показано, что scGraph точно различает типы и подтипы клеток, превосходя базовые методы.
  • Демонстрируется надежность этой структуры в различных магистральных сетях генов.
  • Преимущества включают эффективную визуализацию, надежность, масштабируемость и гибкость.
  • Подчеркивается способность scGraph обнаруживать тканеспецифичные важные гены и извлекать значимые взаимодействия.

Ограничения:

  • Производительность системы в идентификации редких типов клеток нуждается в улучшении.
  • Процедура обучения может быть улучшена для сокращения времени вычислений.
  • Интеграция информации о путях или информации о биологических процессах онтологии GO может расширить возможности модели.
  • Изучение комбинации различных сетей взаимодействия генов для повышения производительности.
  • Интеграция различных данных омики с использованием графовых нейронных сетей для анализа одноклеточных данных является потенциальным будущим направлением.

Что мы сказали в этой статье

Итак, мы обсудили, что scGraph — это вычислительная среда, состоящая из графовой нейронной сети для автоматической идентификации клеток. scGraph сравнивал восемь базовых методов, включая SVM и ACTINN, на восьми наборах данных. Результаты показали, что scGraph может точно различать типы и подтипы клеток, демонстрируя его превосходную производительность по сравнению с методами сравнения. После демонстрации того, что scGraph устойчив к различным магистральным сетям генов, была проведена серия экспериментов, разработанных на различных наборах данных об условиях и проиллюстрировав производительность scGraph с точки зрения визуализации, надежности, масштабируемости и гибкости. и, наконец, были предложены сильные и слабые стороны.

Рекомендации

scGraph: подход на основе графовых нейронных сетей для автоматической идентификации типов клеток (Цицзин Инь, Цяо Лю, Чжуоран Фу, Ванвэнь Цзэн, Бохэн Чжан, Сюэгун Чжан, Руй Цзян, Хайронг Лв)