· Важность озера данных в здравоохранении

В здравоохранении мы имеем дело с различными аспектами данных, такими как клинические данные, страховые данные, финансовые данные, данные об оборудовании/производстве, фармакологические данные. Основным источником медицинских данных являются электронные медицинские карты пациентов (EHR). Health Level Seven International (HL7), некоммерческая организация по разработке стандартов, объявила о стандарте обмена структурированными медицинскими данными под названием Fast Healthcare Interoperability Resources (FHIR). FHIR получил широкую поддержку поставщиков программного обеспечения для здравоохранения и был поддержан поставщиками электронных медицинских карт на собрании Американской ассоциации медицинской информатики. Спецификация FHIR делает структурированные медицинские данные легко доступными для клинических исследователей и специалистов по информатике, а также упрощает обработку этих данных инструментами машинного обучения и извлечение из них ценной информации. Например, FHIR предоставляет средства для захвата документов, таких как заметки врача или сводки лабораторных отчетов. Однако эти данные должны быть извлечены и преобразованы, прежде чем их можно будет искать и анализировать.

Во многих случаях хранилища данных создают самую большую проблему для использования информации из данных в разных вариантах. Озеро данных позволяет организациям анализировать данные из единого достоверного источника.

Озеро данных — это архитектура, используемая для хранения данных как есть, с высокой скоростью, с высокой скоростью в централизованном репозитории для крупномасштабных данных и анализа в реальном времени. Медицинские учреждения могут извлекать огромные объемы данных — структурированных, полуструктурированных и неструктурированных — в режиме реального времени из озера данных из любого места. Данные могут быть получены с датчиков Интернета вещей, активности потока кликов на веб-сайте, файлов журналов, каналов социальных сетей, видео и систем обработки онлайн-транзакций (OLTP).

· Текущий подход к внедрению озера данных Healthcare Data Lake

Согласно традиционному методу создания озера данных на AWS, S3 является одним из ключевых компонентов. Это позволяет нам выполнять аналитику с архитектурой Lake-House (Lake-house — это архитектурный шаблон для создания хранилища данных поверх Data Lake).

На приведенном выше рисунке показан один из существующих архитектурных шаблонов для создания озера данных на AWS с медицинскими данными. Этот пример взят из блога AWS. Вышеупомянутая архитектура имеет дело с повсеместно распространенными электронными медицинскими картами (EHR), источники этих данных включают секвенаторы генома, такие устройства, как МРТ, рентген и ультразвук, датчики и носимые устройства для пациентов, телеметрию медицинского оборудования, мобильные приложения. Наряду с медицинскими данными другие неклинические данные операционных систем поступают из различных источников, таких как человеческие ресурсы, финансы, цепочка поставок, претензии и выставление счетов.

Вышеупомянутая эталонная архитектура состоит из четырех отдельных компонентов: прием, хранение, безопасность и аналитика.

Различные варианты приема данных, такие как AWS Snowball, AWS Direct Connect, Storage Gateway, AWS Kinesis Services, могут использоваться в соответствии с конкретными вариантами использования с локальными данными, потоковыми данными или сторонними медицинскими данными. AWS Glue используется для деидентификации, загрузки медицинских данных в S3, а преобразование может быть выполнено с помощью Glue ETL для полученных данных.

Данные, находящиеся в озере данных S3, необходимо разделить на зоны, такие как необработанная зона приземления, очищенная зона и аналитические зоны, чтобы они не превратились в болото данных. Мы можем анализировать данные из S3, используя SQL, как запрос, используя Athena. Спектр Redshift позволяет создать внешнюю таблицу с данными из S3 без физической передачи данных и анализировать с помощью SQL-запроса вместе с данными из другой таблицы Redshift. Используя объединенные запросы в Amazon Redshift, мы можем запрашивать и анализировать данные в операционных базах данных, хранилищах данных и озерах данных. С помощью функции объединенных запросов мы можем интегрировать запросы из Amazon Redshift к оперативным данным во внешних базах данных с запросами в средах Amazon Redshift и Amazon S3. Федеративные запросы могут работать с внешними базами данных в Amazon RDS для PostgreSQL, Amazon Aurora с совместимостью с PostgreSQL, Amazon RDS для MySQL (предварительная версия) и Amazon Aurora с совместимостью с MySQL (предварительная версия). AWS Glue Elastic Views (предварительная версия) упрощает создание материализованных представлений, которые комбинируют и реплицируют данные в нескольких хранилищах данных без написания специального кода. может использовать знакомый язык структурированных запросов (SQL) для быстрого создания виртуальной таблицы — материализованного представления — из нескольких различных исходных хранилищ данных. AWS Glue Elastic Views копирует данные из каждого исходного хранилища данных и создает реплику в целевом хранилище данных. AWS Glue Elastic Views постоянно отслеживает изменения данных в исходных хранилищах данных и автоматически обновляет материализованные представления в целевых хранилищах данных, обеспечивая постоянную актуальность данных, доступ к которым осуществляется через материализованное представление. AWS Glue Elastic Views поддерживает множество баз данных и хранилищ данных AWS, включая Amazon DynamoDB, Amazon S3, Amazon Redshift и Amazon Elasticsearch Service, а также поддержку Amazon RDS, Amazon Aurora и других последующих. AWS Glue Elastic Views является бессерверным и автоматически увеличивает или уменьшает емкость в зависимости от спроса, поэтому нет необходимости управлять инфраструктурой.

· Проблемы с текущим подходом к внедрению озера данных Healthcare Data Lake

Какие бы варианты проектирования и реализации озера данных мы ни обсуждали в предыдущем разделе, для оптимального выполнения нескольких вариантов использования требуется надзор и глубокие знания предметной области, а также технические знания. Если нам нужно извлечь больше пользы из данных, мы должны использовать различные варианты расширенной аналитики с машинным обучением. Различные предложения от AWS могут быть полезны для выполнения машинного обучения, такого как Amazon SageMaker, Amazon Transcribe, но для этого требуется глубокое понимание медицинских данных с помощью EHR (цифровая версия бумажной карты пациента. EHR в режиме реального времени). , записи, ориентированные на пациента, которые делают информацию мгновенно и безопасно доступной для авторизованных пользователей.Хотя ЭУЗ действительно содержит истории болезни и лечения пациентов, система ЭУЗ построена таким образом, чтобы выходить за рамки стандартных клинических данных, собираемых в кабинете поставщика медицинских услуг, и может включать более широкое представление об уходе за пациентом.), FHIR (Fast Healthcare Interoperability Resource — это проект стандарта данных, разработанный и поддерживаемый HL7 International. FHIR был создан с учетом сложности медицинских данных и учитывает современный интернет-подход к соединению различных дискретных элементов) и хорошее понимание концепций и методов машинного обучения. Это создает еще одну проблему при миграции озера данных с мышлением клиента, думая о возможной сложности.

· Модернизация озера данных Healthcare с помощью AWS HealthLake

AWS выпускает Amazon HealthLake во время AWS Re: Invent 2020. Amazon HealthLake соответствует требованиям HIPAA (Закон о переносимости и подотчетности медицинского страхования 1996 г. (HIPAA) — это федеральный закон, требующий создания национальных стандартов для защиты конфиденциальной медицинской информации пациентов от разглашается без согласия или ведома пациента. Министерство здравоохранения и социальных служб США (HHS) издало правило конфиденциальности HIPAA для реализации требований HIPAA. Правило безопасности HIPAA защищает подмножество информации, поставщикам медицинских услуг, страховым компаниям и фармацевтическим компаниям для хранения, преобразования, запроса и анализа медицинских данных в петабайтном масштабе.

Обсужденные в предыдущем разделе проблемы с внедрением озера данных здравоохранения Amazon HealthLake решает в крупных случаях. Он устраняет тяжелую работу по организации, индексированию и структурированию информации о пациентах, чтобы обеспечить полное представление о состоянии здоровья отдельных пациентов и целых групп пациентов безопасным, совместимым и проверяемым способом. С помощью API HealthLake организации здравоохранения могут легко копировать медицинские данные в стандартном отраслевом формате Fast Healthcare Interoperability Resources (FHIR) из локальных систем в безопасное озеро данных в облаке. HealthLake преобразует неструктурированные данные с помощью специализированных моделей машинного обучения, таких как обработка естественного языка, для автоматического извлечения значимой медицинской информации из данных и предоставляет мощные возможности запросов и поиска. Организации могут использовать расширенную аналитику и модели машинного обучения, такие как Amazon QuickSight и Amazon SageMaker, для анализа и понимания взаимосвязей, выявления тенденций и прогнозирования новых нормализованных и структурированных данных. Организации могут использовать Amazon HealthLake для проведения анализа клинических данных на основе машинного обучения, начиная от раннего выявления заболеваний и заканчивая тенденциями в области здоровья населения, чтобы улучшить уход и сократить расходы.

Amazon HealthLake поддерживает хранилища данных медицинских записей в формате, совместимом с FHIR. Мы можем выполнять следующие задачи с помощью консоли Amazon HealthLake, интерфейса командной строки AWS (AWS CLI) или API:

· Создание, мониторинг и удаление хранилища данных

· Импорт данных из корзины Amazon Simple Storage Service (Amazon S3) в хранилище данных.

· Запрашивать данные с помощью функций Create, Read, Update и Delete.

· Используйте функцию поиска FHIR

· Преобразование данных с помощью интегрированной медицинской обработки естественного языка (NLP)

В HealthLake есть 4 шага высокого уровня от приема данных до создания ценности для бизнеса.

1. Создание и мониторинг хранилищ данных

2. Операции создания, чтения, обновления, удаления (CRUD)

3. Поиск FHIR по всем данным

4. Создайте модель машинного обучения, используя интегрированную медицинскую обработку естественного языка (NLP).

Каждый из вышеперечисленных шагов поясняется ниже со снимком экрана.

1. Создание и мониторинг хранилищ данных. В следующем примере показано, как создать хранилище данных с помощью интерфейса командной строки AWS (AWS CLI) и консоли AWS одновременно.

В следующем примере показано, как использовать интерфейс командной строки AWS для создания хранилища данных.

aws healthlake create-fhir-datastore \

— регион сша-восток-1\

— версия типа хранилища данных R4 \

— preload-data-config PreloadDataType="SYNTHEA" \

— имя хранилища данных «FhirTestDatastore» \

В следующем примере показано, как использовать интерфейс командной строки AWS для запуска задания импорта.

aws healthlake start-fhir-import-job \

— input-data-config S3Uri="s3://(Имя корзины)/(Имя префикса)/" \

— datastore-id (идентификатор хранилища данных) \

— data-access-role-arn «arn:aws:iam::(ID учетной записи AWS):role/(имя роли)» \

— регион сша-восток-1

2. Операции создания, чтения, обновления, удаления (CRUD). Управляйте данными и запрашивайте их, используя операции CreateResource, ReadResource, UpdateResource и DeleteResource для 71 различного типа ресурсов FHIR. Все эти операции обрабатываются через HTTP-клиент.

В следующем примере показано создание ресурса пациента FHIR с использованием POST.

POST /datastore/(идентификатор хранилища данных)/r4/Patient/ HTTP/1.1

Хост: healthlake.us-east-1.amazonaws.com

Тип содержимого: приложение/json

Авторизация: AWS4-HMAC-SHA256 Credential=(отредактировано)

{

«тип ресурса»: «Пациент»,

«активный»: правда,

"название": [

{

«использовать»: «официальный»,

«семья»: «Лань»,

"данный": [

"Джейн"

]

},

{

«использование»: «обычное»,

"данный": [

"Джейн"

]

}

],

"женский пол",

«Дата рождения»: «1966–09–01»

}

3. Поиск FHIR по всем данным.Amazon HealthLake предоставляет базовые функции поиска FHIR, позволяя пользователям запрашивать хранилище данных на основе параметров или идентификаторов ресурсов для перехода к определенным интересующим записям.

В HealthLake поддерживаются следующие параметры.

· Число — поиск числового значения.

· Дата/Дата/Время — поиск ссылки на дату или время.

· String — поиск последовательности символов.

· Токен — ищет близкое к точному совпадение со строкой символов, часто с парой значений.

· Составной — поиск нескольких параметров для одного типа ресурса с использованием операции И.

· Количество — поиск числа, системы и кода в качестве значений. Требуется номер, но система и код необязательны.

· Ссылка — поиск ссылок на другие ресурсы FHIR. Примером может служить поиск ссылки на пациента в ресурсе Observation.

· URI — поиск строки символов, которая однозначно идентифицирует конкретный ресурс.

· Special — поиск на основе интегрированных медицинских расширений НЛП.

В следующем примере показано, как выполнить поиск DocumentReferences диагноза стрептококка и лекарства амоксициллина с помощью HTTP-клиента с GET поиском следующих входных данных в HTTP.

GET /datastore/(ID хранилища данных)/r4/DocumentReference?_lastUpdated=le2021–12–19&infer-icd10cm-entity-text-concept-score;=streptococcal|0,6&infer-rxnorm-entity-text-concept-score=Amoxicillin|0,8 HTTP/1.1

Хост: healthlake.us-east-1.amazonaws.com

Тип содержимого: приложение/json

Авторизация: AWS4-HMAC-SHA256 Credential= (отредактировано)

4. Создайте модель машинного обучения, используя интегрированную медицинскую обработку естественного языка (NLP):

Amazon HealthLake автоматически интегрируется с обработкой естественного языка (NLP) для типа ресурса DocumentReference. Интегрированный медицинский NLP-выход предоставляется как расширение существующего ресурса DocumentReference. Интеграция включает в себя чтение текстовых данных в ресурсе, а затем вызов следующих интегрированных медицинских NLP-операций: DetectEntities-V2, InferICD10-CM и InferRxNorm. Ответ каждого интегрированного медицинского НЛП API добавляется к ресурсу DocumentReference в виде расширения, доступного для поиска. Это позволяет пользователям идентифицировать пациентов по элементам их записей, которые ранее были скрыты в неструктурированном тексте. Когда мы создаем ресурс в HealthLake, этот ресурс обновляется ответом интегрированных медицинских операций НЛП. Эти расширения соответствуют формату FHIR для расширений с идентифицирующим URL-адресом и соответствующим значением для URL-адреса.

Эталонная архитектура с Amazon HealthLake

Приведенная выше эталонная архитектура показывает, как мы можем создать интерактивную информационную панель с помощью Amazon Quicksight для поиска и запроса данных, находящихся в Healthlake.

Преимущество Amazon HealthLake

· Поставщики медицинских услуг изо всех сил пытаются применить интеллект к своим данным, потому что они обычно распространяются по многочисленным репозиториям в различных форматах, таких как клинические записи, отчеты и отсканированные изображения. На подготовку, подготовку и преобразование этих данных для анализа могут уйти месяцы. Amazon HealthLake для быстрого анализа обширной базы данных и выявления подгруппы пациентов, которые изо всех сил пытаются правильно лечить свое конкретное заболевание или расстройство. Затем служба дала рекомендации о том, как скорректировать лечение каждого человека, чтобы избежать дальнейших осложнений.

· Amazon HealthLake может автоматически понимать и извлекать значимую медицинскую информацию из необработанных, разрозненных данных, таких как рецепты, процедуры и диагнозы, что революционизирует процесс, который традиционно был ручным, подверженным ошибкам и дорогостоящим.

· Функциональная совместимость гарантирует, что данные о состоянии здоровья передаются в согласованном, совместимом формате между несколькими приложениями. Amazon HealthLake создает полное хронологическое представление истории болезни каждого пациента и структурирует ее в стандартном формате FHIR для облегчения обмена информацией.

Ссылки:

https://aws.amazon.com/healthlake/

https://aws.amazon.com/blogs/machine-learning/making-sense-of-your-health-data-with-amazon-healthlake/

https://aws.amazon.com/blogs/architecture/store-protect-optimize-your-healthcare-data-with-aws/

https://aws.amazon.com/blogs/machine-learning/population-health-applications-with-amazon-healthlake-part-1-analytics-and-monitoring-using-amazon-quicksight/

https://aws.amazon.com/blogs/aws/new-amazon-healthlake-to-store-transform-and-analyze-petabytes-of-health-and-life-sciences-data-in- облако/

https://hl7.org/FHIR/