Conjuntos de dados de saúde

Melhores conjuntos de dados de saúde de código aberto para projetos de aprendizado de máquina

  • O sistema global de saúde produz diariamente grandes quantidades de dados médicos, que têm potencial para serem utilizados em aplicações de aprendizado de máquina. Em todos os setores, os dados são considerados um ativo precioso que permite às empresas obter uma vantagem competitiva, e o setor da saúde não é diferente.

Este artigo abordará de forma concisa os obstáculos encontrados ao lidar com dados médicos e fornecerá um resumo dos conjuntos de dados de saúde acessíveis ao público.

Importância dos conjuntos de dados de saúde

Importância dos conjuntos de dados de saúde

Conjuntos de dados de saúde são coleções de informações de pacientes, como registros médicos, diagnósticos, tratamentos, dados genéticos e detalhes de estilo de vida. Eles são muito importantes no mundo de hoje, onde a IA é cada vez mais utilizada. Aqui está o porquê:

Compreendendo a saúde do paciente:

Os conjuntos de dados de saúde fornecem aos médicos uma visão completa da saúde do paciente. Por exemplo, dados sobre o histórico médico, medicamentos e estilo de vida de um paciente podem ajudar a prever se ele poderá contrair uma doença crônica. Isso permite que os médicos intervenham antecipadamente e façam um plano de tratamento apenas para aquele paciente.

Ajudando na pesquisa médica:

Ao estudar conjuntos de dados de saúde, os pesquisadores médicos podem observar como os pacientes com câncer são tratados e como se recuperam. Eles podem encontrar os tratamentos que funcionam melhor no mundo real. Por exemplo, observando amostras de tumores em biobancos e históricos de tratamento de pacientes, os pesquisadores podem aprender como mutações específicas e proteínas cancerígenas reagem a diferentes tratamentos. Essa abordagem baseada em dados ajuda a encontrar tendências que levam a melhores resultados para os pacientes.

Melhor diagnóstico e tratamento:

Os médicos usam ferramentas de IA para analisar conjuntos de dados de saúde e encontrar padrões importantes. Isso os ajuda a diagnosticar e tratar melhor as doenças. Na radiologia, a IA pode encontrar problemas em exames com mais rapidez e precisão do que os humanos. Isso significa que os médicos podem detectar doenças mais cedo e iniciar o tratamento correto mais cedo. A anotação de imagens médicas pode levar a um diagnóstico melhor e mais rápido, o que melhora a saúde do paciente.

Ajudando iniciativas de saúde pública:

Imagine uma pequena cidade onde especialistas em saúde usaram conjuntos de dados para rastrear um surto de gripe. Eles observaram os padrões e encontraram as áreas afetadas. Com estes dados, iniciaram campanhas de vacinação direcionadas e campanhas de educação para a saúde. Esta abordagem baseada em dados ajudou a conter a gripe. Mostra como os conjuntos de dados de saúde podem orientar e melhorar ativamente as iniciativas de saúde pública.

Conjuntos de dados médicos de código aberto para aprendizado de máquina

Conjuntos de dados abertos são essenciais para que qualquer modelo de aprendizado de máquina funcione bem. O aprendizado de máquina já está sendo usado nas ciências biológicas, na saúde e na medicina, e está apresentando ótimos resultados. Está ajudando a prever doenças e entender como elas se espalham. O aprendizado de máquina também dá ideias sobre como podemos cuidar adequadamente de pessoas doentes, idosas e indispostas em uma comunidade. Sem bons conjuntos de dados, esses modelos de aprendizado de máquina não seriam possíveis.

Saúde Geral e Pública:

  • dados.gov: concentra-se em dados de saúde orientados para os EUA que podem ser facilmente pesquisados ​​usando vários parâmetros. Os conjuntos de dados são projetados para melhorar o bem-estar dos indivíduos que residem nos EUA; no entanto, a informação também pode ser benéfica para outros conjuntos de formação em investigação ou domínios adicionais de saúde pública.
  • QUEM: oferece conjuntos de dados centrados nas prioridades globais de saúde. A plataforma incorpora uma função de pesquisa fácil de usar e fornece informações valiosas juntamente com os conjuntos de dados para uma compreensão abrangente dos tópicos em questão.
  • Re3Data: Oferece dados abrangendo mais de 2,000 assuntos de pesquisa categorizados em diversas áreas amplas. Embora nem todos os conjuntos de dados sejam de acesso livre, a plataforma indica claramente a estrutura e permite uma pesquisa fácil com base em fatores como taxas, requisitos de adesão e restrições de direitos autorais.
  • Banco de dados de mortalidade humana oferece acesso a dados sobre taxas de mortalidade, números populacionais e diversas estatísticas demográficas e de saúde de 35 nações.
  • CHDS: Os conjuntos de dados dos Estudos de Saúde e Desenvolvimento Infantil visam investigar a transmissão intergeracional de doenças e saúde. Abrange conjuntos de dados para pesquisar não apenas a expressão genômica, mas também a influência de fatores sociais, ambientais e culturais nas doenças e na saúde.
  • Desafio de Atividade Molecular da Merck: apresenta conjuntos de dados projetados para promover a aplicação de aprendizado de máquina na descoberta de medicamentos, simulando as interações potenciais entre várias combinações de moléculas.
  • 1000 Projeto Genomas: Contém dados de sequenciamento de 2,500 indivíduos em 26 populações diferentes, tornando-o um dos maiores repositórios de genoma acessíveis. Esta colaboração internacional pode ser acessada através da AWS. (Observe que há subsídios disponíveis para projetos de genoma.)

Conjuntos de dados de imagens para ciências biológicas, saúde e medicina:

  • Neuro aberto: Como uma plataforma gratuita e aberta, o OpenNeuro compartilha uma ampla gama de imagens médicas, incluindo dados de ressonância magnética, MEG, EEG, iEEG, ECoG, ASL e PET. Com 563 conjuntos de dados médicos abrangendo 19,187 participantes, serve como um recurso inestimável para investigadores e profissionais de saúde.
  • Oásis: Originário da Open Access Series of Imaging Studies (OASIS), este conjunto de dados se esforça para fornecer dados de neuroimagem ao público gratuitamente para o benefício da comunidade científica. Abrange 1,098 indivíduos em 2,168 sessões de RM e 1,608 sessões de PET, oferecendo uma riqueza de informações para os pesquisadores.
  • Iniciativa de Neuroimagem da Doença de Alzheimer: A Iniciativa de Neuroimagem da Doença de Alzheimer (ADNI) apresenta dados coletados por pesquisadores de todo o mundo que se dedicam a definir a progressão da doença de Alzheimer. O conjunto de dados inclui uma coleção abrangente de imagens de ressonância magnética e PET, informações genéticas, testes cognitivos e biomarcadores de LCR e sangue, facilitando uma abordagem multifacetada para a compreensão desta condição complexa.

Conjuntos de dados hospitalares:

  • Catálogo de dados do provedor: Acesse e baixe conjuntos de dados abrangentes de fornecedores em áreas que incluem instalações de diálise, consultórios médicos, serviços de saúde domiciliares, cuidados paliativos, hospitais, reabilitação de pacientes internados, hospitais de cuidados de longo prazo, lares de idosos com serviços de reabilitação, custos de consultas médicas e diretórios de fornecedores.
  • Projeto de Custo e Utilização de Saúde (HCUP): Este banco de dados abrangente e nacional foi criado para identificar, rastrear e analisar tendências nacionais na utilização, acesso, preços, qualidade e resultados dos cuidados de saúde. Cada conjunto de dados médicos do HCUP contém informações em nível de encontro sobre todas as internações de pacientes, visitas ao departamento de emergência e cirurgias ambulatoriais em hospitais dos EUA, fornecendo uma riqueza de dados para pesquisadores e legisladores.
  • Banco de dados de cuidados intensivos MIMIC: Desenvolvido pelo MIT para fins de Fisiologia Computacional, este conjunto de dados médicos disponíveis abertamente compreende dados de saúde não identificados de mais de 40,000 pacientes em cuidados intensivos. O conjunto de dados MIMIC serve como um recurso valioso para pesquisadores que estudam cuidados intensivos e desenvolvem novos métodos computacionais.

Conjuntos de dados de câncer:

  • Imagens médicas de tomografia computadorizada: Projetado para facilitar métodos alternativos para examinar tendências em dados de imagens de TC, este conjunto de dados apresenta tomografias computadorizadas de pacientes com câncer, concentrando-se em fatores como contraste, modalidade e idade do paciente. Os pesquisadores podem aproveitar esses dados para desenvolver novas técnicas de imagem e analisar padrões no diagnóstico e tratamento do câncer.
  • Colaboração Internacional sobre Relatórios de Câncer (ICCR): Os conjuntos de dados médicos do ICCR foram desenvolvidos e fornecidos para promover uma abordagem baseada em evidências para a notificação de câncer em todo o mundo. Ao padronizar a notificação do cancro, o ICCR pretende melhorar a qualidade e a comparabilidade dos dados sobre o cancro entre instituições e países.
  • SEER Incidência de Câncer: Fornecidos pelo governo dos EUA, estes dados sobre o cancro são segmentados utilizando distinções demográficas básicas, como raça, género e idade. O conjunto de dados SEER permite aos investigadores investigar a incidência do cancro e as taxas de sobrevivência em diferentes subgrupos populacionais, informando iniciativas de saúde pública e prioridades de investigação.
  • Conjunto de dados de câncer de pulmão: Este conjunto de dados gratuito apresenta informações sobre casos de câncer de pulmão que datam de 1995. Os pesquisadores podem usar esses dados para estudar tendências de longo prazo na incidência, tratamento e resultados do câncer de pulmão, bem como para desenvolver novas ferramentas de diagnóstico e prognóstico.

Recursos adicionais para dados de saúde:

  • Kaggle: Um repositório versátil de conjuntos de dados – Kaggle continua sendo uma plataforma excelente para uma ampla gama de conjuntos de dados, não limitado ao setor de saúde. Ideal para quem se dedica a vários assuntos ou precisa de diversos conjuntos de dados para treinamento de modelo, o Kaggle é um recurso indispensável.
  • Subreddit: Um tesouro orientado pela comunidade – As discussões corretas no subreddit podem ser uma mina de ouro para conjuntos de dados abertos. Para consultas de nicho ou específicas não abordadas por conjuntos de dados públicos, a comunidade Reddit pode ter a resposta.

Acelere seus projetos de IA em saúde com os conjuntos de dados médicos premium e prontos para uso da Shaip

Conjunto de dados de conversas entre médicos e pacientes

Nosso conjunto de dados contém arquivos de áudio de conversas entre médicos e pacientes sobre seus planos de saúde e tratamento. Os arquivos abrangem 31 especialidades médicas diferentes.

O que está incluído?

  • 257,977 horas de áudio real de ditado médico para treinar modelos de fala de saúde
  • Áudio de vários dispositivos, como telefones, gravadores digitais, microfones de fala e smartphones
  • Áudio e transcrições com informações pessoais removidas para seguir as leis de privacidade

Conjunto de dados de imagens CT SCAN

Oferecemos conjuntos de dados de imagens de tomografia computadorizada de primeira linha para pesquisa e diagnóstico médico. Temos milhares de imagens de alta qualidade de pacientes reais, processadas com as mais recentes técnicas. Nossos conjuntos de dados ajudam médicos e pesquisadores a compreender melhor vários problemas de saúde, como câncer, distúrbios cerebrais e doenças cardíacas.

Os dados indicam que as tomografias computadorizadas mais comuns são do tórax (6000) e da cabeça (4350), com um número significativo de exames também realizados para o abdômen, pelve e outras partes do corpo. A tabela também revela que certos exames especializados, como TC Covid HRCT e angio pulmonar, são realizados principalmente na Índia, Ásia, Europa e outros.

Conjunto de dados de registros eletrônicos de saúde (EHR)

Registros Eletrônicos de Saúde (EHR) são versões digitais do histórico médico de um paciente. Eles incluem informações como diagnósticos, medicamentos, planos de tratamento, datas de imunização, alergias, imagens médicas (como tomografias computadorizadas, ressonâncias magnéticas e raios X), exames laboratoriais e muito mais.

Nossos recursos de conjunto de dados EHR prontos para uso:

  • Mais de 5.1 milhões de registros e arquivos de áudio médicos abrangendo 31 especialidades médicas
  • Registros médicos autênticos, ideais para treinamento de PNL clínica e outros modelos de Document AI
  • Metadados incluindo MRN anonimizado, datas de admissão e alta, tempo de internação, sexo, classe do paciente, pagador, classe financeira, estado, disposição de alta, idade, DRG, descrição do DRG, reembolso, AMLOS, GMLOS, risco de mortalidade, gravidade da doença, garoupa e CEP do hospital
  • Registros abrangendo todas as classes de pacientes: Paciente Internado, Ambulatorial (Clínico, Reabilitação, Recorrente, Creche Cirúrgica) e Emergência
  • Documentos com informações de identificação pessoal (PII) editadas, seguindo as diretrizes do Safe Harbor da HIPAA

Conjunto de dados de imagens de ressonância magnética

Fornecemos conjuntos de dados de imagens de ressonância magnética premium para apoiar pesquisas e diagnósticos médicos. Nossa extensa coleção inclui milhares de imagens de alta resolução de pacientes reais, todas processadas usando métodos de ponta. Ao utilizar nossos conjuntos de dados, profissionais de saúde e pesquisadores podem aprofundar sua compreensão de uma ampla gama de condições médicas, levando, em última análise, a melhores resultados para os pacientes.

Conjunto de dados de imagens de ressonância magnética de várias partes do corpo, com a coluna e o cérebro tendo as contagens mais altas, 5000 cada. Os dados são distribuídos pela Índia, Ásia Central e Europa e regiões da Ásia Central.

Conjunto de dados de imagens de raios X

Conjuntos de dados de imagens de raios X da melhor qualidade para pesquisa e diagnóstico médico. Temos milhares de imagens em alta resolução de pacientes reais, processadas com as mais recentes técnicas. Com o Shaip, você pode acessar dados médicos confiáveis ​​para melhorar sua pesquisa e os resultados dos pacientes.

Distribuição do conjunto de dados de raios X em várias partes do corpo, com o tórax tendo a contagem mais alta, 1000, na Ásia Central. As extremidades inferiores e superiores têm uma contagem total de 850 cada, distribuídas entre as regiões da Ásia Central e da Ásia Central e Europa.

Ações Sociais