No mundo atual, a área da saúde é cada vez mais impulsionada pelo aprendizado de máquina (ML). Da previsão de doenças ao aprimoramento de diagnósticos, o ML está transformando os resultados da saúde. No entanto, todo projeto de ML começa com um pilar fundamental: conjuntos de dados de qualidade.
Neste blog, compilamos conjuntos de dados médicos gratuitos e abertos em categorias como saúde geral, imagem médica, genômica e hospitais. Seja você pesquisador ou desenvolvedor, esses conjuntos de dados ajudarão você a construir modelos de saúde robustos e inovadores.
O que são conjuntos de dados de saúde?
Um conjunto de dados médicos ou de saúde é uma coleção de informações relacionadas à saúde, como registros de pacientes, resultados de exames laboratoriais, imagens médicas ou históricos de tratamento. Conjuntos de dados de saúde são frequentemente organizados em coleções de dados, que são repositórios com curadoria, projetados para pesquisa, saúde pública e uso clínico.
Esses conjuntos de dados são usados para estudar doenças, aprimorar tratamentos e desenvolver ferramentas como modelos de IA para melhor diagnóstico e tratamento. Muitos conjuntos de dados de saúde contêm dados de saúde anonimizados, garantindo a proteção da privacidade do paciente e, ao mesmo tempo, possibilitando pesquisas e análises valiosas.
Eles desempenham um papel fundamental no avanço da pesquisa e na melhoria dos resultados dos pacientes.
Importância dos conjuntos de dados de saúde para treinar seu modelo de aprendizado de máquina

Conjuntos de dados de saúde são coleções de informações de pacientes, como registros médicos, diagnósticos, tratamentos, dados genéticos e detalhes de estilo de vida. A ciência de dados desempenha um papel crucial na análise desses conjuntos de dados de saúde, permitindo que pesquisadores descubram insights e impulsionem a inovação no atendimento ao paciente. Eles são muito importantes no mundo atual, onde a IA é cada vez mais utilizada. Eis o porquê: conjuntos de dados de referência são essenciais para avaliar e comparar o desempenho de modelos de aprendizado de máquina na área da saúde.
[Leia também: Por que os conjuntos de dados de saúde são importantes para moldar o futuro da IA médica]
Compreendendo a saúde do paciente:
Os conjuntos de dados do Medical Note dão aos médicos uma imagem completa da saúde de um paciente. Por exemplo, dados sobre o histórico médico, medicamentos e estilo de vida de um paciente podem ajudar a prever se ele pode ter uma doença crônica. Isso permite que os médicos intervenham cedo e façam um plano de tratamento apenas para aquele paciente.
Ajudando na pesquisa médica:
Ao estudar conjuntos de dados de saúde, pesquisadores médicos podem observar como pacientes com câncer são tratados e como se recuperam. Eles podem encontrar os tratamentos que funcionam melhor no mundo real. Por exemplo, ao analisar amostras de tumores em biobancos, pesquisadores frequentemente analisam a expressão gênica e usam conjuntos de dados relacionados a tipos específicos de tumor e perfis genéticos para entender a progressão do câncer, bem como como mutações e proteínas cancerígenas específicas reagem a diferentes tratamentos. Essa abordagem baseada em dados ajuda a encontrar tendências que levam a melhores resultados para os pacientes.
Melhor diagnóstico e tratamento:
Ferramentas baseadas em IA utilizam conjuntos de dados de diagnóstico médico, que podem incluir sinais vitais como frequência cardíaca e pressão arterial, para descobrir padrões que auxiliam os médicos a diagnosticar e tratar doenças de forma mais eficaz. Na radiologia, a IA pode identificar rapidamente anormalidades em exames com precisão impressionante, permitindo a detecção precoce de doenças. À medida que esses conjuntos de dados evoluem, inovações como anotação de imagem médica estão refinando ainda mais os processos de diagnóstico e a inclusão de dados demográficos dos pacientes nesses conjuntos de dados ajuda a adaptar as ferramentas de diagnóstico a populações diversas, levando a melhores resultados de assistência médica para os pacientes.
Ajudando iniciativas de saúde pública:
Imagine uma pequena cidade onde especialistas em saúde usaram conjuntos de dados para rastrear um surto de gripe. Eles analisaram padrões e identificaram as áreas afetadas. Com esses dados, iniciaram campanhas de vacinação direcionadas e campanhas de educação em saúde. Essa abordagem baseada em dados ajudou a conter a gripe. Conjuntos de dados como esses também são essenciais para os esforços de controle de doenças e para o monitoramento das tendências nutricionais infantis na saúde pública. Isso mostra como conjuntos de dados de saúde podem orientar e aprimorar ativamente as iniciativas de saúde pública, sendo o monitoramento da nutrição infantil um componente essencial de muitos conjuntos de dados de saúde pública.
Fontes de Dados Clínicos
Dados clínicos constituem a espinha dorsal dos conjuntos de dados de saúde modernos, oferecendo um conjunto abrangente de informações que impulsionam avanços no atendimento ao paciente e na pesquisa médica. Esses dados são obtidos de diversos canais, incluindo prontuários eletrônicos de saúde (PEs), imagens médicas e sequenciamento genômico. A Organização Mundial da Saúde (OMS) mantém um repositório global de dados de saúde, fornecendo acesso a dados clínicos de sistemas de saúde em todo o mundo. Essa riqueza de dados de saúde permite que pesquisadores realizem análises de saúde, revelando insights valiosos sobre padrões de doenças, eficácia do tratamento e desfechos para os pacientes.
Conjuntos de dados especializados, como a Iniciativa de Neuroimagem da Doença de Alzheimer (ADNI) e o Atlas do Genoma do Câncer (TCGA), enriquecem ainda mais o cenário, oferecendo dados clínicos detalhados sobre a progressão da doença, marcadores genéticos e respostas terapêuticas. Esses recursos são fundamentais no desenvolvimento de modelos de aprendizado de máquina que podem prever desfechos clínicos, personalizar tratamentos e, em última análise, melhorar os resultados dos pacientes, reduzindo os custos da saúde. Ao aproveitar uma coleção tão abrangente de dados clínicos, o setor da saúde está mais bem equipado para enfrentar os desafios globais da saúde e impulsionar a inovação na pesquisa médica.
[Leia também: O papel dos conjuntos de dados médicos multimodais no avanço da pesquisa em IA]
Explore 22 conjuntos de dados abertos e gratuitos para aprendizagem médica e de ciências biológicas
Conjuntos de dados abertos são essenciais para o bom funcionamento de qualquer modelo de aprendizado de máquina. Muitos conjuntos de dados abertos são provenientes de grandes bancos de dados de saúde mantidos por institutos nacionais e organizações de serviços humanos. O aprendizado de máquina já está sendo usado em ciências da vida, saúde e medicina, e está apresentando excelentes resultados. Está ajudando a prever doenças e a entender como elas se espalham. O aprendizado de máquina também está dando ideias sobre como podemos cuidar adequadamente de pessoas doentes, idosas e doentes em uma comunidade. Sem bons conjuntos de dados, esses modelos de aprendizado de máquina não seriam possíveis.
Saúde Geral e Pública:
- dados.gov: concentra-se em dados de saúde orientados para os EUA que podem ser facilmente pesquisados usando vários parâmetros. Os conjuntos de dados são projetados para melhorar o bem-estar dos indivíduos que residem nos EUA; no entanto, a informação também pode ser benéfica para outros conjuntos de formação em investigação ou domínios adicionais de saúde pública.
- OMS: oferece conjuntos de dados centrados nas prioridades globais de saúde. A plataforma incorpora uma função de pesquisa fácil de usar e fornece informações valiosas juntamente com os conjuntos de dados para uma compreensão abrangente dos tópicos em questão.
- Re3Data: Oferece dados abrangendo mais de 2,000 assuntos de pesquisa categorizados em diversas áreas amplas. Embora nem todos os conjuntos de dados sejam de acesso livre, a plataforma indica claramente a estrutura e permite uma pesquisa fácil com base em fatores como taxas, requisitos de adesão e restrições de direitos autorais.
- Banco de dados de mortalidade humana oferece acesso a dados sobre taxas de mortalidade, números populacionais e diversas estatísticas demográficas e de saúde de 35 nações.
- CHDS: Os conjuntos de dados dos Estudos de Saúde e Desenvolvimento Infantil visam investigar a transmissão intergeracional de doenças e saúde. Abrange conjuntos de dados para pesquisar não apenas a expressão genômica, mas também a influência de fatores sociais, ambientais e culturais nas doenças e na saúde.
- Desafio de Atividade Molecular da Merck: apresenta conjuntos de dados projetados para promover a aplicação de aprendizado de máquina na descoberta de medicamentos, simulando as interações potenciais entre várias combinações de moléculas.
- 1000 Projeto Genomas: Contém dados de sequenciamento de 2,500 indivíduos em 26 populações diferentes, tornando-o um dos maiores repositórios de genoma acessíveis. Esta colaboração internacional pode ser acessada através da AWS. (Observe que há subsídios disponíveis para projetos de genoma.)
Conjuntos de dados de imagens médicas para ciências biológicas, saúde e medicina:
- Neuro aberto: Como uma plataforma gratuita e aberta, o OpenNeuro compartilha uma ampla gama de imagens médicas, incluindo dados de ressonância magnética, MEG, EEG, iEEG, ECoG, ASL e PET. Com 563 conjuntos de dados médicos abrangendo 19,187 participantes, serve como um recurso inestimável para investigadores e profissionais de saúde.
- Oásis: Originário da Open Access Series of Imaging Studies (OASIS), este conjunto de dados se esforça para fornecer dados de neuroimagem ao público gratuitamente para o benefício da comunidade científica. Abrange 1,098 indivíduos em 2,168 sessões de RM e 1,608 sessões de PET, oferecendo uma riqueza de informações para os pesquisadores.
- Iniciativa de Neuroimagem da Doença de Alzheimer: A Iniciativa de Neuroimagem da Doença de Alzheimer (ADNI) apresenta dados coletados por pesquisadores de todo o mundo que se dedicam a definir a progressão da doença de Alzheimer. O conjunto de dados inclui uma coleção abrangente de imagens de ressonância magnética e PET, informações genéticas, testes cognitivos e biomarcadores de LCR e sangue, facilitando uma abordagem multifacetada para a compreensão desta condição complexa.
- MIMIC-III: Um banco de dados abrangente de dados de pacientes de UTI, incluindo relatórios de imagem e informações clínicas, está disponível através do MIMIC-III. Este recurso anônimo apoia a pesquisa em cuidados intensivos e a modelagem preditiva.
- CheXpert: Para interpretação automatizada de radiografias de tórax, o CheXpert fornece um vasto conjunto de dados com mais de 224,000 imagens de radiografias de tórax com rótulos de incerteza. Ele desempenha um papel crucial na pesquisa em radiologia e na detecção de doenças.
- HAM10000: Promovendo o avanço da pesquisa dermatológica e da previsão do câncer de pele, o HAM10000 oferece 10,000 imagens dermatoscópicas para detectar lesões cutâneas pigmentadas.
Conjuntos de dados hospitalares:
- Catálogo de dados do provedor: Acesse e baixe conjuntos de dados abrangentes de fornecedores em áreas que incluem instalações de diálise, consultórios médicos, serviços de saúde domiciliares, cuidados paliativos, hospitais, reabilitação de pacientes internados, hospitais de cuidados de longo prazo, lares de idosos com serviços de reabilitação, custos de consultas médicas e diretórios de fornecedores.
- Projeto de Custo e Utilização de Saúde (HCUP): Este banco de dados abrangente e nacional foi criado para identificar, rastrear e analisar tendências nacionais na utilização, acesso, preços, qualidade e resultados dos cuidados de saúde. Cada conjunto de dados médicos do HCUP contém informações em nível de encontro sobre todas as internações de pacientes, visitas ao departamento de emergência e cirurgias ambulatoriais em hospitais dos EUA, fornecendo uma riqueza de dados para pesquisadores e legisladores.
- Banco de dados de cuidados intensivos MIMIC: Desenvolvido pelo MIT para fins de Fisiologia Computacional, este conjunto de dados médicos disponíveis abertamente compreende dados de saúde não identificados de mais de 40,000 pacientes em cuidados intensivos. O conjunto de dados MIMIC serve como um recurso valioso para pesquisadores que estudam cuidados intensivos e desenvolvem novos métodos computacionais.
Conjuntos de dados de câncer:
- Imagens médicas de tomografia computadorizada: Projetado para facilitar métodos alternativos para examinar tendências em dados de imagens de TC, este conjunto de dados apresenta tomografias computadorizadas de pacientes com câncer, concentrando-se em fatores como contraste, modalidade e idade do paciente. Os pesquisadores podem aproveitar esses dados para desenvolver novas técnicas de imagem e analisar padrões no diagnóstico e tratamento do câncer.
- Colaboração Internacional sobre Relatórios de Câncer (ICCR): Os conjuntos de dados médicos do ICCR foram desenvolvidos e disponibilizados para promover uma abordagem baseada em evidências para a notificação de câncer em todo o mundo. Ao padronizar a notificação de câncer, o ICCR visa melhorar a qualidade e a comparabilidade dos dados sobre câncer entre instituições e países.
- SEER Incidência de Câncer: Fornecidos pelo governo dos EUA, estes dados sobre o cancro são segmentados utilizando distinções demográficas básicas, como raça, género e idade. O conjunto de dados SEER permite aos investigadores investigar a incidência do cancro e as taxas de sobrevivência em diferentes subgrupos populacionais, informando iniciativas de saúde pública e prioridades de investigação.
- Conjunto de dados de câncer de pulmão: Este conjunto de dados gratuito apresenta informações sobre casos de câncer de pulmão que datam de 1995. Os pesquisadores podem usar esses dados para estudar tendências de longo prazo na incidência, tratamento e resultados do câncer de pulmão, bem como para desenvolver novas ferramentas de diagnóstico e prognóstico.
Recursos adicionais para dados de saúde:
- Kaggle: Um repositório versátil de conjuntos de dados – Kaggle continua sendo uma plataforma excelente para uma ampla gama de conjuntos de dados, não limitado ao setor de saúde. Ideal para quem se dedica a vários assuntos ou precisa de diversos conjuntos de dados para treinamento de modelo, o Kaggle é um recurso indispensável.
- Subreddit: Um tesouro orientado pela comunidade – As discussões corretas no subreddit podem ser uma mina de ouro para conjuntos de dados abertos. Para consultas de nicho ou específicas não abordadas por conjuntos de dados públicos, a comunidade Reddit pode ter a resposta.
Prós e contras das plataformas de dados de acesso aberto
Plataformas de dados de acesso aberto fornecem recursos inestimáveis para pesquisadores, fomentando inovação, colaboração e acesso econômico a dados de saúde. No entanto, desafios como problemas de qualidade de dados, questões de privacidade e barreiras técnicas podem limitar sua eficácia. Equilibrar esses prós e contras é essencial para maximizar seu potencial de impulsionar avanços na pesquisa em saúde.
| Prós | Contras |
|---|---|
| Acessibilidade: Conjuntos de dados disponíveis gratuitamente facilitam o acesso de pesquisadores e cientistas de dados a informações valiosas. | Problemas de qualidade de dados:Conjuntos de dados de acesso aberto podem carecer de padronização ou conter dados incompletos ou desatualizados. |
| Colaboração: Incentiva a colaboração interdisciplinar e entre setores em pesquisa e inovação. | Preocupações com a privacidade:Mesmo conjuntos de dados anonimizados podem representar riscos de reidentificação de informações confidenciais. |
| Innovation: Impulsiona o desenvolvimento de modelos e ferramentas de aprendizado de máquina para análise e pesquisa em saúde. | Escopo limitado:Alguns conjuntos de dados podem não representar populações diversas ou cobrir todas as áreas de saúde necessárias. |
| Custo-benefício: Permite economia de custos ao fornecer recursos gratuitos, eliminando a necessidade de dados proprietários caros. | Uso excessivo de dados sintéticos:A dependência excessiva de dados sintéticos pode levar a imprecisões ou vieses nos modelos. |
| Compartilhamento de conhecimento: Promove a transparência e acelera a disseminação dos resultados da pesquisa. | Barreiras Técnicas: Acessar e analisar grandes conjuntos de dados pode exigir habilidades e recursos técnicos avançados. |
Qualidade e segurança de dados em conjuntos de dados médicos
Manter altos padrões de qualidade e segurança de dados é fundamental ao trabalhar com conjuntos de dados médicos. Garantir a qualidade dos dados envolve processos rigorosos de validação e limpeza para eliminar erros e inconsistências, o que é essencial para a produção de resultados de pesquisa confiáveis. Em relação à segurança, medidas robustas como criptografia, controles de acesso e armazenamento seguro são essenciais para proteger informações de saúde sensíveis.
A desidentificação de conjuntos de dados é uma prática fundamental, permitindo que pesquisadores utilizem dados de saúde desidentificados para análises, preservando a privacidade dos pacientes. Técnicas avançadas, como a indexação semântica biomédica, aprimoram ainda mais a usabilidade e a precisão dos conjuntos de dados médicos, facilitando a organização e a recuperação de informações relevantes. Ao priorizar a qualidade e a segurança dos dados, as instituições de saúde podem promover a confiança, apoiar a conformidade e permitir o uso seguro e eficaz de conjuntos de dados médicos para pesquisa e inovação.
Acelere seus projetos de IA em saúde com os conjuntos de dados médicos premium e prontos para uso da Shaip
Conjunto de dados de conversas entre médicos e pacientes
Nosso conjunto de dados contém arquivos de áudio de conversas entre médicos e pacientes sobre seus planos de saúde e tratamento. Os arquivos abrangem 31 especialidades médicas diferentes.
O que está incluído?
- 257,977 horas de áudio real de ditado médico para treinar modelos de fala de saúde
- Áudio de vários dispositivos, como telefones, gravadores digitais, microfones de fala e smartphones
- Áudio e transcrições com informações pessoais removidas para seguir as leis de privacidade
Conjunto de dados de imagens CT SCAN
Oferecemos conjuntos de dados de imagens de tomografia computadorizada de primeira linha para pesquisa e diagnóstico médico. Temos milhares de imagens de alta qualidade de pacientes reais, processadas com as mais recentes técnicas. Nossos conjuntos de dados ajudam médicos e pesquisadores a compreender melhor vários problemas de saúde, como câncer, distúrbios cerebrais e doenças cardíacas.
Os dados indicam que as tomografias computadorizadas mais comuns são do tórax (6000) e da cabeça (4350), com um número significativo de exames também realizados para o abdômen, pelve e outras partes do corpo. A tabela também revela que certos exames especializados, como TC Covid HRCT e angio pulmonar, são realizados principalmente na Índia, Ásia, Europa e outros.
Conjunto de dados de registros eletrônicos de saúde (EHR)
Registros Eletrônicos de Saúde (EHR) são versões digitais do histórico médico de um paciente. Eles incluem informações como diagnósticos, medicamentos, planos de tratamento, datas de imunização, alergias, imagens médicas (como tomografias computadorizadas, ressonâncias magnéticas e raios X), exames laboratoriais e muito mais.
Nossos recursos de conjunto de dados EHR prontos para uso:
- Mais de 5.1 milhões de registros e arquivos de áudio médicos abrangendo 31 especialidades médicas
- Registros médicos autênticos, ideais para treinamento de PNL clínica e outros modelos de Document AI
- Metadados incluindo MRN anonimizado, datas de admissão e alta, tempo de internação, sexo, classe do paciente, pagador, classe financeira, estado, disposição de alta, idade, DRG, descrição do DRG, reembolso, AMLOS, GMLOS, risco de mortalidade, gravidade da doença, garoupa e CEP do hospital
- Registros abrangendo todas as classes de pacientes: Paciente Internado, Ambulatorial (Clínico, Reabilitação, Recorrente, Creche Cirúrgica) e Emergência
- Documentos com informações de identificação pessoal (PII) editadas, seguindo as diretrizes do Safe Harbor da HIPAA
Conjunto de dados de imagens de ressonância magnética
Fornecemos conjuntos de dados de imagens de ressonância magnética premium para apoiar pesquisas e diagnósticos médicos. Nossa extensa coleção inclui milhares de imagens de alta resolução de pacientes reais, todas processadas usando métodos de ponta. Ao utilizar nossos conjuntos de dados, profissionais de saúde e pesquisadores podem aprofundar sua compreensão de uma ampla gama de condições médicas, levando, em última análise, a melhores resultados para os pacientes.
Conjunto de dados de imagens de ressonância magnética de várias partes do corpo, com a coluna e o cérebro tendo as contagens mais altas, 5000 cada. Os dados são distribuídos pela Índia, Ásia Central e Europa e regiões da Ásia Central.
Conjunto de dados de imagens de raios X
Conjuntos de dados de imagens de raios X da melhor qualidade para pesquisa e diagnóstico médico. Temos milhares de imagens em alta resolução de pacientes reais, processadas com as mais recentes técnicas. Com o Shaip, você pode acessar dados médicos confiáveis para melhorar sua pesquisa e os resultados dos pacientes.
Distribuição do conjunto de dados de raios X em várias partes do corpo, com o tórax tendo a contagem mais alta, 1000, na Ásia Central. As extremidades inferiores e superiores têm uma contagem total de 850 cada, distribuídas entre as regiões da Ásia Central e da Ásia Central e Europa.
Conclusão
Em resumo, conjuntos de dados de saúde são um recurso inestimável para impulsionar melhorias nos resultados dos pacientes, reduzir custos de saúde e promover a pesquisa médica e de saúde. Ao aproveitar diversas fontes de dados clínicos — incluindo prontuários eletrônicos de saúde (PEPs), imagens médicas e repositórios globais de saúde — cientistas e pesquisadores de dados podem construir modelos poderosos de aprendizado de máquina que preveem a progressão da doença e identificam pacientes em risco. Plataformas de dados de acesso aberto e projetos de utilização oferecem oportunidades adicionais para analisar os custos e a utilização de serviços de saúde, oferecendo insights valiosos que embasam políticas e práticas.
Garantir a qualidade e a segurança dos conjuntos de dados de saúde é essencial para manter a confiança e alcançar resultados confiáveis. À medida que o setor de saúde continua a adotar a inovação orientada por dados, o uso responsável de conjuntos de dados médicos será fundamental para aumentar a equidade em saúde, otimizar os custos e a utilização dos serviços de saúde e proporcionar melhores resultados para todos. Ao priorizar a acessibilidade, a qualidade dos dados e a segurança, podemos liberar todo o potencial dos conjuntos de dados de saúde e moldar um futuro mais promissor para a análise de dados em saúde e a pesquisa médica.