Trabalhadores da multidão para coleta de dados

Trabalhadores da multidão para coleta de dados - uma parte indispensável da IA ​​ética

Em nossos esforços para criar soluções de IA robustas e imparciais, é pertinente que nos concentremos em treinar os modelos em uma variedade de dados imparcial, dinâmica e representativa. Nosso processo de coleta de dados é extremamente importante no desenvolvimento de soluções confiáveis ​​de IA. Nesse sentido, reunindo Dados de treinamento de IA por meio de trabalhadores da multidão torna-se um aspecto crítico da estratégia de coleta de dados.

Neste artigo, vamos explorar o papel dos crowdworkers, seu impacto no desenvolvimento da IA algoritmos de aprendizagem e modelos de ML, e a necessidade e os benefícios que ele traz para todo o processo. 

Por que os trabalhadores da multidão são necessários para construir modelos de IA?

Como humanos, geramos toneladas de dados, mas apenas uma fração desses dados gerados e coletados tem valor. Devido à falta de padrões de benchmarking de dados, a maioria dos dados coletados é tendenciosa, cheia de problemas de qualidade ou não representativa do meio ambiente. Desde cada vez mais aprendizado de máquina e modelos de aprendizado profundo estão sendo desenvolvidos para prosperar em grandes quantidades de dados, a necessidade de conjuntos de dados melhores, mais novos e diversificados está sendo cada vez mais sentida.

É onde os trabalhadores da multidão entram em jogo.

Dados de crowdsourcing estão construindo um conjunto de dados com a participação de grandes grupos de pessoas. Os trabalhadores da multidão infundem inteligência humana em inteligência artificial.

Plataformas de crowdsourcing fornecer microtarefas de coleta e anotação de dados a um grande e diversificado grupo de pessoas. O crowdsourcing permite que as empresas acessem uma força de trabalho massiva, dinâmica, econômica e escalável.

A plataforma de crowdsourcing mais popular - Amazon Mechanical Turk, conseguiu 11 mil diálogos entre humanos em 15 horas e pagou aos trabalhadores $0.35 para cada diálogo bem-sucedido. Os trabalhadores da multidão estão sendo contratados por uma quantia tão escassa, lançando luz sobre a importância da construção de padrões éticos de fornecimento de dados.

Teoricamente, parece um plano inteligente, mas não é uma estratégia fácil de executar. O anonimato dos trabalhadores da multidão deu origem a problemas com baixos salários, desrespeito pelos direitos dos trabalhadores e trabalho de baixa qualidade, afetando o desempenho do modelo de IA. 

Benefícios de reunir funcionários para obter dados

Ao envolver um grupo diversificado de trabalhadores coletivos, os desenvolvedores de soluções baseadas em IA podem distribuir microtarefas e reunir observações variadas e amplas rapidamente e a um custo relativamente baixo.

Alguns dos benefícios proeminentes de empregar trabalhadores da multidão para projetos de IA são

Benefícios da coleta de dados por meio de trabalhadores da multidão

Tempo de colocação no mercado mais rápido: Segundo pesquisa da Cognilytica, quase 80% of inteligência artificial o tempo do projeto é gasto em atividades de coleta de dados, como limpeza, rotulagem e agregação de dados. Apenas 20% do tempo é gasto em desenvolvimento e treinamento. As barreiras tradicionais para geração de dados são eliminadas, pois um grande número de contribuidores pode ser recrutado em um curto espaço de tempo. 

Solução econômica: Coleta de dados de crowdsourcing reduz o tempo e a energia gastos em treinamento, recrutamento e integração. Isso elimina o custo, o tempo e os recursos necessários, uma vez que a força de trabalho é empregada em um método de pagamento por tarefa. 

Aumenta a diversidade no conjunto de dados: A diversidade de dados é fundamental para todo o treinamento da solução de IA. Para que um modelo produza resultados imparciais, ele deve ser treinado em um conjunto de dados diversificado. Com o crowdsourcing de dados, é possível gerar diversos conjuntos de dados (geográficos, idiomas, dialetos) com pouco esforço e custo.

Melhora a escalabilidade: Ao recrutar crowd workers confiáveis, você pode garantir alta qualidade coleta de dados que pode ser dimensionada com base nas necessidades do seu projeto.

In-house vs. crowdsourcing – Quem sai como o vencedor?

Dados InternosDados de crowdsourcing
A precisão e a consistência dos dados podem ser garantidas.A qualidade, precisão e consistência dos dados podem ser mantidas se plataformas confiáveis ​​de crowdsourcing com medidas padrão de controle de qualidade estiverem envolvidas
O fornecimento interno de dados nem sempre é uma decisão prática, pois sua equipe interna pode não atender às demandas do projeto.A diversidade de dados pode ser garantida, pois é possível recrutar um grupo heterogêneo de crowd workers com base nas necessidades do projeto.
Caro para recrutar e treinar trabalhadores para as necessidades do projeto.Solução econômica para coleta de dados pois é possível recrutar, treinar e integrar trabalhadores com menos investimento.
O tempo de lançamento no mercado é alto, pois a coleta interna de dados leva um tempo considerável.O tempo de lançamento no mercado é significativamente menor, pois muitas contribuições chegam rapidamente.
Um pequeno grupo de colaboradores internos e rotuladorasUm grande e diversificado grupo de colaboradores e rotuladores de dados
A confidencialidade dos dados é muito alta com uma equipe interna.A confidencialidade dos dados é difícil de manter ao trabalhar com grandes grupos de trabalhadores em todo o mundo.
Mais fácil de rastrear, treinar e avaliar os coletores de dadosDesafiador para rastrear e treinar os coletores de dados.

Preenchendo a lacuna entre os trabalhadores de crowdsourcing e o solicitante.

Preenchendo a lacuna entre trabalhadores de crowdsourcing e solicitantes Há uma necessidade extrema de preencher a lacuna entre os trabalhadores da multidão e os solicitantes, não apenas no campo do pagamento.

Há uma flagrante falta de informação do lado do solicitante porque os trabalhadores recebem apenas informações sobre a tarefa específica. Por exemplo, embora os trabalhadores recebam microtarefas, como gravar diálogos em seu dialeto nativo, eles raramente recebem contexto. Eles não têm as informações necessárias sobre por que estão fazendo o que estão fazendo e qual a melhor forma de fazê-lo. Essa falta de informação afeta o qualidade do trabalho de crowdsourcing.

Para um ser humano, ter todo o contexto fornece clareza e propósito ao seu trabalho.

Adicione a essa mistura outra dimensão do NDA – os acordos de não divulgação que limitam a quantidade de informações que um trabalhador coletivo recebe. Do ponto de vista do trabalhador coletivo, essa retirada de informações mostra falta de confiança e diminuição da importância de seu trabalho.

Quando a mesma situação é vista do outro lado do espectro, há falta de transparência do lado do trabalhador. O solicitante não entende totalmente o trabalhador contratado para fazer o trabalho. Alguns projetos podem exigir um tipo específico de trabalhador; no entanto, na maioria dos projetos, há ambigüidade. o verdade fundamental Isso pode complicar a avaliação, o feedback e o treinamento no futuro.

Para combater essas dificuldades, é importante trabalhar com especialistas em coleta de dados com histórico de fornecimento de dados diversificados, com curadoria e bem representados de uma ampla seleção de colaboradores.

Escolher Shaip como seu parceiro de dados pode ter vários benefícios. Nós nos concentramos na diversidade e distribuições representativas de dados. Nossa equipe experiente e dedicada entende as compulsões de cada projeto e desenvolve conjuntos de dados que podem treinar soluções robustas baseadas em IA rapidamente.

[Leia também: Guia para iniciantes de dados de treinamento de IA: definição, exemplo, conjuntos de dados]

Ações Sociais