Coleta de dados para IA conversacional

Como abordar a coleta de dados para IA conversacional

Hoje, temos alguns robôs falantes como chatbots, assistentes virtuais e muito mais em nossas casas, sistemas automotivos, dispositivos portáteis, soluções de automação residencial, etc. Esses dispositivos ouvem com precisão o que dizemos e como dizemos e recuperam resultados ou executam tarefas específicas .

E se você estiver usando um assistente como Siri ou Alexa, você também perceberia que eles estão se tornando mais peculiares a cada dia. Suas respostas são espirituosas, eles respondem, esnobam, retribuem elogios e se comportam mais como humanos do que alguns dos colegas que você pode conhecer. Não estamos brincando. De acordo com a PwC, 27% dos usuários que interagiram com seu recente associado de atendimento ao cliente não sabiam se estavam falando com um humano ou um chatbot.

Desenvolver tais sistemas e dispositivos de conversação intrincados é altamente complexo e assustador. É um jogo diferente com abordagens de desenvolvimento distintas. É por isso que achamos que deveríamos dividi-lo para você para facilitar o entendimento. Portanto, se você deseja desenvolver um mecanismo de IA conversacional ou um assistente virtual, este guia o ajudará a obter clareza.

Importância da IA ​​de conversação

À medida que a tecnologia se torna um aspecto mais integral de nossas vidas na forma de dispositivos e sistemas mais novos, surge a necessidade de empurrar barreiras, quebrar convenções e criar novas maneiras de interagir com elas. De simplesmente usar periféricos conectados como mouse e teclado, mudamos para mouse pads que ofereciam mais conveniência. Em seguida, migramos para telas sensíveis ao toque que ofereciam maior comodidade na alimentação de insumos e execução de tarefas.

Com os dispositivos se tornando extensões de nós mesmos, agora estamos desbloqueando um novo meio de comando por voz. Nem precisamos estar perto de um dispositivo para operá-lo. Tudo o que temos a fazer é usar nossa voz para desbloqueá-la e comandar nossas entradas. De uma sala próxima, ao dirigir, enquanto usa outro dispositivo simultaneamente, a IA de conversação executa nossas tarefas pretendidas sem problemas. Então, por onde começamos – tudo começa com dados de fala de alta qualidade para treinar modelos de ML.

Noções básicas de coleta de dados de treinamento de fala

Coletar e anotar dados de treinamento de IA para IA conversacional é muito diferente. Existem muitos meandros envolvidos nos comandos humanos e diversas medidas precisam ser implementadas para garantir que todos os aspectos sejam acomodados para obter resultados impactantes. Vejamos quais são alguns dos fundamentos dos dados de fala.

Compreensão da linguagem natural (NLU)

Para chatbots e assistentes virtuais entenderem e responderem ao que enviamos ou comandamos, um processo chamado NLU é implementado. Ele significa Compreensão da Linguagem Natural e envolve três conceitos de tecnologia para interpretar e processar diversos tipos de entrada.

  • Intenção

    Tudo começa com a intenção. O que um determinado usuário está tentando transmitir, comunicar ou alcançar por meio de um comando? O usuário está procurando informações? Eles estão esperando por atualizações para uma ação? Eles estão comandando uma instrução para o sistema executar? Como eles estão comandando isso? É através de uma pergunta ou um pedido? Todos esses aspectos ajudam as máquinas a entender e classificar intenções e propósitos para chegar a respostas herméticas, respectivamente.

  • Coleção de enunciados

    Há uma diferença entre o comando "Onde fica o caixa eletrônico mais próximo?" e o comando "Encontre-me um caixa eletrônico próximo". Agora os humanos reconheceriam que ambos significam a mesma coisa, mas as máquinas precisam ser explicadas com essa diferença. Eles são os mesmos em termos de intenção, mas como a intenção foi moldada é completamente diferente.

    A coleta de enunciados consiste em definir e mapear diferentes enunciados e frases em direção a objetivos específicos para a execução precisa de tarefas e respostas. Tecnicamente, os especialistas em anotação de dados trabalham com dados de fala ou dados de texto para ajudar as máquinas a diferenciar isso.

  • Extração de Entidade

    Cada frase tem palavras ou frases específicas que carregam peso enfatizado e é essa ênfase que leva a uma interpretação de contexto e propósito. As máquinas, como os sistemas rígidos que são, precisam ser alimentadas com essas entidades. Por exemplo, "Onde posso encontrar as cordas do meu violão perto da 6th Avenue?"

    Se você refinar a frase, encontrar a entidade um, as cordas são duas, o violão é três e a 6ª avenida é 4. Essas entidades são agrupadas por máquinas para obter os resultados apropriados e, para que isso aconteça, especialistas trabalham no backend.

Conjuntos de dados de voz/fala/áudio prontos para uso para treinar seu modelo de IA conversacional mais rapidamente

Projetando diálogos para IA conversacional

O objetivo da IA ​​tem sido predominantemente replicar o comportamento humano por meio de gestos, ações e respostas. A mente humana consciente tem a capacidade inata de entender contexto, intenção, tom, emoções e outros fatores e responder de acordo. Mas como as máquinas podem diferenciar esses aspectos? 

Criação de diálogos para IA conversacional é muito complexo e, mais importante, quase impossível de implementar um modelo universal. Cada indivíduo tem uma maneira diferente de pensar, falar e responder. Mesmo nas respostas, todos nós articulamos nossos pensamentos de forma única. Assim, as máquinas precisam ouvir e responder de acordo. 

No entanto, isso também não é suave. Quando os humanos falam, fatores como sotaques, pronúncia, etnia, idioma e outros entram em cena e não é fácil para as máquinas entenderem e interpretarem mal as palavras e responderem de volta.. Uma palavra em particular pode ser compreendida por máquinas de inúmeras maneiras quando ditada por um indiano, um britânico, um americano e um mexicano. Existem muitas barreiras linguísticas que entram em jogo e a maneira mais prática de criar um sistema de resposta é por meio de programação visual baseada em fluxograma. 

Através de blocos dedicados para gestos, respostas e gatilhos, autores e especialistas podem ajudar as máquinas a desenvolver um personagem. Isso é mais como uma máquina de algoritmos pode usar para obter as respostas certas. Quando uma entrada é alimentada, a informação flui através de fatores correspondentes, levando à resposta certa para as máquinas fornecerem. 

Disque D para Diversidade

Como mencionamos, as interações humanas são muito únicas. Pessoas de todo o mundo vêm de diferentes estilos de vida, origens, nacionalidades, demografia, etnias, sotaques, dicção, pronúncia e muito mais. 

Para que um bot conversacional ou um sistema seja universalmente operável, ele deve ser treinado com dados de treinamento tão diversos quanto possível. Se, por exemplo, um modelo foi treinado apenas com os dados de fala de um idioma ou etnia em particular, um novo sotaque confundiria o sistema e o obrigaria a fornecer resultados errados. Isso não é apenas embaraçoso para os empresários, mas também um insulto para os usuários. 

É por isso que a fase de desenvolvimento deve envolver dados de treinamento de IA de um rico conjunto de diversos conjuntos de dados compostos por pessoas de todas as origens possíveis. Quanto mais sotaques e etnias seu sistema entender, mais universal ele será. Além disso, o que incomodaria mais os usuários não é a recuperação incorreta de informações, mas a falha em entender suas entradas em primeiro lugar. 

Eliminar o viés deve ser uma prioridade fundamental e uma das maneiras pelas quais as empresas podem fazer isso é optando por dados de crowdsourcing. Quando você faz crowdsourcing de seus dados de fala ou dados de texto, você permite que pessoas de todo o mundo contribuam com seus requisitos, tornando seu pool de dados apenas saudável (Leia nossa blog para entender os benefícios e as armadilhas da terceirização de dados para trabalhadores de crowdsourcing). Agora, seu modelo entenderá diferentes sotaques e pronúncias e responderá de acordo. 

O Caminho a Seguir

Desenvolver IA conversacional é tão difícil quanto criar um bebê. A única diferença é que o bebê acabaria crescendo para entender as coisas e se comunicar melhor de forma autônoma. São as máquinas que precisam ser constantemente empurradas. Existem vários desafios neste espaço atualmente e devemos reconhecer o fato de que temos alguns dos sistemas de IA conversacional mais revolucionários que surgem apesar desses desafios. Vamos esperar e ver o que o futuro reserva para nossos amigáveis ​​chatbots e assistentes virtuais da vizinhança. Enquanto isso, se você pretende desenvolver uma IA conversacional como o Google Home para sua empresa, entre em contato conosco para seus dados de treinamento de IA e necessidades de anotações.

Ações Sociais