Reconhecimento automático de fala em relatórios judiciais.
- Criado em 09/10/2019 Por LinkLei
É seguro dizer que os sistemas automatizados de reconhecimento de fala se tornarão o método padrão para a produção de transcrições em muitos setores, incluindo relatórios de tribunais. Está pronto hoje? Ainda não.
Este artigo é parte 3 de uma série de três partes. As partes 1 e 2 foram publicadas na LTN em agosto e setembro.
O CTC 2019 foi realizado no mês passado em Nova Orleans. Essa conferência bienal de tecnologia em tribunais é a maior conferência do gênero e sempre uma ótima oportunidade para ver onde os fornecedores de tecnologia estão focados em suas ofertas em tribunais. Este ano foi tudo sobre inteligência artificial. Fornecedores de todos os tipos divulgavam seus aplicativos mais recentes habilitados para IA - alguns deles brilhantes e outros chatos. Todos os fornecedores de gravação digital estavam demonstrando alguma forma de reconhecimento de fala. Nenhum deles afirmou ser capaz de produzir uma transcrição aceitável, muito menos uma transcrição certificada, mas aplicar o reconhecimento de fala às legendas ocultas e à audição assistida parecia uma solução potencialmente viável. Divulgação completa: Minha empresa, TheRecordXchange, também oferece uma solução de reconhecimento de fala chamada VoiceCopy.
Quão boa é a tecnologia?
Comecei a trabalhar com tecnologia de reconhecimento de fala no final dos anos 90 como CEO da FTR (For The Record). Até 20 anos atrás, havia empresas sérias com muito dinheiro tentando quebrar essa noz. A tecnologia melhorou drasticamente e continua avançando rapidamente.
Existem dois fatores significativos que mudaram o cenário para o reconhecimento de fala. Primeiro, como esperado, as tecnologias relacionadas à inteligência artificial, aprendizado de máquina e redes neurais amadureceram. Igualmente importante, a grande tecnologia, principalmente Google, Amazon e Apple, criaram serviços que coletam quantidades insondáveis de dados de voz. Alexa, Google Home, Siri e outros aplicativos acumulam dados valiosos a cada segundo. Para o aprendizado de máquina, os dados são de ouro e a grande tecnologia está no mercado.
A grande tecnologia é ótima para resolver grandes problemas. Mas raramente tenta atender às necessidades de nichos de mercado. Abordar os requisitos específicos dos relatórios e transcrições dos tribunais é exatamente o que algumas das empresas da CTC e várias startups inovadoras estão tentando fazer. O Google e a Amazon contam com esses empreendimentos para atender a nichos de mercado com base na tecnologia que eles desenvolveram. As empresas menores com experiência no domínio entendem que as transcrições devem ser pontuadas com precisão, apresentar identificações precisas dos oradores e ser formatadas para atender às especificações de diferentes jurisdições.
A maioria das empresas reconhece que uma transcrição legal aceitável não pode ser produzida apenas com a tecnologia de fala atual. Então, qual é a resposta deles? Alguns estão promovendo suas soluções não para transcrição, mas para legendas ocultas ou audição assistida. Alguns desistiram do mercado de relatórios judiciais e concentram recursos em mercados com menos rigor e precisão nos requisitos de formatação. Mas alguns estão oferecendo uma solução de transcrição que combina IA com informações humanas para produzir uma transcrição aceitável.
IA com um toque humano
A estratégia de IA / humano usa o reconhecimento automático de fala para concluir a primeira passagem da transcrição. A transcrição é a parte mais trabalhosa do processo; portanto, se isso pode ser automatizado, é uma grande vitória. Em seguida, um revisor qualificado, usando ferramentas projetadas adequadamente, analisa e corrige a transcrição. O processo de revisão levará mais tempo do que se o revisor revisasse uma transcrição produzida por um transcritor qualificado, mas qualquer tempo e dinheiro adicionais gastos no processo de revisão são mais do que compensados pelas economias obtidas com a transcrição automatizada.
Hoje, os fornecedores de transcrição podem se beneficiar dessa economia de custos, mas essa economia não pode ser repassada aos compradores de transcrição. Mas se os usuários de transcrição estão recebendo uma transcrição precisa, eles provavelmente não se importam.
O grande beneficiário deste modelo é o fornecedor de tecnologia. Lembra do meu comentário acima sobre os dados serem de ouro para os desenvolvedores de IA? O mesmo se aplica a essas startups que buscam oportunidades no mercado de relatórios judiciais. Essas empresas nunca serão capazes de coletar o máximo de dados que a Amazon puder, mas não precisam.
O aprendizado de máquina, um subconjunto de IA, pode ser dividido em dois tipos: aprendizado supervisionado ou aprendizado não supervisionado. Quando você faz uma pergunta ao Alexa ou envia um comando, se você aceitar a resposta, o Alexa deduz que seu reconhecimento foi preciso. Se, no entanto, você repetir a solicitação após uma resposta, o sistema poderá inferir que seu reconhecimento estava incorreto. Este é um exemplo de aprendizado não supervisionado; não existe verdade estabelecida para ser devolvida ao sistema, apenas inferência. O aprendizado não supervisionado pode levar muito tempo e requer muitos dados.
O aprendizado supervisionado é baseado na ideia de que existe uma verdade conhecida. Com uma transcrição, há algo próximo a uma verdade conhecida. Transcrições finais precisas podem ser retornadas ao sistema para fins de aprendizado. O sistema pode comparar os resultados automatizados com a "verdade" da transcrição final e fazer ajustes para processamento futuro. O aprendizado supervisionado pode alcançar resultados muito mais rapidamente e requer muito menos dados para obter melhorias significativas. Portanto, um processo de IA / humano que resulta no acesso do provedor de tecnologia às transcrições finais também pode resultar em uma vantagem competitiva significativa. Eventualmente, as melhorias certamente beneficiarão os usuários de transcrição, mas enquanto isso…
Assim, com AI / processos humanos, posso obter boas transcrições?
Provavelmente não. E aqui está o porquê.
Hoje, quando você recebe uma transcrição precisa e certificada, essa transcrição provavelmente foi produzida por um transcritor qualificado e revisada por um revisor qualificado. Pense no revisor como a etapa de garantia da qualidade no processo. Boas empresas de transcrição têm processos bem desenvolvidos, usando equipes qualificadas e eficientes de transcritores e revisores, produzindo resultados de qualidade. Qualidade não acontece apenas porque os indivíduos são bons; isso acontece quando indivíduos qualificados seguem um bom processo.
Harold F. Dodge , um dos arquitetos originais da ciência do controle estatístico da qualidade afirmou que “Você não pode inspecionar a qualidade em um produto.” E, parafraseando W. Edwards Deming , o pai da ciência moderna do controle de qualidade, a revisão não melhora a qualidade da transcrição. A qualidade, boa ou ruim, já está na transcrição.
Como uma questão prática, o que isso significa é que um revisor qualificado pode revisar e concluir de forma consistente as transcrições precisas ao receber um trabalho de qualidade dos transcritores. Quanto menor a qualidade do conteúdo original, menor será a qualidade do produto final. As transcrições automatizadas são de qualidade muito inferior às produzidas por transcritores qualificados. Os revisores não podem transformá-los consistentemente em transcrições de alta qualidade. A partir de hoje, você ficará desapontado com os resultados.
Para citar W. Edwards Deming, essa combinação de inteligência artificial / humano é um "sistema de fabricação e inspeção, que se aplicado à torrada seria expresso como: 'Você queima, eu raspei'."
Se não hoje, quando?
Prever que algo vai acontecer é fácil. Prever quando não é fácil - o tempo é tudo. É seguro dizer que os sistemas automatizados de reconhecimento de fala se tornarão o método padrão para a produção de transcrições em muitos setores, incluindo relatórios judiciais. Está pronto hoje? Não.
Estará pronto em um ano? Não.
Estará pronto em cinco anos? Talvez.
Dez anos? Provavelmente.
Se você é um dos primeiros a adotar o clássico e quer viver no limite, vá em frente. Se você quiser entrar em tribunal com uma transcrição precisa de um depoimento de testemunha, contrate uma firma de denúncia qualificada e verifique se sua transcrição é produzida por um transcritor e revisor qualificados.
Steve Townsend é CEO da TheRecordXchange, uma plataforma baseada na Web para profissionais de relatórios judiciais. Ele tem uma vasta experiência em relatórios e transcrição de salas de audiências e tribunais. Ele foi CEO da FTR de 1997 a 2007 e CEO da AVTranz de 2008 a 2015. Townsend é co-fundador da Associação Americana de Repórteres e Transcritores Eletrônicos.