O Spotify lançou a retrospectiva 2021 #SpotifyWrapped. Eu adoro acompanhar o resultado do meu ano e dos meus amigos. Fico vendo o de todo mundo que posta!
Eu ouço muita música de carnaval, entre marchinhas e enredos de escola de samba e funk dos anos 2000, e nos últimos dois anos essas músicas, junto com outros estilos brasileiros, vinham classificados com o gênero “pagode”. Isso me incomodava porque eu não ouço pagode! Nada contra, mas achava uma falha que essas músicas fossem classificadas de forma errada.
Até que, esse ano, qual é a minha surpresa ao ver que o gênero de pagode não estava mais entre os favoritos! Ele deu lugar a MPB, Samba, Umbanda e Funk Carioca! E isso me fez pensar…
Como o Spotify faz?
Como será que o Spotify administra essa infinidade de músicas, cria novos gêneros e playlists temáticas, e atribui corretamente o gênero a cada artista ou faixa? Mais que isso, como o Spotify guarda todas as músicas que ouvimos, quantas vezes tocamos e sabe com precisão o quanto devem remunerar a cada artista?
Adivinha… tem tudo a ver com governança de dados do Spotify!
Leia também:
Melhores Práticas para a Qualidade de Dados
A Polêmica do Reconhecimento Facial no Reino Unido
Inovação em Dados na Gestão de Desastres
A Governaça de Dados do Spotify
Para início de conversa, o Spotify deu certo porque teve desde sempre uma capacidade incrível de guardar e associar os dados para remunerar os artistas corretamente de acordo com a quantidade de vezes que sua música foi tocada. Isso, por si só, já é um exemplo de como a gestão de dados aplicada corretamente pode trazer muito valor a um negócio e revolucionar uma indústria.
Mas o pessoal do Spotify não parou por aí. O Spotify garante aos seus usuários que as informações são usadas de maneira responsável para melhorar sua própria experiência de escuta musical, uma vez que tem sede na Europa e só pode usar esses sistemas de recomendação porque provaram que tem controles de privacidade robustos em vigor.
Com tantos dados disponíveis e com o objetivo de atrair mais usuários e mais artistas, a empresa começou a criar listas de recomendações baseadas no que você já ouviu e listas de determinados gêneros – alguns deles extremamente específicos. Com isso, o Spotify expandiu ainda mais as possibilidades de negócio, podendo trabalhar com gravadoras para aumentar a exposição de seus artistas para um público relevante, ao mesmo tempo que supria a demanda dos amantes de música por novidades, que assinam a plataforma.
Atualmente, o Spotify conta com mais de 5.600 gêneros diferentes. Os gêneros, apesar de bem específicos, podem ser fáceis de entender, como “rock”, “pop teen brasileiro” ou “indie belga”. Mas o Spotify também utiliza essa inifinidade de dados parar definir novos gêneros únicos, como “escape room”, “folktronica”, “dark cabaret”, “deep liquid bass” e “forest psy”. Também é possível encontrar gêneros como “pet calming” e “kids hip hop”.
Como o Spotify consegue?
Como o Spotify gerencia, identifica, classifica e agrupa todas essas músicas para criar novos gêneros, playlists e oportunidades de negócio?
Sim, o uso de machine learning, processamento de linguagem natural (NLP) e redes neurais (CNN) é essencial. Além de analisar as músicas ouvidas por usuários de caracterísitcas semelhantes, o Spotify “lê” artigos e reportagens para avaliar as palavras ou termos usados para se referir às músicas e artistas. Por último, as redes neurais são aplicadas para comparar a batida e outras informações mais técnicas de cada música. Com essas três abordagens, a empresa otimiza sua ferramenta de recomendações com muita precisão.
Mas sabe o que foi a grande virada do Spotify? Aconteceu lá em 2016, quando a plataforma realizou uma grande migração de dados para a plataforma de nuvem da Google. Nesse momento, o pessoal percebeu que havia uma quantidade imensa de bancos de dados completamente desorganizado e o impacto positivo gerado pela análise de dados era sempre muito localizado em certas partes da empresa.
O problema de Governança de Dados do Spotify
Ao avaliar essa situação, o Spotify percebeu que os datasets não tinham documentações claras nem os responsáveis pelos dados, o que gerava mais trabalho para os cientistas de dados. No blog de engenharia do Spotify, eles são bem diretos: o maior problema era a falta de um catálogo de dados centralizado e quais recursos estavam disponíveis.
E o que é isso? Sim, um problema de governança de dados do Spotify!
A Solução para a Governça de dados do Spotify
Em 2017, para resolver essa questão de governaça de dados, o Spotify lançou o Lexikon, uma biblioteca de dados e insights. Assim, a primeira versão da biblioteca permitia pesquisar e navegar nos bancos de dados disponíveis, além de descobrir o conhecimento gerado anteriormente. Foi uma ferramenta bem aceita e cerca de 75% dos cientistas de dados usava regularmente.
A governança de dados não é um projeto único, mas sim um processo contínuo. É fundamental continuar acompanhado as questões relatadas pela equipe para verificar se a solução implantada é coerente ou se novos problemas surgiram.
Mesmo assim o novo aplicativo, os cientistas de dados ainda relatavam problemas na descoberta de dados, especialmente no tempo gasto para encontrar o conjunto de dados correto. Mais tempo para encontrar os dados, mais tempo para produzir insights e mais tempo para definir uma ação e colocá-la em prática.
Ainda se tratando de uma questão de governança de dados, o Spotify resolveu entender o problema pela raiz e foi conversar com os cientistas para entender as necessidades deles, trocar conhecimentos e auxiliar o processo de descoberta de dados. Com esse entendimento mais específico foi possível trazer melhoramentos importantes para o Lexikon.
O Resultado
Alguns problemas listados foram:
- Encontrar conjuntos de dados populares usados amplamente em toda a empresa,
- Encontrar conjuntos de dados relevantes para o trabalho que minha equipe está fazendo e / ou
- Encontrar conjuntos de dados que posso não estar usando, mas que devo conhecer.
Página Inicial
A solução definida foi implementar recomendações personalizadas na página inicial da ferramenta:
- Conjuntos de dados populares usados amplamente em toda a empresa,
- Conjuntos de dados que você usou recentemente,
- Conjuntos de dados amplamente utilizados pelas equipes às quais você pertence, e
- Recomendações para conjuntos de dados que você não usou, mas que podem ser úteis.
Algoritmo de Pesquisa
Além disso, o algoritmo de classificação de pesquisa foi otimizado. Os cientistas de dados geralmente buscabam por um desses conjuntos de dados mais usados que atendesse às suas necessidades. Portanto, o algoritmo foi ajustado para ponderar os resultados da pesquisa com base na popularidade.
Após essa mudança, nas sessões de feedback do usuário, os cientistas de dados relataram que os resultados da pesquisa não só pareciam mais relevantes, mas também estavam mais confiantes nos conjuntos de dados que descobriram, porque puderam ver que o conjunto de dados que encontraram foi amplamente utilizado por outros em todo o empresa.
Novos Campos de Pesquisa
Também foram introduzidos novos campos de pesquisa (por exemplo, campo de esquema, projeto do BigQuery, pessoa, equipe, etc.). A equipe acreditava que, ao tornar esses tipos de entidades mais “exploráveis”, novos caminhos para a descoberta de dados eram abertos.
Por meio de pesquisas com usuários, aprendemos que os cientistas de dados que não conseguiam descobrir os dados que procuravam, muitas vezes voltavam a encontrar um especialista na comunidade de insights sobre um determinado tópico e se conectavam com eles pessoalmente ou online.
No entanto, em alguns casos, os cientistas de dados acharam difícil encontrar a pessoa certa para conversar sobre um determinado tópico, especialmente novos funcionários que ainda não haviam construído conexões pessoais com membros da comunidade de insights.
Portanto, também foi adicionada a possibilidade de pesquisa de pessoas que trabalham no espaço de dados e insights relacionados a uma determinada palavra-chave. Mais peso é dado às ações relacionadas à produção de insights (por exemplo, possuir um painel) em vez de ao consumo de insights (por exemplo, visualizar um painel).
Informação complementar
Após o lançamento da primeira versão do Lexikon, os cientistas de dados continuaram a conversar uns com os outros sobre conjuntos de dados no Slack. Então, foi construído um Lexikon Slack Bot para melhorar as discussões sobre conjuntos de dados.
Quando um usuário compartilha um link para um conjunto de dados no Lexikon, o bot Slack fornece um breve resumo do conjunto de dados, incluindo:
- Nome,
- Proprietário,
- Descrição,
- Estatísticas de uso,
- Informações do ciclo de vida dos dados,
- Acesso,
- Visão geral dos campos de esquema mais usados na tabela e
- Links para ver mais informações no Lexikon, solicitar acesso ou abrir diretamente no BigQuery
Essa ferramenta também ajudou a aumentar a conscientização e a adoção do Lexikon, tendo aumentado em 25% o número de links Lexikon compartilhados no Slack por semana.
Ajudando as pessoas a começar com um conjunto de dados que descobriram
Por meio da pesquisa do usuário, o Spotify percebeu que os cientistas de dados costumam ter muitas dúvidas sobre como começar a usar um conjunto de dados, o que reduzia sua capacidade de começar a usar o conjunto de dados que acabaram de descobrir.
Para resolver isso, desenvolveram recursos estatísticas de consumo de cada variável da base de dados e consultas a tabelas comumente combinadas.
As estatísticas ajudam a determinar quais campos são mais utilizados e pesquisados entre as centenas que podem existir na base de dados. Esse recurso oferece aos usuários do Lexikon uma maneira de classificar a lista de campos disponíveis por uso para encontrar facilmente aqueles que provavelmente são os mais relevantes. Veja abaixo:
E quem cria os gêneros?
Esse é o papel do “alquimista de dados” Glenn McDonald. Ele até criou um site para mostrar as mais de 5.600 categorias (até o momento). Você pode clicar no gênero e ouvir um exemplo de música, ou pesquisar por um artista. Também pode dar uma olhada aqui e ver os gêneros mais ouvidos por país, ou as músicas de natal mais ouvidas.
Glenn diz que trabalha com qualquer número que venha do Spotify e transforma em experiências musicais que façam sentido. Ele tem um dedinho nas playlists de Daily Mix, análise de padrões, criação de novas playlists e, claro, na categoria de “gênero mais ouvido” da sua retrospectiva do Spotify.
Com a quantidade de banco de dados e opções que o Glenn tem, uma governança de dados bem feita com certeza ajuda o seu trabalho e de toda a equipe de dados.
A ideia de criar esses gêneros tão únicos surgiu da necessidade de dar um sentido mais claro aos resultados da predições de machine learning. Inicialmente, eram usados atributos como “dançante”, “feliz” e “triste”. “O que seria uma música 0.7 feliz?”, indagou Gleen.
Ao comparar esses diferentes gêneros uns com os outros, era mais fácil entender como o algoritmo estava funcionando e se os estilos realmente se relacionavam. “Algumas pessoas entendem o que acham esquisito”, relata Glenn, “mas o fato de haver agrupamento, significa que o gênero é real, embora eu possa ter inventado o nome”.
Da próxima vez que você não entender o que significa o seu gênero mais ouvido, mande uma mensagem para o Glenn, ou confira no site dele o que realmente significa!
Pingback: O Problema do Valor Nulo - Diário de Dados
Pingback: O que é Governança de Dados - Diário de Dados