Análise de Base de Dados

1000 vídeos mais populares do Youtube

Conhecendo a base de dados

Nesta análise, exploraremos os 1.000 vídeos mais vistos no YouTube, cujos dados estão organizados em uma base com 1.000 linhas e 7 colunas, com o objetivo de compreender os padrões e tendências que contribuem para o seu sucesso. Por meio de análises detalhadas, buscaremos identificar fatores como temas populares, duração média dos vídeos, presença de celebridades ou influenciadores, e impacto das interações e engajamento com o público. O principal objetivo é fornecer insights valiosos que possam ser usados para otimizar a criação de conteúdo e estratégias de engajamento no YouTube, bem como entender melhor o comportamento do usuário na plataforma.

Imagem
image

Extrair, Transformar e Carregar (ETL)

O primeiro passo foi analisar e compreender a tabela visualmente. Fazendo isso, notei que as colunas de visualização, likes e dislikes estavam definidas como ‘varchar’, o que impossibilitaria o desenvolvimento do projeto, uma vez que não conseguiriamos utilizar esses dados para realizar operações matemáticas, rankeamento, entre outras necessidades.

Imagem

Resolução do problema

Para resolver este problema, utilizo a função CAST para alterar a definição das colunas de VARCHAR para BIGINT juntamente com o REPLACE, que irá remover as vírgulas (,) deixando nossos números sem separador. Ainda nesta query, crio uma VIEW da minha tabela e a chamo de videos_new (Uma view age como base de dados temporária, permitindo que façamos consultas e outras operações sem que alteremos a base de dados original e sendo apagada automaticamente com o tempo)

Exploração das Questões de Análise

Quais são os vídeos mais assistidos?

Na imagem exibimos os 10 vídeos mais assistidos com base no número de visualizações e percebemos que o vídeo mais assistido é a música ‘See You Again’ de Wiz Khalifa, possuindo 6.547.981.039 bilhões de visualizações. Na décima colocação está o vídeo ‘0 Sharpness knife test???’ com 113.886.130 milhões de visualizações.

Vemos também que entre os 10 vídeos mais assistidos, as categorias que mais aparecem são ‘People & Blogs’ e ‘Music’, tendo 4 vídeos cada e os vídeos restantes são das categorias ‘Sports’ e ‘Entertainment’

Imagem

Quais são os vídeos mais curtidos?

Novamente o vídeo ‘See You Again’ de Wiz Khalifa aparece no topo da lista, possuindo 44.428.537 milhões de curtidas. Na imagem vemos o top 10 vídeos mais curtidos e podemos notar visualmente que muitos dos vídeos mais assistidos reaparecem aqui nesta lista, embora não sejam todos.

Imagem

Análise de engajamento

Qual é a taxa de engajamento média (likes) por vídeo em relação ao número de visualizações

Analisamos a taxa de engajamento a partir da lista dos 10 vídeos mais assistidos e pudemos notar que os vídeos mais assistidos, do top 5 para cima, são os que possuem as menores taxas de engajamento. Isto é, possui muitas visualizações mas poucos likes comparados ao número de views. Os vídeos do top 6 ao 10 possuem taxas de engajamento altas, o top 10 da lista ‘0 Sharpness knife test???’, por exemplo, é o vídeo com maior engajamento entre eles.

Imagem

Filtramos também os vídeos com maior número de engajamento e percebemos uma diferença nas categorias. Enquanto a categoria ‘Music’ é bem presente nos vídeos mais assistidos e, como vimos, possui baixo engajamento, nos vídeos com maiores taxas de engajamento a categoria ‘Music’ quase não aparece.

Imagem

Analisando as categorias

Analisando individualmente as categorias, definimos um top 10 que apresenta a categoria ‘Music’ com o maior número de visualizações dentre todas (16.020.961.488), seguida de ‘People & Blogs’ (4.813.948.048) e ‘Entertainment’ (1.202.425.848) em segunda e terceira posição, respectivamente.

Da mesma forma, fizemos a relação de categorias e número total de likes. Obtemos como resultado o top 10 de vídeos mais curtidos, onde ‘People & Blogs’ aparece na liderança (141.114.842), seguida de ‘Music’ (126.163.103) e ‘Entertainment’ (38.038.916)

Abordando a principal prolemática

Tendo visto esses dados, vamos partir para uma análise mais minunciosa para responder a principal problemática deste projeto: “Tendo interesse em iniciar um canal no youtube, qual a categoria de vídeos mais promissora para que eu tenha mais alcance, visibilidade e probabilidade de crescimento?”

Para isso, moldamos novamente a nossa tabela, agora trazendo o total de views, likes e dislikes e total de vídeos, agrupando tudo por categoria e ano de publicação e atribuindo o valor “no_category” para os dados dos videos que não possui categoria.

Migrando os dados

Exportamos a nova tabela em formato ‘.csv’ e agora podemos abrí-la em outras ferramentas de visualização de dados. Neste caso, utilizaremos o Google Planilhas para dar continuidade à análise e extrair informações de forma mais dinâmica e fácil.

Após exportar a tabela em sua forma bruta, criamos uma tabela dinâmica no google sheets através dela, que utilizaremos nos próximos passos. Formatamos a tabela dinâmica de forma que facilite a visualização e compreensão dos dados, exibindo todos os dados necessários e ordenando-os em ordem decrescente com base no número de views.

Analisando a tabela dinâmica

De cara podemos notar que a categoria ‘Music’ aparece no topo da lista, como visto anteriormente, mas agora podemos ver que essa superioridade de visualizações advém do fato de que a categoria possui o maior número de vídeos também.

Abaixo dela temos a categoria ‘People & Blogs’ que, apesar de ter menos visualizações, possui um número de likes maior tendo aproximadamente 30,05% de views e 60,33% do total de vídeos em relação a categoria ‘Music’.

Agregamos à tabela dinâmica as colunas media_views, media_likes e media_dislikes, que apresentam as médias de views, likes e dislikes de cada categoria quando comparadas ao número de vídeos.

Podemos ver que a categoria ‘Music’, apesar de possuir o maior número de views totais e o segundo maior número de likes totais, não possui a maior média de visualizações e likes, perdendo para a categoria ‘Howto & Style’ na média de visualizações e para a categoria ‘Travel & Events’ na média de likes.

Conclusão dos KPIs

Para elucidar melhor nossa análise, completei a tabela com todos os KPIs pertinentes para nossa tomada de decisão. Então, neste momento, incluímos as colunas de taxa de engajamento, taxa de rejeição, ranquemento da média de views, taxa de engajamento e de rejeição e o ranqueamento geral para definir as melhores categorias para seguir.

Sendo assim, vamos explorar melhor essas novas colunas:

Taxas de engajamento e rejeição: Já abordadas anteriormente no SQL, as taxas calculam o valor de likes e de dislikes, divididos pela quantidade de visualizações. Isso gera um valor percentual da média de quantas visualizações se tornam likes e dislikes.

Ranqueamentos: No caso do ranking de média de views e taxa de engajamento, pegamos os maiores valores e os ranqueamos para saber suas posições e utilizamos a formatação condicional para colorir e destacar os rankings 1 a 4. A taxa de rejeição segue a mesma lógica, entretanto, precisamos inverter o ranqueamento para que as primeiras colocações sejam baseadas nas menores taxas de rejeição, e não nas maiores.

Ranqueamento geral: Por fim, somamos os valores das colunas de ranqueamento em “Pontuação” com a ideia de que as categorias com melhores posições nos 3 rankings somem as menores pontuações e em ‘Rank Geral’ exibimos as posições de acordo com as menores pontuações, o que nos leva finalmente às melhores categorias.

Considerações finais

Destarte, tendo definido as 4 categorias mais populares e com as melhores métricas do nosso dataset, vamos agora analisar qual a melhor delas para um iniciante começar a produzir os seus vídeos. Para isso, verificaremos o levantamento do número de vídeos de cada categoria, agrupados por ano.

Qualquer uma das categorias finalistas são uma boa escolha para produção de conteúdo, porém, analisando racionalmente sabemos que as categorias ‘Howto & Style’ e ‘Travel & Events’ possuem pouca constância, tendo apenas 4 vídeos no top 1000 nesses 20 anos, enquanto as outras duas categorias possuem mais de 22 vídeos no top 1000.

Obs.: O dataset possui vídeos de 2005 à 2025 e os anos que não aparecem relacionados é por que nenhuma das categorias possui vídeo nessas datas.

Sendo assim, restando apenas as categorias ‘Film & Animation’ e ‘Gaming’, se eu tivesse que escolher uma delas certamente optaria por ‘Gaming’, tendo em vista que a outra possui um nível de complexidade elevado, que exige conhecimento específico e dificultará a produção de conteúdo.