src package
Submodules
src.analises module
- class src.analises.Analyzes[source]
Bases:
object- barplot(data: DataFrame, x: str, y: str) <module 'PIL.Image' from '/usr/lib/python3/dist-packages/PIL/Image.py'>[source]
Método barplot: Gera um gráfico de barras do tipo imagem PIL.
Parâmetros:
data: Dataframe.
x: str.
y: str.
Descrição dos parâmetros:
data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.
x -> Argumento onde o usuário fornece a coluna do dataframe fornecido que ele deseja utilizar como eixo x.
y -> Argumento onde o usuário fornece a coluna do datafame fornecido que ele deseja utilizar como eixo y.
Exemplo de uso:
analise = Anaylzes()
df = ‘caminho_do_seu_dataframe’
grafico_barras = analise.barplot(data=df, x=’Coluna_1’, y=’Coluna_2’)
grafico_barras.show()
- boxplot(data: DataFrame, column: str, x_label: str) <module 'PIL.Image' from '/usr/lib/python3/dist-packages/PIL/Image.py'>[source]
Método boxplot: Gera um gráfico de caixa do tipo imagem PIL.
Parâmetros:
data: Dataframe.
column: str.
x_label: str.
Descrição dos parâmetros:
data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.
column -> Argumento onde o usuário fornece a coluna que ele deseja fazer a análise de outliers.
Exemplo de uso:
analise = Anaylzes()
df = ‘caminho_do_seu_dataframe’
grafico_caixa = analise.boxplot(data=df, column=’Coluna_3’, x_label=’Outliers da coluna 3’)
grafico_caixa.show()
- correlacao(data: DataFrame, colunas: list = []) list[source]
Método correlacao: Gera uma tabela de correlação entre as colunas.
Parâmetros:
data: Dataframe.
colunas: list.
Descrição dos parâmetros:
data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.
colunas -> Argumento onde o usuário fornece uma lista com as colunas que deseja utilizar para a correlação.
Exemplo de uso:
analise = Anaylzes()
df = ‘caminho_do_seu_dataframe’
graifico_correlacao = analise.correlacao(data=df, colunas=[‘Coluna_3’, ‘Coluna_20’, ‘Coluna_13’])
print(grafico_correlacao)
NOTA:
O argumento de colunas NÃO É OBRIGATÓRIO
- dispersao_plot(data1: DataFrame, data2: DataFrame, x_label: str, y_label: str, coluna_referencia: str, titulo: str) <module 'PIL.Image' from '/usr/lib/python3/dist-packages/PIL/Image.py'>[source]
Método dispersao_plot: Gera um gráfico de dispersão do tipo imagem PIL.
Parâmetros:
data1: Dataframe.
data2: Dataframe.
coluna_referencia: str.
x_label: str.
y_label: str.
titulo: str
Descrição dos parâmetros:
data1 -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.
data2 -> Argumento onde o usuário fornece o segundo conjunto de dados em formato de dataframe.
x_label -> Argumento onde o usuário fornece a legenda que deseja exibir no eixo x.
y_label -> Argumento onde o usuário fornece a legenda que deseja exibir no eixo y.
coluna_referencia -> Argumento onde o usuário fornece o nome da coluna em comum que se encontra nos dois dataframes e que será comparada.
titulo -> Argumento onde o usuário fornece o título que dejesa para o seu gráfico.
Exemplo de uso:
analise = Anaylzes()
df1 = ‘caminho_do_seu_dataframe1’
df2 = ‘caminho_do_seu_dataframe2’
grafico_dispersao = analise.dispersao_plot(data1=df1, data2=df2, x_label=’Legenda do eixo x’, y_label= ‘Legenda do eixo y’, coluna_referencia=’Coluna’, titulo: ‘Esse é o título do meu gráfico’)
grafico_dispersao.show()
NOTA:
certifique-se que a coluna de referência nos dois dataframes estejam com o mesmo nome.
Exemplo:
O usuário possui dois dataframes, um dataframe de vendas de um produto, e um dataframe de lucro obtido com esse produto.
Caso queira comparar a dispersão entre os dois dataframes, utilize uma coluna em comum entre as duas, ex: Produto4
- grafico_de_barras_e_linha(dataBarra: DataFrame, dataLinha: DataFrame, coluna_em_comum: str, coluna_barra: str, coluna_linha, x_label: str, y_label_barra: str, y_label_linha: str, title: str) <module 'PIL.Image' from '/usr/lib/python3/dist-packages/PIL/Image.py'>[source]
Método grafico_de_barras_e_linhas: Gera um gráfico de barras com linha do tipo imagem PIL.
Parâmetros:
dataBarra: Dataframe.
dataLinha: Dataframe.
coluna_em_comum: str.
coluna_barra: str.
coluna_linha: str.
x_label: str.
y_label_barra: str.
y_label_linha: str.
title: str.
Descrição dos parâmetros:
dataBarra -> Argumento onde o usuário fornece o conjunto de dados desejado para ser representado em barra, no formato Dataframe.
dataLinha -> Argumento onde o usuário fornece o conjunto de dados desejado para ser representado em linha, no formato Dataframe.
coluna_em_comum -> Argumento onde o usuário fornece a coluna do dataframe em que vai ser comparada pelos dois.
coluna_barra -> Argumento onde o usuário fornece a coluna do dataframe em que vai ser usada para a barra.
coluna_linha -> Argumento onde o usuário fornece a coluna do dataframe em que vai ser usada para a linha.
x_label -> Argumento onde o usuário coloca a legenda do eixo x.
y_label_barra -> Argumento onde o usuário coloca a legenda do eixo y da barra.
y_label_linha -> Argumento onde o usuário coloca a legenda do eixo y da linha.
title -> Argumento onde o ususário coloca o título dog gráfico.
Exemplo de uso:
analise = Anaylzes()
df1 = ‘caminho_do_seu_dataframe’
df2 = ‘caminho_do_seu_segundo_dataframe’
grafico_barras_e_linha = analise.grafico_de_barras_e_linha(dataBarra=df1, dataLinha= df2, coluna_em_comum=’Pets’, coluna_barra=’Pets_Vendas’, coluna_linha=’Pets_inflação’, x_label=’Pets’, y_label_barra= ‘Vendas de itens de pets’, y_label_linha=’Inflação sobre os produtos’, title=’Relação vendas de itens de pets com inflação sobre os produtos’)
grafico_barras_e_linha.show()
- lineplot(data: DataFrame, x: str, y: str) <module 'PIL.Image' from '/usr/lib/python3/dist-packages/PIL/Image.py'>[source]
Método lineplot: Gera um gráfico de linha do tipo imagem PIL.
Parâmetros:
data: Dataframe.
x: str.
y: str.
Descrição dos parâmetros:
data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.
x -> Argumento onde o usuário fornece a coluna do dataframe fornecido que ele deseja utilizar como eixo x.
y -> Argumento onde o usuário fornece a coluna do datafame fornecido que ele deseja utilizar como eixo y.
Exemplo de uso:
analise = Anaylzes()
df = ‘caminho_do_seu_dataframe’
grafico_linha = analise.lineplot(data=df, x=’Coluna_1’, y=’Coluna_2’)
grafico_linha.show()
- matriz_corr(data: DataFrame, colunas: list = []) <module 'PIL.Image' from '/usr/lib/python3/dist-packages/PIL/Image.py'>[source]
Método matriz_corr: Gera um gráfico de matriz de correlação do tipo imagem PIL.
Parâmetros:
data: Dataframe.
colunas: list.
Descrição dos parâmetros:
data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.
colunas -> Argumento onde o usuário fornece uma lista com as colunas que deseja utilizar para a correlação.
Exemplo de uso:
analise = Anaylzes()
df = ‘caminho_do_seu_dataframe’
grafico_matriz_corr = analise.matriz_corr(data=df, colunas=[‘Coluna_1’, ‘Coluna_7’, ‘Coluna_4’])
grafico_matriz_corr.show()
NOTA:
O argumento de colunas NÃO É OBRIGATÓRIO
- pointplot(data: DataFrame, x: str, y: str, title: str, x_label: str, y_label: str, hue: str | None = None) <module 'PIL.Image' from '/usr/lib/python3/dist-packages/PIL/Image.py'>[source]
Método pointplot: Gera um gráfico de linha com pontos do tipo imagem PIL.
Parâmetros:
data: Dataframe.
x: str.
y: str.
title: str.
x_label: str.
y_label: str.
hue: str.
Descrição dos parâmetros:
data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.
x -> Argumento onde o usuário fornece a coluna do dataframe fornecido que ele deseja utilizar como eixo x.
y -> Argumento onde o usuário fornece a coluna do datafame fornecido que ele deseja utilizar como eixo y.
title -> Argumento onde o usuário fornece o título do gráfico.
x_label -> Argumento onde o usuário fornece a legenda do eixo x.
y_label -> Argumento onde o usuário fornece a legenda do eixo y.
hue -> Argumento onde o usuário fornece a coluna do dataframe responsável por segregar os dados.
Exemplo de uso:
analise = Anaylzes()
df = ‘caminho_do_seu_dataframe’
grafico_pontos = analise.pointplot(data=df, x=’Coluna_1’, y=’Coluna_2’, title=’Titulo do gráfico’, x_label=’Legenda do eixo x’, y_label=’Legenda do eixo y’, hue=’Coluna_5’)
grafico_pontos.show()
NOTA:
Nesse exemplo de uso, repare que o hue é a coluna 5 do dataframe, imagine que esse dataframe em questão na coluna 5 tenha informações de classificação.
E esse dataframe está com as seguintes classificações: Pequeno, Médio e Grande.
Quando o gráfico for plotado, irá ter 3 linhas, uma para cada classificação.
O argumento hue NÃO É OBRIGATÓRIO
src.processamentodados module
- class src.processamentodados.DataProcess(data: str)[source]
Bases:
objectClasse responsável para o processamento de dados
- sheet_select(sheet: str) DataFrame[source]
Retorna a aba selecionada da planilha em formato de DataFrame.
Parâmetros:
sheet: str
Descrição dos parâmetros:
sheet -> Argumento onde o usuário vai passar o nome da aba que ele deseja trabalhar
Exemplo de uso:
df = ‘seu_excel.xlsx’
processamento = DataProcess(data=df)
aba_selecionada = processamento.sheet_select(sheet=’nome_da_aba’)
- sheets() list[source]
Retorna uma lista com os nomes de todas as abas da planilha.
Exemplo de uso:
CASO QUEIRA PASSAR UM EXCEL df_excel = ‘caminho_do_excel.xlsx’
processamento = DataProcess(data=df_excel)
lista_de_abas_da_planilha = processamento.sheets()
CASO QUEIRA PASSAR UM CSV df_csv = ‘caminho_do_csv.csv’
processamento_csv = DataProcess(data=df_csv)
lista_de_abas_do_csv = processamento.sheets()
src.tratamento module
- class src.tratamento.Treatment[source]
Bases:
object- add_column_day(data: DataFrame, column: str) DataFrame[source]
Método add_column_day: Adiciona uma coluna de dia baseado na coluna de datas de um dataframe temporal.
Parâmetros:
data: Dataframe.
column: str.
Descrição dos parâmetros:
data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.
column -> Coluna de referência (DATA) para que a coluna de ano seja criada baseada nela.
Exemplo de uso:
tratamento = Treatment()
df = ‘seu_dataframe’
df_com_coluna_de_ano = tratamento.add_column_day(data=df, column=’DATA’)
- add_column_month(data: DataFrame, column: str) DataFrame[source]
Método add_column_month: Adiciona uma coluna de mês baseado na coluna de datas de um dataframe temporal.
Parâmetros:
data: Dataframe.
column: str.
Descrição dos parâmetros:
data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.
column -> Coluna de referência (DATA) para que a coluna de ano seja criada baseada nela.
Exemplo de uso:
tratamento = Treatment()
df = ‘seu_dataframe’
df_com_coluna_de_mes = tratamento.add_column_month(data=df, column=’DATA’)
- add_column_year(data: DataFrame, column: str) DataFrame[source]
Método add_column_year: Adiciona uma coluna de ano baseado na coluna de datas de um dataframe temporal.
Parâmetros:
data: Dataframe.
column: str.
Descrição dos parâmetros:
data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.
column -> Coluna de referência (DATA) para que a coluna de ano seja criada baseada nela.
Exemplo de uso:
tratamento = Treatment()
df = ‘seu_dataframe’
df_com_coluna_de_ano = tratamento.add_column_year(data=df, column=’DATA’)
- change_data_type(data: DataFrame, column: str, type: str) DataFrame[source]
Método change_data_type: Método para alterar o tipo de dados de uma coluna.
Parâmetros:
data: Dataframe.
column: str.
type: str.
Descrição dos parâmetros:
data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.
column -> Argumento onde o usuário fornece a coluna a ser alterada o tipo de dados.
type -> Argumento onde o usuário fornece para qual tipo de dados deseja alterar.
Exemplo de uso:
tratamento = Treatment()
df = ‘seu_dataframe’
CASO QUEIRA ALTERAR PARA DATETIME
df_com_coluna_alterada_para_datetime = tratamento.change_data_type(data=df, column=’DATA’, type=’datetime’)
NOTA:
Nessa versão só está disponível a mudança para datetime
- check_column_with_null_values(data: DataFrame) list[str][source]
Método check_column_with_null_values: Método responsável por informar uma lista com todas as colunas que possuem valores vazios.
Parâmetros:
data: Dataframe.
Descrição dos parâmetros:
data -> Argumento onde o usuário fornece o dataframe.
Exemplo de uso:
tratamento = Treatment()
df = ‘meu_dataframe’
lista_das_colunas_com_valores_nulos = tratamento.check_column_with_null_values(data=df)
- column_range(data: DataFrame, start_column: str, end_column: str) DataFrame[source]
Método column_range: Filtra seu dataframe de acordo com um intervalo de colunas.
Parâmetros:
data: Dataframe.
start_column: str.
end_column = str.
Descrição dos parâmetros:
data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.
start_column -> Argumento onde o usuário fornece a coluna inicial da filtragem.
end_column -> argumento onde o usuário fornece a coluna final da filtragem.
Exemplo de uso:
tratamento = Treatment()
df = ‘seu_dataframe’
df_filtrado_por_intervalo_de_colunas = tratamento.column_range(data=df, start_column=’Coluna_5’, end_column=’coluna_10’)
- convert_dataframe_to_json(data: DataFrame, json_path: str) <module 'json' from '/usr/lib/python3.10/json/__init__.py'>[source]
Método convert_dataframe_to_json: Método responsável por converter um dataframe em um arquivo json.
Parâmetros:
data: Dataframe.
json_path: str.
Descrição dos parâmetros:
data -> Argumento onde o usuário fornece o dataframe.
json_path -> Argumento onde o usuário fornece o caminho de qual arquivo json ele deve ser salvo.
Exemplo de uso:
tratamento = Treatment()
df = ‘meu_data_frame’
json = ‘meu_json.json’
df_que_era_json = tratamento.convert_dataframe_to_json(data=df, json_path: json)
NOTA:
Crie um arquivo json que esteja vazio, e passe para a função para que seu dataframe seja salvo nesse arquivo .json criado.
- convert_json_to_dataframe(json_file: <module 'json' from '/usr/lib/python3.10/json/__init__.py'>) DataFrame[source]
Método convert_json_to_dataframe: Método responsável por converter um arquivo json para o formato dataframe.
Parâmetros:
json_file: str
Descrição dos parâmetros:
json_file -> Argumento onde o usuário fornece o caminho do arquivo .json.
Exemplo de uso:
tratamento = Treatment()
json = ‘meu_json.json’
df_que_era_json = tratamento.convert_json_to_dataframe(json_file=json)
- dataframe_for_a_row(data: DataFrame, index: int) DataFrame[source]
Método dataframe_for_a_row: Método responsável por gerar um dataframe a partir de uma linha desse dataframe.
Parâmetros:
data: Dataframe.
index: int.
Descrição dos parâmetros:
data -> Argumento onde o usuário fornece o dataframe.
index -> Argumento onde o usuário fornece o índice da linha a ser usada como primeira linha do dataframe.
Exemplo de uso:
tratamento = Treatment()
df = ‘meu_dataframe’
df_a_partir_da_linha_5 = tratamento.dataframe_for_a_row(data=df, index=5)
- date_range(data: DataFrame, start_date: str, end_date: str, data_column: str) DataFrame[source]
Método date_range: Filtra seu dataframe de acordo com um intervalo de datas.
Parâmetros:
data: Dataframe.
start_date: str.
end_date = str.
data_column: str.
Descrição dos parâmetros:
data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.
start_date -> Argumento onde o usuário fornece a data inicial para a filtragem.
end_date -> Argumento onde o usuário fornece a data final para a filtragem.
data_column -> Coluna de referência das datas.
Exemplo de uso:
tratamento = Treatment()
df = ‘seu_dataframe’
df_filtrado_por_intervalo_de_datas = tratamento.date_range(data=df, start_date=’01/01/2020’, end_date=’07/03/2020’, data_column=’DATA’)
- remove_column(data: DataFrame, column: str | None = None, index: int | None = None, last: str | None = None) DataFrame[source]
Método remove_column: Método utilizado para remover uma coluna do dataframe.
Parâmetros:
data: Dataframe.
column: str.
index: int.
last: str.
Descrição dos parâmetros:
data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.
column -> Argumento onde o usuário fornece a coluna a ser removida. (OPCIONAL)
index -> Argumento onde o usuário fornece o índice da coluna a ser removido. (OPCIONAL)
last -> Argumento onde o usuário define se é a última coluna do cabeçalho ou não. (OPCIONAL)
Exemplo de uso:
tratamento = Treatment()
df = ‘seu_dataframe’
CASO QUEIRA REMOVER A COLUNA PELO NOME DELA
df_coluna_removida_pelo_nome = tratamento.remove_column(data=df, column=’Coluna_3’)
CASO QUEIRA REMOVER A COLUNA PELO ÍNDICE DELA
df_coluna_removida_pelo_indice = tratamento.remove_column(data=df, index=2)
CASO QUEIRA REMOVER A ÚLTIMA COLUNA
df_ultima_coluna_removida = tratamento.remove_column(data=df, last=’yes’)
- remove_row(data: DataFrame, index: int) DataFrame[source]
Método remove_row: Método responsável por remover uma linha do dataframe.
Parâmetros:
data: Dataframe.
index: int.
Descrição dos parâmetros:
data -> Argumento onde o usuário fornece o dataframe.
index -> Argumento onde o usuário fornece o índice da linha a ser removida do dataframe.
Exemplo de uso:
tratamento = Treatment()
df = ‘meu_dataframe’
df_sem_a_linha_10 = tratamento.remove_row(data=df, index=10)
- replace_value_in_a_position(data: DataFrame, column: int, row: int, name: str) DataFrame[source]
Método replace_value_in_a_position: Método responsável por trocar o valor de uma posição do dataframe.
Parâmetros:
data: Dataframe.
column: int
row: int
name: str
Descrição dos parâmetros:
data -> Argumento onde o usuário fornece o dataframe.
column -> Argumento onde o usuário fornece o número da coluna.
row -> Argumento onde o usuário fornece o número da linha.
name -> Valor a ser atribuido a essa coordenada.
Exemplo de uso:
tratamento = Treatment()
df = ‘meu_dataframe’
df_com_valor_substituido = tratamento.replace_value_in_a_position(data=Dataframe, column=3, row=2, name=’Agora eu sou um novo valor’)
- treatment_of_missing_data(data: DataFrame, treatment: str) DataFrame[source]
Método treatment_of_missing_data: Método de tratamento de dados faltantes.
Parâmetros:
data: Dataframe.
treatment: str.
Descrição dos parâmetros:
data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.
treatment -> Argumento onde o usuário fornece o tipo de tratamento que ele deseja (remove, average, zero)
Exemplo de uso:
tratamento = Treatment()
df = ‘seu_dataframe’
CASO QUEIRA REMOVER AS LINHAS QUE POSSUEM VALORES NULOS
df_com_dados_nulos_removidos = tratamento.treatment_of_missing_data(data=df, treatment=’remove’)
CASO QUEIRA PREENCHER OS VALORES NULOS COM A MÉDIA DOS VALORES DA COLUNA
df_com_a_media_preenchendo_os_valores_nulos = tratamento.treatment_of_missing_data(data=df, treatment=’average’)
CASO QUEIRA PREENCHER OS VALORES NULOS COM ZERO
df_com_valores_nulos_preenchidos_com_zero = tratamento.treatment_of_missing_data(data=df, treatment=’zero’)
- turn_row_into_header(data: DataFrame, index: int) DataFrame[source]
Método turn_row_into_header: Método responsável por transformar uma linha do dataframe em cabeçalho.
Parâmetros:
data: Dataframe.
index: int.
Descrição dos parâmetros:
data -> Argumento onde o usuário fornece o dataframe.
index -> Argumento onde o usuário fornece o índice da linha a ser promovida a cabeçalho.
Exemplo de uso:
tratamento = Treatment()
df = ‘meu_dataframe’
df_onde_a_linha_3_e_cabecalho = tratamento.turn_row_into_header(data=df, index=3)
- year_range(data: DataFrame, start_year: int, end_year: int, year_column: str) DataFrame[source]
Método year_range: Filtra seu dataframe de acordo com um intervalo de anos.
Parâmetros:
data: Dataframe.
start_year: str.
end_year = str.
year_column: str.
Descrição dos parâmetros:
data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.
start_year -> Argumento onde o usuário fornece o ano inicial para a filtragem.
end_year -> Argumento onde o usuário fornece o ano final para a filtragem.
year_column -> Coluna de referência dos anos.
Exemplo de uso:
tratamento = Treatment()
df = ‘seu_dataframe’
df_filtrado_por_intervalo_de_anos = tratamento.year_range(data=df, start_year=1998, end_year=2015, year_column=’ANO’)