src package

Submodules

src.analises module

class src.analises.Analyzes[source]

Bases: object

barplot(data: DataFrame, x: str, y: str) → <module 'PIL.Image' from '/usr/lib/python3/dist-packages/PIL/Image.py'>[source]

Método barplot: Gera um gráfico de barras do tipo imagem PIL.

Parâmetros:

data: Dataframe.

x: str.

y: str.

Descrição dos parâmetros:

data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.

x -> Argumento onde o usuário fornece a coluna do dataframe fornecido que ele deseja utilizar como eixo x.

y -> Argumento onde o usuário fornece a coluna do datafame fornecido que ele deseja utilizar como eixo y.

Exemplo de uso:

analise = Anaylzes()

df = ‘caminho_do_seu_dataframe’

grafico_barras = analise.barplot(data=df, x=’Coluna_1’, y=’Coluna_2’)

grafico_barras.show()

boxplot(data: DataFrame, column: str, x_label: str) → <module 'PIL.Image' from '/usr/lib/python3/dist-packages/PIL/Image.py'>[source]

Método boxplot: Gera um gráfico de caixa do tipo imagem PIL.

Parâmetros:

data: Dataframe.

column: str.

x_label: str.

Descrição dos parâmetros:

data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.

column -> Argumento onde o usuário fornece a coluna que ele deseja fazer a análise de outliers.

Exemplo de uso:

analise = Anaylzes()

df = ‘caminho_do_seu_dataframe’

grafico_caixa = analise.boxplot(data=df, column=’Coluna_3’, x_label=’Outliers da coluna 3’)

grafico_caixa.show()

correlacao(data: DataFrame, colunas: list = []) → list[source]

Método correlacao: Gera uma tabela de correlação entre as colunas.

Parâmetros:

data: Dataframe.

colunas: list.

Descrição dos parâmetros:

data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.

colunas -> Argumento onde o usuário fornece uma lista com as colunas que deseja utilizar para a correlação.

Exemplo de uso:

analise = Anaylzes()

df = ‘caminho_do_seu_dataframe’

graifico_correlacao = analise.correlacao(data=df, colunas=[‘Coluna_3’, ‘Coluna_20’, ‘Coluna_13’])

print(grafico_correlacao)

NOTA:

O argumento de colunas NÃO É OBRIGATÓRIO

dispersao_plot(data1: DataFrame, data2: DataFrame, x_label: str, y_label: str, coluna_referencia: str, titulo: str) → <module 'PIL.Image' from '/usr/lib/python3/dist-packages/PIL/Image.py'>[source]

Método dispersao_plot: Gera um gráfico de dispersão do tipo imagem PIL.

Parâmetros:

data1: Dataframe.

data2: Dataframe.

coluna_referencia: str.

x_label: str.

y_label: str.

titulo: str

Descrição dos parâmetros:

data1 -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.

data2 -> Argumento onde o usuário fornece o segundo conjunto de dados em formato de dataframe.

x_label -> Argumento onde o usuário fornece a legenda que deseja exibir no eixo x.

y_label -> Argumento onde o usuário fornece a legenda que deseja exibir no eixo y.

coluna_referencia -> Argumento onde o usuário fornece o nome da coluna em comum que se encontra nos dois dataframes e que será comparada.

titulo -> Argumento onde o usuário fornece o título que dejesa para o seu gráfico.

Exemplo de uso:

analise = Anaylzes()

df1 = ‘caminho_do_seu_dataframe1’

df2 = ‘caminho_do_seu_dataframe2’

grafico_dispersao = analise.dispersao_plot(data1=df1, data2=df2, x_label=’Legenda do eixo x’, y_label= ‘Legenda do eixo y’, coluna_referencia=’Coluna’, titulo: ‘Esse é o título do meu gráfico’)

grafico_dispersao.show()

NOTA:

certifique-se que a coluna de referência nos dois dataframes estejam com o mesmo nome.

Exemplo:

O usuário possui dois dataframes, um dataframe de vendas de um produto, e um dataframe de lucro obtido com esse produto.

Caso queira comparar a dispersão entre os dois dataframes, utilize uma coluna em comum entre as duas, ex: Produto4

grafico_de_barras_e_linha(dataBarra: DataFrame, dataLinha: DataFrame, coluna_em_comum: str, coluna_barra: str, coluna_linha, x_label: str, y_label_barra: str, y_label_linha: str, title: str) → <module 'PIL.Image' from '/usr/lib/python3/dist-packages/PIL/Image.py'>[source]

Método grafico_de_barras_e_linhas: Gera um gráfico de barras com linha do tipo imagem PIL.

Parâmetros:

dataBarra: Dataframe.

dataLinha: Dataframe.

coluna_em_comum: str.

coluna_barra: str.

coluna_linha: str.

x_label: str.

y_label_barra: str.

y_label_linha: str.

title: str.

Descrição dos parâmetros:

dataBarra -> Argumento onde o usuário fornece o conjunto de dados desejado para ser representado em barra, no formato Dataframe.

dataLinha -> Argumento onde o usuário fornece o conjunto de dados desejado para ser representado em linha, no formato Dataframe.

coluna_em_comum -> Argumento onde o usuário fornece a coluna do dataframe em que vai ser comparada pelos dois.

coluna_barra -> Argumento onde o usuário fornece a coluna do dataframe em que vai ser usada para a barra.

coluna_linha -> Argumento onde o usuário fornece a coluna do dataframe em que vai ser usada para a linha.

x_label -> Argumento onde o usuário coloca a legenda do eixo x.

y_label_barra -> Argumento onde o usuário coloca a legenda do eixo y da barra.

y_label_linha -> Argumento onde o usuário coloca a legenda do eixo y da linha.

title -> Argumento onde o ususário coloca o título dog gráfico.

Exemplo de uso:

analise = Anaylzes()

df1 = ‘caminho_do_seu_dataframe’

df2 = ‘caminho_do_seu_segundo_dataframe’

grafico_barras_e_linha = analise.grafico_de_barras_e_linha(dataBarra=df1, dataLinha= df2, coluna_em_comum=’Pets’, coluna_barra=’Pets_Vendas’, coluna_linha=’Pets_inflação’, x_label=’Pets’, y_label_barra= ‘Vendas de itens de pets’, y_label_linha=’Inflação sobre os produtos’, title=’Relação vendas de itens de pets com inflação sobre os produtos’)

grafico_barras_e_linha.show()

lineplot(data: DataFrame, x: str, y: str) → <module 'PIL.Image' from '/usr/lib/python3/dist-packages/PIL/Image.py'>[source]

Método lineplot: Gera um gráfico de linha do tipo imagem PIL.

Parâmetros:

data: Dataframe.

x: str.

y: str.

Descrição dos parâmetros:

data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.

x -> Argumento onde o usuário fornece a coluna do dataframe fornecido que ele deseja utilizar como eixo x.

y -> Argumento onde o usuário fornece a coluna do datafame fornecido que ele deseja utilizar como eixo y.

Exemplo de uso:

analise = Anaylzes()

df = ‘caminho_do_seu_dataframe’

grafico_linha = analise.lineplot(data=df, x=’Coluna_1’, y=’Coluna_2’)

grafico_linha.show()

matriz_corr(data: DataFrame, colunas: list = []) → <module 'PIL.Image' from '/usr/lib/python3/dist-packages/PIL/Image.py'>[source]

Método matriz_corr: Gera um gráfico de matriz de correlação do tipo imagem PIL.

Parâmetros:

data: Dataframe.

colunas: list.

Descrição dos parâmetros:

data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.

colunas -> Argumento onde o usuário fornece uma lista com as colunas que deseja utilizar para a correlação.

Exemplo de uso:

analise = Anaylzes()

df = ‘caminho_do_seu_dataframe’

grafico_matriz_corr = analise.matriz_corr(data=df, colunas=[‘Coluna_1’, ‘Coluna_7’, ‘Coluna_4’])

grafico_matriz_corr.show()

NOTA:

O argumento de colunas NÃO É OBRIGATÓRIO

pointplot(data: DataFrame, x: str, y: str, title: str, x_label: str, y_label: str, hue: str | None = None) → <module 'PIL.Image' from '/usr/lib/python3/dist-packages/PIL/Image.py'>[source]

Método pointplot: Gera um gráfico de linha com pontos do tipo imagem PIL.

Parâmetros:

data: Dataframe.

x: str.

y: str.

title: str.

x_label: str.

y_label: str.

hue: str.

Descrição dos parâmetros:

data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.

x -> Argumento onde o usuário fornece a coluna do dataframe fornecido que ele deseja utilizar como eixo x.

y -> Argumento onde o usuário fornece a coluna do datafame fornecido que ele deseja utilizar como eixo y.

title -> Argumento onde o usuário fornece o título do gráfico.

x_label -> Argumento onde o usuário fornece a legenda do eixo x.

y_label -> Argumento onde o usuário fornece a legenda do eixo y.

hue -> Argumento onde o usuário fornece a coluna do dataframe responsável por segregar os dados.

Exemplo de uso:

analise = Anaylzes()

df = ‘caminho_do_seu_dataframe’

grafico_pontos = analise.pointplot(data=df, x=’Coluna_1’, y=’Coluna_2’, title=’Titulo do gráfico’, x_label=’Legenda do eixo x’, y_label=’Legenda do eixo y’, hue=’Coluna_5’)

grafico_pontos.show()

NOTA:

Nesse exemplo de uso, repare que o hue é a coluna 5 do dataframe, imagine que esse dataframe em questão na coluna 5 tenha informações de classificação.

E esse dataframe está com as seguintes classificações: Pequeno, Médio e Grande.

Quando o gráfico for plotado, irá ter 3 linhas, uma para cada classificação.

O argumento hue NÃO É OBRIGATÓRIO

src.processamentodados module

class src.processamentodados.DataProcess(data: str)[source]

Bases: object

Classe responsável para o processamento de dados

sheet_select(sheet: str) → DataFrame[source]

Retorna a aba selecionada da planilha em formato de DataFrame.

Parâmetros:

sheet: str

Descrição dos parâmetros:

sheet -> Argumento onde o usuário vai passar o nome da aba que ele deseja trabalhar

Exemplo de uso:

df = ‘seu_excel.xlsx’

processamento = DataProcess(data=df)

aba_selecionada = processamento.sheet_select(sheet=’nome_da_aba’)

sheets() → list[source]

Retorna uma lista com os nomes de todas as abas da planilha.

Exemplo de uso:

CASO QUEIRA PASSAR UM EXCEL df_excel = ‘caminho_do_excel.xlsx’

processamento = DataProcess(data=df_excel)

lista_de_abas_da_planilha = processamento.sheets()

CASO QUEIRA PASSAR UM CSV df_csv = ‘caminho_do_csv.csv’

processamento_csv = DataProcess(data=df_csv)

lista_de_abas_do_csv = processamento.sheets()

src.tratamento module

class src.tratamento.Treatment[source]

Bases: object

add_column_day(data: DataFrame, column: str) → DataFrame[source]

Método add_column_day: Adiciona uma coluna de dia baseado na coluna de datas de um dataframe temporal.

Parâmetros:

data: Dataframe.

column: str.

Descrição dos parâmetros:

data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.

column -> Coluna de referência (DATA) para que a coluna de ano seja criada baseada nela.

Exemplo de uso:

tratamento = Treatment()

df = ‘seu_dataframe’

df_com_coluna_de_ano = tratamento.add_column_day(data=df, column=’DATA’)

add_column_month(data: DataFrame, column: str) → DataFrame[source]

Método add_column_month: Adiciona uma coluna de mês baseado na coluna de datas de um dataframe temporal.

Parâmetros:

data: Dataframe.

column: str.

Descrição dos parâmetros:

data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.

column -> Coluna de referência (DATA) para que a coluna de ano seja criada baseada nela.

Exemplo de uso:

tratamento = Treatment()

df = ‘seu_dataframe’

df_com_coluna_de_mes = tratamento.add_column_month(data=df, column=’DATA’)

add_column_year(data: DataFrame, column: str) → DataFrame[source]

Método add_column_year: Adiciona uma coluna de ano baseado na coluna de datas de um dataframe temporal.

Parâmetros:

data: Dataframe.

column: str.

Descrição dos parâmetros:

data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.

column -> Coluna de referência (DATA) para que a coluna de ano seja criada baseada nela.

Exemplo de uso:

tratamento = Treatment()

df = ‘seu_dataframe’

df_com_coluna_de_ano = tratamento.add_column_year(data=df, column=’DATA’)

change_data_type(data: DataFrame, column: str, type: str) → DataFrame[source]

Método change_data_type: Método para alterar o tipo de dados de uma coluna.

Parâmetros:

data: Dataframe.

column: str.

type: str.

Descrição dos parâmetros:

data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.

column -> Argumento onde o usuário fornece a coluna a ser alterada o tipo de dados.

type -> Argumento onde o usuário fornece para qual tipo de dados deseja alterar.

Exemplo de uso:

tratamento = Treatment()

df = ‘seu_dataframe’

CASO QUEIRA ALTERAR PARA DATETIME

df_com_coluna_alterada_para_datetime = tratamento.change_data_type(data=df, column=’DATA’, type=’datetime’)

NOTA:

Nessa versão só está disponível a mudança para datetime

check_column_with_null_values(data: DataFrame) → list[str][source]

Método check_column_with_null_values: Método responsável por informar uma lista com todas as colunas que possuem valores vazios.

Parâmetros:

data: Dataframe.

Descrição dos parâmetros:

data -> Argumento onde o usuário fornece o dataframe.

Exemplo de uso:

tratamento = Treatment()

df = ‘meu_dataframe’

lista_das_colunas_com_valores_nulos = tratamento.check_column_with_null_values(data=df)

column_range(data: DataFrame, start_column: str, end_column: str) → DataFrame[source]

Método column_range: Filtra seu dataframe de acordo com um intervalo de colunas.

Parâmetros:

data: Dataframe.

start_column: str.

end_column = str.

Descrição dos parâmetros:

data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.

start_column -> Argumento onde o usuário fornece a coluna inicial da filtragem.

end_column -> argumento onde o usuário fornece a coluna final da filtragem.

Exemplo de uso:

tratamento = Treatment()

df = ‘seu_dataframe’

df_filtrado_por_intervalo_de_colunas = tratamento.column_range(data=df, start_column=’Coluna_5’, end_column=’coluna_10’)

convert_dataframe_to_json(data: DataFrame, json_path: str) → <module 'json' from '/usr/lib/python3.10/json/__init__.py'>[source]

Método convert_dataframe_to_json: Método responsável por converter um dataframe em um arquivo json.

Parâmetros:

data: Dataframe.

json_path: str.

Descrição dos parâmetros:

data -> Argumento onde o usuário fornece o dataframe.

json_path -> Argumento onde o usuário fornece o caminho de qual arquivo json ele deve ser salvo.

Exemplo de uso:

tratamento = Treatment()

df = ‘meu_data_frame’

json = ‘meu_json.json’

df_que_era_json = tratamento.convert_dataframe_to_json(data=df, json_path: json)

NOTA:

Crie um arquivo json que esteja vazio, e passe para a função para que seu dataframe seja salvo nesse arquivo .json criado.

convert_json_to_dataframe(json_file: <module 'json' from '/usr/lib/python3.10/json/__init__.py'>) → DataFrame[source]

Método convert_json_to_dataframe: Método responsável por converter um arquivo json para o formato dataframe.

Parâmetros:

json_file: str

Descrição dos parâmetros:

json_file -> Argumento onde o usuário fornece o caminho do arquivo .json.

Exemplo de uso:

tratamento = Treatment()

json = ‘meu_json.json’

df_que_era_json = tratamento.convert_json_to_dataframe(json_file=json)

dataframe_for_a_row(data: DataFrame, index: int) → DataFrame[source]

Método dataframe_for_a_row: Método responsável por gerar um dataframe a partir de uma linha desse dataframe.

Parâmetros:

data: Dataframe.

index: int.

Descrição dos parâmetros:

data -> Argumento onde o usuário fornece o dataframe.

index -> Argumento onde o usuário fornece o índice da linha a ser usada como primeira linha do dataframe.

Exemplo de uso:

tratamento = Treatment()

df = ‘meu_dataframe’

df_a_partir_da_linha_5 = tratamento.dataframe_for_a_row(data=df, index=5)

date_range(data: DataFrame, start_date: str, end_date: str, data_column: str) → DataFrame[source]

Método date_range: Filtra seu dataframe de acordo com um intervalo de datas.

Parâmetros:

data: Dataframe.

start_date: str.

end_date = str.

data_column: str.

Descrição dos parâmetros:

data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.

start_date -> Argumento onde o usuário fornece a data inicial para a filtragem.

end_date -> Argumento onde o usuário fornece a data final para a filtragem.

data_column -> Coluna de referência das datas.

Exemplo de uso:

tratamento = Treatment()

df = ‘seu_dataframe’

df_filtrado_por_intervalo_de_datas = tratamento.date_range(data=df, start_date=’01/01/2020’, end_date=’07/03/2020’, data_column=’DATA’)

remove_column(data: DataFrame, column: str | None = None, index: int | None = None, last: str | None = None) → DataFrame[source]

Método remove_column: Método utilizado para remover uma coluna do dataframe.

Parâmetros:

data: Dataframe.

column: str.

index: int.

last: str.

Descrição dos parâmetros:

data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.

column -> Argumento onde o usuário fornece a coluna a ser removida. (OPCIONAL)

index -> Argumento onde o usuário fornece o índice da coluna a ser removido. (OPCIONAL)

last -> Argumento onde o usuário define se é a última coluna do cabeçalho ou não. (OPCIONAL)

Exemplo de uso:

tratamento = Treatment()

df = ‘seu_dataframe’

CASO QUEIRA REMOVER A COLUNA PELO NOME DELA

df_coluna_removida_pelo_nome = tratamento.remove_column(data=df, column=’Coluna_3’)

CASO QUEIRA REMOVER A COLUNA PELO ÍNDICE DELA

df_coluna_removida_pelo_indice = tratamento.remove_column(data=df, index=2)

CASO QUEIRA REMOVER A ÚLTIMA COLUNA

df_ultima_coluna_removida = tratamento.remove_column(data=df, last=’yes’)

remove_row(data: DataFrame, index: int) → DataFrame[source]

Método remove_row: Método responsável por remover uma linha do dataframe.

Parâmetros:

data: Dataframe.

index: int.

Descrição dos parâmetros:

data -> Argumento onde o usuário fornece o dataframe.

index -> Argumento onde o usuário fornece o índice da linha a ser removida do dataframe.

Exemplo de uso:

tratamento = Treatment()

df = ‘meu_dataframe’

df_sem_a_linha_10 = tratamento.remove_row(data=df, index=10)

replace_value_in_a_position(data: DataFrame, column: int, row: int, name: str) → DataFrame[source]

Método replace_value_in_a_position: Método responsável por trocar o valor de uma posição do dataframe.

Parâmetros:

data: Dataframe.

column: int

row: int

name: str

Descrição dos parâmetros:

data -> Argumento onde o usuário fornece o dataframe.

column -> Argumento onde o usuário fornece o número da coluna.

row -> Argumento onde o usuário fornece o número da linha.

name -> Valor a ser atribuido a essa coordenada.

Exemplo de uso:

tratamento = Treatment()

df = ‘meu_dataframe’

df_com_valor_substituido = tratamento.replace_value_in_a_position(data=Dataframe, column=3, row=2, name=’Agora eu sou um novo valor’)

treatment_of_missing_data(data: DataFrame, treatment: str) → DataFrame[source]

Método treatment_of_missing_data: Método de tratamento de dados faltantes.

Parâmetros:

data: Dataframe.

treatment: str.

Descrição dos parâmetros:

data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.

treatment -> Argumento onde o usuário fornece o tipo de tratamento que ele deseja (remove, average, zero)

Exemplo de uso:

tratamento = Treatment()

df = ‘seu_dataframe’

CASO QUEIRA REMOVER AS LINHAS QUE POSSUEM VALORES NULOS

df_com_dados_nulos_removidos = tratamento.treatment_of_missing_data(data=df, treatment=’remove’)

CASO QUEIRA PREENCHER OS VALORES NULOS COM A MÉDIA DOS VALORES DA COLUNA

df_com_a_media_preenchendo_os_valores_nulos = tratamento.treatment_of_missing_data(data=df, treatment=’average’)

CASO QUEIRA PREENCHER OS VALORES NULOS COM ZERO

df_com_valores_nulos_preenchidos_com_zero = tratamento.treatment_of_missing_data(data=df, treatment=’zero’)

turn_row_into_header(data: DataFrame, index: int) → DataFrame[source]

Método turn_row_into_header: Método responsável por transformar uma linha do dataframe em cabeçalho.

Parâmetros:

data: Dataframe.

index: int.

Descrição dos parâmetros:

data -> Argumento onde o usuário fornece o dataframe.

index -> Argumento onde o usuário fornece o índice da linha a ser promovida a cabeçalho.

Exemplo de uso:

tratamento = Treatment()

df = ‘meu_dataframe’

df_onde_a_linha_3_e_cabecalho = tratamento.turn_row_into_header(data=df, index=3)

year_range(data: DataFrame, start_year: int, end_year: int, year_column: str) → DataFrame[source]

Método year_range: Filtra seu dataframe de acordo com um intervalo de anos.

Parâmetros:

data: Dataframe.

start_year: str.

end_year = str.

year_column: str.

Descrição dos parâmetros:

data -> Argumento onde o usuário fornece um conjunto de dados em formato de dataframe.

start_year -> Argumento onde o usuário fornece o ano inicial para a filtragem.

end_year -> Argumento onde o usuário fornece o ano final para a filtragem.

year_column -> Coluna de referência dos anos.

Exemplo de uso:

tratamento = Treatment()

df = ‘seu_dataframe’

df_filtrado_por_intervalo_de_anos = tratamento.year_range(data=df, start_year=1998, end_year=2015, year_column=’ANO’)

src package

Submodules

src.analises module

src.processamentodados module

src.tratamento module

Module contents