Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.


21.09.2018

Kolor razy 6

Kyocera ECOSYS i TASKalfa
18.09.2018

Na ataki piątej generacji

Check Point 23900
14.09.2018

UHD dla pro

Samsung UJ59
11.09.2018

Ochrona dla firm

ESET Security Management Center
07.09.2018

Skanowanie podatności

Beyond Security AVDS
04.09.2018

Open source do automatyzacji...

Red Hat Ansible Engine 2.6
28.08.2018

CPU dla stacji roboczych

Intel Xeon E-2100
24.08.2018

Macierze do DC

Infortrend EonStor GS 5000
21.08.2018

Elastyczne PoE

Netgear GS11xxx

Jak zostać mistrzem danych

Data publikacji: 19-02-2018 Autor: Grzegorz Kubera

Python, wizualizacja danych, możliwości biblioteki Pandas, wykorzystywanej do szybkich analiz, a także do przygotowywania i oczyszczania danych. Przedstawiamy możliwości kolejnego narzędzia wspomagającego pracę osób pracujących jako data scientist.

Pandas to biblioteki opracowane dla Pythona i wykorzystywane do manipulacji i analizy danych. Wzbogacają możliwości Pythona przede wszystkim o struktury danych i operacje służące do wykonywania różnych czynności z danymi. Pandas to zarazem bezpłatne oprogramowanie na licencji BSD, którego nazwa wywodzi się nie od „pandy”, lecz od słów „panel data”, czyli danych panelowych (termin wykorzystywany w ekonometrii dla zestawów danych, które obejmują zarówno szeregi czasowe, jak i przekroje danych).


Biblioteki Pandas mają u swoich podstaw NumPy, podstawowy zestaw narzędzi dla języka Python, które poznaliśmy w poprzednich częściach kursu. W świecie programistów Pandas biblioteki NumPy niemal powszechnie nazywane są „Excelem z Pythona” – są często wykorzystywane oraz cechują je szybka praca i wbudowane funkcje do wizualizacji danych (czym zajmiemy się w dalszych częściach cyklu). Pandas mogą ponadto pracować z danymi pochodzącymi z różnych źródeł. Wszystko to sprawia, że to przydatne biblioteki, z których korzysta większość specjalistów ds. danych.

> PODSTAWY Z PANDAS SERIES

Zaczynamy od instalacji bibliotek. W tym celu uruchamiamy z menu Start w Windows wiersz poleceń Anaconda Prompt i wpisujemy komendę:

conda install pandas

Instalujemy pakiet danych, wpisując literę y (skrót od yes) i zatwierdzamy wybór klawiszem Enter. Następnie uruchamiamy notatnik Jupyter, wpisując:

jupyter notebook


otwieramy notatnik w Pythonie 3 i wpisujemy komendę:

import numpy as np
import pandas as pd

Mamy już zaimportowane biblioteki NumPy i Pandas. Możemy przejść do nauki. Zaczynamy od poznania szeregów czasowych z Pandas – Series – które są zbliżone do obiektów array z NumPy, a w praktyce są nawet oparte na obiektach array. Różnica sprowadza się do tego, że obiektom Series można dodawać etykiety i później indeksować je również po etykietach.

Na początek stworzymy kilka obiektów Series. Najpierw tworzymy listę o nazwie etykiety, wpisując komendę:

etykiety = ['a','b','c']


a następnie kolejną listę, tym razem o nazwie moje_dane:


moje_dane = [10,20,30]


Dalej przygotowujemy obiekt array z NumPy:


arr = np.array(moje_dane)


I dodajemy jeszcze słownik (litera od angielskiego słowa dictionary):


d = {'a':10,'b':20,'c':30}

W ten sposób stworzyliśmy cztery oddzielne obiekty w Pythonie. Teraz, mając te dane, możemy stworzyć obiekt Series - szereg czasowy. W tym celu wprowadzamy komendę:

pd.Series(data=moje_dane)

Uzyskujemy wynik:

0 10
1 20
2 30
dtype: int64

Komenda sprawia, że szereg czasowy uwzględnia dane z listy moje_dane. Warto zwrócić uwagę, że wynik wygląda podobnie jak obiekt array, z tą różnicą, że po lewej stronie znajdują się etykiety indeksu – domyślnie są to 0, 1, 2 (rys. 1). Teraz możemy zmienić domyślny wygląd indeksu, przypisując do niego konkretną listę – obiekt z Pythona. W tym celu wpisujemy komendę:


pd.Series(data=moje_dane,index=etykiety)


Wynik to:

a 10
b 20
c 30
dtype: int64

Od tej pory indeks ma opisane etykiety – a, b, c, czyli takie, jakie stworzyliśmy w liście o nazwie etykiety. Warto w tym miejscu zauważyć, że można później wywoływać konkretne dane, posługując się właśnie etykietami z indeksu. W przyszłości, gdy będziemy tworzyć obiekty Series, nie trzeba będzie wpisywać komend data= oraz index=, ponieważ są one domyślnie rozpoznawane w Jupyterze.

[...]

Założyciel i dyr. generalny firmy doradczo-technologicznej, pełnił funkcję redaktora naczelnego w magazynach i serwisach informacyjnych z branży ICT. Dziennikarz z ponad 10-letnim doświadczeniem i autor książki nt. tworzenia start-upów.

Artykuł pochodzi z miesięcznika: IT Professional

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2013 Presscom / Miesięcznik "IT Professional"