Strona korzysta z plików cookies w celu realizacji usług i zgodnie z Polityką Plików Cookies.


22.06.2018

Monitor z USB-C

AOC I1601FWUX
19.06.2018

Konwertowalny mikrus

HP EliteBook x360 1030 G3
15.06.2018

Druga generacja

AMD Ryzen
12.06.2018

Przejście na SDI

SUSE OpenStack Cloud 8
08.06.2018

Chmurowy firewall

Barracuda WAF-as-a-Service
05.06.2018

Kopie środowisk hybrydowych

NetVault Backup 12.0
01.06.2018

Zgodność z rodo

baramundi Management Suite 2018
28.05.2018

Dotyk dla monitorów

Nakładki interaktywne Sony
24.05.2018

Do obsługi konferencji

HP Elite Slice G2

Jak zostać mistrzem danych

Data publikacji: 19-02-2018 Autor: Grzegorz Kubera

Python, wizualizacja danych, możliwości biblioteki Pandas, wykorzystywanej do szybkich analiz, a także do przygotowywania i oczyszczania danych. Przedstawiamy możliwości kolejnego narzędzia wspomagającego pracę osób pracujących jako data scientist.

Pandas to biblioteki opracowane dla Pythona i wykorzystywane do manipulacji i analizy danych. Wzbogacają możliwości Pythona przede wszystkim o struktury danych i operacje służące do wykonywania różnych czynności z danymi. Pandas to zarazem bezpłatne oprogramowanie na licencji BSD, którego nazwa wywodzi się nie od „pandy”, lecz od słów „panel data”, czyli danych panelowych (termin wykorzystywany w ekonometrii dla zestawów danych, które obejmują zarówno szeregi czasowe, jak i przekroje danych).


Biblioteki Pandas mają u swoich podstaw NumPy, podstawowy zestaw narzędzi dla języka Python, które poznaliśmy w poprzednich częściach kursu. W świecie programistów Pandas biblioteki NumPy niemal powszechnie nazywane są „Excelem z Pythona” – są często wykorzystywane oraz cechują je szybka praca i wbudowane funkcje do wizualizacji danych (czym zajmiemy się w dalszych częściach cyklu). Pandas mogą ponadto pracować z danymi pochodzącymi z różnych źródeł. Wszystko to sprawia, że to przydatne biblioteki, z których korzysta większość specjalistów ds. danych.

> PODSTAWY Z PANDAS SERIES

Zaczynamy od instalacji bibliotek. W tym celu uruchamiamy z menu Start w Windows wiersz poleceń Anaconda Prompt i wpisujemy komendę:

conda install pandas

Instalujemy pakiet danych, wpisując literę y (skrót od yes) i zatwierdzamy wybór klawiszem Enter. Następnie uruchamiamy notatnik Jupyter, wpisując:

jupyter notebook


otwieramy notatnik w Pythonie 3 i wpisujemy komendę:

import numpy as np
import pandas as pd

Mamy już zaimportowane biblioteki NumPy i Pandas. Możemy przejść do nauki. Zaczynamy od poznania szeregów czasowych z Pandas – Series – które są zbliżone do obiektów array z NumPy, a w praktyce są nawet oparte na obiektach array. Różnica sprowadza się do tego, że obiektom Series można dodawać etykiety i później indeksować je również po etykietach.

Na początek stworzymy kilka obiektów Series. Najpierw tworzymy listę o nazwie etykiety, wpisując komendę:

etykiety = ['a','b','c']


a następnie kolejną listę, tym razem o nazwie moje_dane:


moje_dane = [10,20,30]


Dalej przygotowujemy obiekt array z NumPy:


arr = np.array(moje_dane)


I dodajemy jeszcze słownik (litera od angielskiego słowa dictionary):


d = {'a':10,'b':20,'c':30}

W ten sposób stworzyliśmy cztery oddzielne obiekty w Pythonie. Teraz, mając te dane, możemy stworzyć obiekt Series - szereg czasowy. W tym celu wprowadzamy komendę:

pd.Series(data=moje_dane)

Uzyskujemy wynik:

0 10
1 20
2 30
dtype: int64

Komenda sprawia, że szereg czasowy uwzględnia dane z listy moje_dane. Warto zwrócić uwagę, że wynik wygląda podobnie jak obiekt array, z tą różnicą, że po lewej stronie znajdują się etykiety indeksu – domyślnie są to 0, 1, 2 (rys. 1). Teraz możemy zmienić domyślny wygląd indeksu, przypisując do niego konkretną listę – obiekt z Pythona. W tym celu wpisujemy komendę:


pd.Series(data=moje_dane,index=etykiety)


Wynik to:

a 10
b 20
c 30
dtype: int64

Od tej pory indeks ma opisane etykiety – a, b, c, czyli takie, jakie stworzyliśmy w liście o nazwie etykiety. Warto w tym miejscu zauważyć, że można później wywoływać konkretne dane, posługując się właśnie etykietami z indeksu. W przyszłości, gdy będziemy tworzyć obiekty Series, nie trzeba będzie wpisywać komend data= oraz index=, ponieważ są one domyślnie rozpoznawane w Jupyterze.

[...]

Założyciel i dyr. generalny firmy doradczo-technologicznej, pełnił funkcję redaktora naczelnego w magazynach i serwisach informacyjnych z branży ICT. Dziennikarz z ponad 10-letnim doświadczeniem i autor książki nt. tworzenia start-upów.

Artykuł pochodzi z miesięcznika: IT Professional

Pełna treść artykułu jest dostępna w papierowym wydaniu pisma.

.

Transmisje online zapewnia: StreamOnline

All rights reserved © 2013 Presscom / Miesięcznik "IT Professional"