Տվյալների նախնական մշակման խողովակաշարի կառուցում Python-ի և Pandas գրադարանի հետ


Տվյալների վերլուծության և մեքենայական ուսուցման ոլորտում տվյալների նախնական մշակումը կարևոր դեր է խաղում հետագա վերլուծության և մոդելի կառուցման համար չմշակված տվյալների պատրաստման գործում: Տվյալների նախնական մշակումը ներառում է մի շարք քայլեր, որոնք մաքրում, փոխակերպում և վերակառուցում են տվյալները՝ դրանք վերլուծության համար հարմար դարձնելու համար: Python-ն իր հզոր գրադարաններով և գործիքներով ապահովում է հիանալի էկոհամակարգ տվյալների նախնական մշակման ամուր խողովակաշարեր կառուցելու համար: Նման գրադարաններից մեկը Pandas-ն է՝ տվյալների մանիպուլյացիայի և վերլուծության հանրաճանաչ գրադարան, որն առաջարկում է կառուցվածքային տվյալների հետ աշխատելու գործառույթների և մեթոդների լայն շրջանակ:

Այս ձեռնարկում մենք կխորանանք Python-ի և Pandas գրադարանի միջոցով տվյալների նախնական մշակման խողովակաշար կառուցելու գործընթացի մեջ: Մենք կանդրադառնանք պանդաների կողմից առաջարկվող տարբեր էական տեխնիկաներին և գործառույթներին, որոնք մեզ հնարավորություն կտան կարգավորել բացակայող տվյալները, կատարել տվյալների փոխակերպում, կարգավորել կատեգորիկ փոփոխականները և նորմալացնել տվյալները: Այս ձեռնարկի ավարտին դուք լավ կհասկանաք, թե ինչպես կարելի է կառուցել տվյալների նախնական մշակման արդյունավետ խողովակաշար՝ օգտագործելով Python և Pandas:

Սկսել

Նախքան տվյալների նախնական մշակման խողովակաշարի կառուցմանը անցնելը, մենք պետք է համոզվենք, որ մենք տեղադրել ենք Պանդաներ: Պանդաները հեշտությամբ կարող են տեղադրվել pip-ի միջոցով՝ Python-ի փաթեթների կառավարիչ: Բացեք ձեր հրամանի տողի ինտերֆեյսը և գործարկեք հետևյալ հրամանը

Pip Install Pandas

Pandas-ի հաջող տեղադրումից հետո մենք կարող ենք սկսել տվյալների նախնական մշակման խողովակաշարի կառուցումը: Գործարկեք ձեր նախընտրած տեքստային խմբագրիչը կամ IDE-ն և հետևեք ստորև նշված քայլերին:

Պանդաների գրադարանի հետ տվյալների նախնական մշակման խողովակաշարի կառուցում

Ստորև ես կբաժանեմ ամբողջ գործընթացը մի քանի փուլերի, այնուհետև ես կներկայացնեմ օգտագործված կոդը, ինչը կօգնի խուսափել խառնաշփոթությունից և կօգնի ձեզ ավելի լավ հասկանալ ամբողջական գործընթացը:

Պանդաների գրադարանի հետ տվյալների նախնական մշակման հետ կապված քայլեր:

Քայլ 1. Բացակայող տվյալների մշակում

Տվյալների բացակայությունը սովորական երևույթ է տվյալների հավաքածուներում և կարող է էական ազդեցություն ունենալ մեր վերլուծության և մոդելների ճշգրտության վրա: Այս բաժնում մենք կուսումնասիրենք պանդաների կողմից առաջարկվող տարբեր մեթոդներ՝ բացակայող տվյալները կարգավորելու համար, ինչպիսիք են բացակայող արժեքների հայտնաբերումը, բաց թողնված արժեքների հեռացումը և բացակայող արժեքների վերագրումը տարբեր ռազմավարությունների միջոցով:

Քայլ 2. Տվյալների փոխակերպում

Տվյալների փոխակերպումը ներառում է տվյալների փոխակերպումը վերլուծության համար հարմար ձևաչափի: Պանդաները տրամադրում են տվյալների փոխակերպման բազմաթիվ մեթոդներ, ներառյալ տվյալների զտումը, տեսակավորումը, միաձուլումը և ձևափոխումը: Մենք կուսումնասիրենք այս տեխնիկան և կհասկանանք, թե ինչպես դրանք օգտագործել մեր տվյալների արդյունավետ նախնական մշակման համար:

Քայլ 3. Կարգավոր փոփոխականների կառավարում

Այս քայլում մենք կստեղծենք HTML ձևանմուշներ, որոնք կօգտագործվեն պատկերասրահի էջերը ցուցադրելու համար: Մենք կսահմանենք հիմնական ձևանմուշ, որը ծառայում է որպես բոլոր էջերի դասավորությունը և index.html ձևանմուշ, որը ցուցադրում է պատկերների պատկերասրահը: Մենք կօգտագործենք Django կաղապարի լեզուն՝ ձևանմուշները դինամիկ կերպով համալրելու դիտումներից վերցված պատկերի տվյալներով:

Քայլ 4. Տվյալների նորմալացում

Նորմալացումը կարևոր քայլ է տվյալների նախնական մշակման մեջ, որն ապահովում է բոլոր հատկանիշները նույն մասշտաբով: Այս քայլը հատկապես կարևոր է այն ալգորիթմների հետ աշխատելիս, որոնք զգայուն են մուտքագրման հատկանիշների մասշտաբի նկատմամբ: Pandas-ը տրամադրում է տվյալների նորմալացման մեթոդներ՝ օգտագործելով այնպիսի մեթոդներ, ինչպիսիք են Min-Max մասշտաբը և z-score նորմալացումը: Մենք կուսումնասիրենք այս տեխնիկան և կհասկանանք, թե ինչպես դրանք կիրառել մեր տվյալների վրա:

Ամբողջական կոդը

Օրինակ

Ստորև ներկայացված է Python-ի և Pandas գրադարանի հետ տվյալների նախնական մշակման խողովակաշար կառուցելու ամբողջական կոդը: Այս ծածկագիրը ներառում է նախորդ բաժնում քննարկված տարբեր քայլերն ու մեթոդները: Խնդրում ենք նկատի ունենալ, որ նախքան այս կոդը օգտագործելը ձեզ հարկավոր է տեղադրել Panda-ներ և ներմուծել այն ձեր Python միջավայր:

import pandas as pd
# Read the data from a CSV file
data = pd.read_csv('data.csv')

# Handling missing data
data.dropna()  # Drop rows with missing values
data.fillna(0)  # Fill missing values with 0

# Data transformation
filtered_data = data[data['column'] > 0]  # Filter rows based on a condition
sorted_data = data.sort_values('column')  # Sort data based on a column
merged_data = pd.concat([data1, data2])  # Merge multiple dataframes
reshaped_data = data.pivot(index='column1', columns='column2', values='column3')  # Reshape data

# Handling categorical variables
encoded_data = pd.get_dummies(data, columns=['categorical_column'])  # Perform one-hot encoding
data['categorical_column'] = data['categorical_column'].astype('category')  # Convert column to categorical type

# Normalizing data
normalized_data = (data - data.min()) / (data.max() - data.min())  # Perform Min-Max scaling
normalized_data = (data - data.mean()) / data.std()  # Perform z-score normalization

print("Filtered Data:")
print(filtered_data.head())

print("Sorted Data:")
print(sorted_data.head())

print("Merged Data:")
print(merged_data.head())

print("Reshaped Data:")
print(reshaped_data.head())

print("Encoded Data:")
print(encoded_data.head())
print("Normalized Data:")
print(normalized_data.head())

Նմուշի արդյունք

Filtered Data:
   column1  column2  column3
0        1        5        9
2         3        7       11

Sorted Data:
   column1  column2  column3
2         3        7       11
1         2        6       10
0         1        5        9

Merged Data:
   column1  column2  column3
0        1        5        9
1        2        6       10
2        3        7       11
3        4        8       12

Reshaped Data:
column2    5     6     7
column1                  
1        9.0   NaN   NaN
2        NaN  10.0   NaN
3        NaN   NaN  11.0

Encoded Data:
   column1  column3  categorical_column_category_A  categorical_column_category_B
0        1        9                              1                              0
1        2       10                              0                              1
2        3       11                              1                              0

Normalized Data:
   column1  column2  column3
0      0.0     -1.0     -1.0
1      0.5      0.0      0.0
2      1.0      1.0      1.0

Եզրակացություն

Հետևելով վերը նշված կոդին՝ դուք կկարողանաք կառուցել տվյալների նախնական մշակման ամուր խողովակաշար՝ օգտագործելով Python-ը և Pandas գրադարանը: Կոդը ցույց է տալիս, թե ինչպես կարդալ տվյալները CSV ֆայլից, կարգավորել բացակայող արժեքները, կատարել տվյալների փոխակերպում, կարգավորել դասակարգային փոփոխականները և նորմալացնել տվյալները: Դուք կարող եք հարմարեցնել այս կոդը ձեր հատուկ տվյալների բազայի և նախնական մշակման պահանջներին:

Այս ձեռնարկում մենք ուսումնասիրել ենք Python-ի և Pandas գրադարանի միջոցով տվյալների նախնական մշակման խողովակաշար կառուցելու գործընթացը: Մենք սկսեցինք տեղադրել Pandas-ը և քննարկեցինք դրա կարևորությունը տվյալների նախնական մշակման առաջադրանքներում: Այնուհետև մենք լուսաբանեցինք պանդաների կողմից տրամադրված տարբեր հիմնական տեխնիկան, ինչպիսիք են բացակայող տվյալների մշակումը, տվյալների փոխակերպումը, դասակարգային փոփոխականների մշակումը և տվյալների նորմալացումը: Յուրաքանչյուր քայլ ուղեկցվում էր կոդերի օրինակներով՝ իրականացումը լուսաբանելու համար:

Լավ նախագծված տվյալների նախնական մշակման խողովակաշարը չափազանց կարևոր է տվյալների վերլուծության և մեքենայական ուսուցման մեջ հուսալի և ճշգրիտ արդյունքներ ստանալու համար: Օգտագործելով Python-ի և Pandas գրադարանի հզորությունը՝ դուք կարող եք արդյունավետորեն նախապես մշակել ձեր տվյալները՝ ապահովելով դրանց որակը և համապատասխանությունը ներքևում գտնվող առաջադրանքների համար:

Կարևոր է նշել, որ տվյալների նախնական մշակումը միանգամյա գործընթաց չէ: Այս ձեռնարկում քննարկված տեխնիկան և մեթոդները հիմք են հանդիսանում, և դուք կարող եք դրանք հարմարեցնել ձեր հատուկ տվյալների բազայի և վերլուծության պահանջներին: Բացի այդ, Pandas-ն ապահովում է ֆունկցիոնալության լայն շրջանակ, որը գերազանցում է այն, ինչ մենք անդրադարձել ենք այստեղ՝ թույլ տալով ձեզ ավելի բարելավել ձեր տվյալների նախնական մշակման խողովակաշարը:

Մինչ դուք ավելի խորն եք խորանում տվյալների վերլուծության և մեքենայական ուսուցման նախագծերի մեջ, շարունակեք ուսումնասիրել Pandas-ը և դրա տարբեր առանձնահատկությունները: Pandas-ի փաստաթղթերը և առցանց ռեսուրսները տեղեկատվության և օրինակների արժեքավոր աղբյուրներ են, որոնք կարող են օգնել ձեզ ընդլայնել ձեր գիտելիքները և լուծել տվյալների նախնական մշակման ավելի բարդ առաջադրանքները: