Տվյալների նախնական մշակման խողովակաշարի կառուցում Python-ի և Pandas գրադարանի հետ
Տվյալների վերլուծության և մեքենայական ուսուցման ոլորտում տվյալների նախնական մշակումը կարևոր դեր է խաղում հետագա վերլուծության և մոդելի կառուցման համար չմշակված տվյալների պատրաստման գործում: Տվյալների նախնական մշակումը ներառում է մի շարք քայլեր, որոնք մաքրում, փոխակերպում և վերակառուցում են տվյալները՝ դրանք վերլուծության համար հարմար դարձնելու համար: Python-ն իր հզոր գրադարաններով և գործիքներով ապահովում է հիանալի էկոհամակարգ տվյալների նախնական մշակման ամուր խողովակաշարեր կառուցելու համար: Նման գրադարաններից մեկը Pandas-ն է՝ տվյալների մանիպուլյացիայի և վերլուծության հանրաճանաչ գրադարան, որն առաջարկում է կառուցվածքային տվյալների հետ աշխատելու գործառույթների և մեթոդների լայն շրջանակ:
Այս ձեռնարկում մենք կխորանանք Python-ի և Pandas գրադարանի միջոցով տվյալների նախնական մշակման խողովակաշար կառուցելու գործընթացի մեջ: Մենք կանդրադառնանք պանդաների կողմից առաջարկվող տարբեր էական տեխնիկաներին և գործառույթներին, որոնք մեզ հնարավորություն կտան կարգավորել բացակայող տվյալները, կատարել տվյալների փոխակերպում, կարգավորել կատեգորիկ փոփոխականները և նորմալացնել տվյալները: Այս ձեռնարկի ավարտին դուք լավ կհասկանաք, թե ինչպես կարելի է կառուցել տվյալների նախնական մշակման արդյունավետ խողովակաշար՝ օգտագործելով Python և Pandas:
Սկսել
Նախքան տվյալների նախնական մշակման խողովակաշարի կառուցմանը անցնելը, մենք պետք է համոզվենք, որ մենք տեղադրել ենք Պանդաներ: Պանդաները հեշտությամբ կարող են տեղադրվել pip-ի միջոցով՝ Python-ի փաթեթների կառավարիչ: Բացեք ձեր հրամանի տողի ինտերֆեյսը և գործարկեք հետևյալ հրամանը
Pip Install Pandas
Pandas-ի հաջող տեղադրումից հետո մենք կարող ենք սկսել տվյալների նախնական մշակման խողովակաշարի կառուցումը: Գործարկեք ձեր նախընտրած տեքստային խմբագրիչը կամ IDE-ն և հետևեք ստորև նշված քայլերին:
Պանդաների գրադարանի հետ տվյալների նախնական մշակման խողովակաշարի կառուցում
Ստորև ես կբաժանեմ ամբողջ գործընթացը մի քանի փուլերի, այնուհետև ես կներկայացնեմ օգտագործված կոդը, ինչը կօգնի խուսափել խառնաշփոթությունից և կօգնի ձեզ ավելի լավ հասկանալ ամբողջական գործընթացը:
Պանդաների գրադարանի հետ տվյալների նախնական մշակման հետ կապված քայլեր:
Քայլ 1. Բացակայող տվյալների մշակում
Տվյալների բացակայությունը սովորական երևույթ է տվյալների հավաքածուներում և կարող է էական ազդեցություն ունենալ մեր վերլուծության և մոդելների ճշգրտության վրա: Այս բաժնում մենք կուսումնասիրենք պանդաների կողմից առաջարկվող տարբեր մեթոդներ՝ բացակայող տվյալները կարգավորելու համար, ինչպիսիք են բացակայող արժեքների հայտնաբերումը, բաց թողնված արժեքների հեռացումը և բացակայող արժեքների վերագրումը տարբեր ռազմավարությունների միջոցով:
Քայլ 2. Տվյալների փոխակերպում
Տվյալների փոխակերպումը ներառում է տվյալների փոխակերպումը վերլուծության համար հարմար ձևաչափի: Պանդաները տրամադրում են տվյալների փոխակերպման բազմաթիվ մեթոդներ, ներառյալ տվյալների զտումը, տեսակավորումը, միաձուլումը և ձևափոխումը: Մենք կուսումնասիրենք այս տեխնիկան և կհասկանանք, թե ինչպես դրանք օգտագործել մեր տվյալների արդյունավետ նախնական մշակման համար:
Քայլ 3. Կարգավոր փոփոխականների կառավարում
Այս քայլում մենք կստեղծենք HTML ձևանմուշներ, որոնք կօգտագործվեն պատկերասրահի էջերը ցուցադրելու համար: Մենք կսահմանենք հիմնական ձևանմուշ, որը ծառայում է որպես բոլոր էջերի դասավորությունը և index.html ձևանմուշ, որը ցուցադրում է պատկերների պատկերասրահը: Մենք կօգտագործենք Django կաղապարի լեզուն՝ ձևանմուշները դինամիկ կերպով համալրելու դիտումներից վերցված պատկերի տվյալներով:
Քայլ 4. Տվյալների նորմալացում
Նորմալացումը կարևոր քայլ է տվյալների նախնական մշակման մեջ, որն ապահովում է բոլոր հատկանիշները նույն մասշտաբով: Այս քայլը հատկապես կարևոր է այն ալգորիթմների հետ աշխատելիս, որոնք զգայուն են մուտքագրման հատկանիշների մասշտաբի նկատմամբ: Pandas-ը տրամադրում է տվյալների նորմալացման մեթոդներ՝ օգտագործելով այնպիսի մեթոդներ, ինչպիսիք են Min-Max մասշտաբը և z-score նորմալացումը: Մենք կուսումնասիրենք այս տեխնիկան և կհասկանանք, թե ինչպես դրանք կիրառել մեր տվյալների վրա:
Ամբողջական կոդը
Օրինակ
Ստորև ներկայացված է Python-ի և Pandas գրադարանի հետ տվյալների նախնական մշակման խողովակաշար կառուցելու ամբողջական կոդը: Այս ծածկագիրը ներառում է նախորդ բաժնում քննարկված տարբեր քայլերն ու մեթոդները: Խնդրում ենք նկատի ունենալ, որ նախքան այս կոդը օգտագործելը ձեզ հարկավոր է տեղադրել Panda-ներ և ներմուծել այն ձեր Python միջավայր:
import pandas as pd
# Read the data from a CSV file
data = pd.read_csv('data.csv')
# Handling missing data
data.dropna() # Drop rows with missing values
data.fillna(0) # Fill missing values with 0
# Data transformation
filtered_data = data[data['column'] > 0] # Filter rows based on a condition
sorted_data = data.sort_values('column') # Sort data based on a column
merged_data = pd.concat([data1, data2]) # Merge multiple dataframes
reshaped_data = data.pivot(index='column1', columns='column2', values='column3') # Reshape data
# Handling categorical variables
encoded_data = pd.get_dummies(data, columns=['categorical_column']) # Perform one-hot encoding
data['categorical_column'] = data['categorical_column'].astype('category') # Convert column to categorical type
# Normalizing data
normalized_data = (data - data.min()) / (data.max() - data.min()) # Perform Min-Max scaling
normalized_data = (data - data.mean()) / data.std() # Perform z-score normalization
print("Filtered Data:")
print(filtered_data.head())
print("Sorted Data:")
print(sorted_data.head())
print("Merged Data:")
print(merged_data.head())
print("Reshaped Data:")
print(reshaped_data.head())
print("Encoded Data:")
print(encoded_data.head())
print("Normalized Data:")
print(normalized_data.head())
Նմուշի արդյունք
Filtered Data:
column1 column2 column3
0 1 5 9
2 3 7 11
Sorted Data:
column1 column2 column3
2 3 7 11
1 2 6 10
0 1 5 9
Merged Data:
column1 column2 column3
0 1 5 9
1 2 6 10
2 3 7 11
3 4 8 12
Reshaped Data:
column2 5 6 7
column1
1 9.0 NaN NaN
2 NaN 10.0 NaN
3 NaN NaN 11.0
Encoded Data:
column1 column3 categorical_column_category_A categorical_column_category_B
0 1 9 1 0
1 2 10 0 1
2 3 11 1 0
Normalized Data:
column1 column2 column3
0 0.0 -1.0 -1.0
1 0.5 0.0 0.0
2 1.0 1.0 1.0
Եզրակացություն
Հետևելով վերը նշված կոդին՝ դուք կկարողանաք կառուցել տվյալների նախնական մշակման ամուր խողովակաշար՝ օգտագործելով Python-ը և Pandas գրադարանը: Կոդը ցույց է տալիս, թե ինչպես կարդալ տվյալները CSV ֆայլից, կարգավորել բացակայող արժեքները, կատարել տվյալների փոխակերպում, կարգավորել դասակարգային փոփոխականները և նորմալացնել տվյալները: Դուք կարող եք հարմարեցնել այս կոդը ձեր հատուկ տվյալների բազայի և նախնական մշակման պահանջներին:
Այս ձեռնարկում մենք ուսումնասիրել ենք Python-ի և Pandas գրադարանի միջոցով տվյալների նախնական մշակման խողովակաշար կառուցելու գործընթացը: Մենք սկսեցինք տեղադրել Pandas-ը և քննարկեցինք դրա կարևորությունը տվյալների նախնական մշակման առաջադրանքներում: Այնուհետև մենք լուսաբանեցինք պանդաների կողմից տրամադրված տարբեր հիմնական տեխնիկան, ինչպիսիք են բացակայող տվյալների մշակումը, տվյալների փոխակերպումը, դասակարգային փոփոխականների մշակումը և տվյալների նորմալացումը: Յուրաքանչյուր քայլ ուղեկցվում էր կոդերի օրինակներով՝ իրականացումը լուսաբանելու համար:
Լավ նախագծված տվյալների նախնական մշակման խողովակաշարը չափազանց կարևոր է տվյալների վերլուծության և մեքենայական ուսուցման մեջ հուսալի և ճշգրիտ արդյունքներ ստանալու համար: Օգտագործելով Python-ի և Pandas գրադարանի հզորությունը՝ դուք կարող եք արդյունավետորեն նախապես մշակել ձեր տվյալները՝ ապահովելով դրանց որակը և համապատասխանությունը ներքևում գտնվող առաջադրանքների համար:
Կարևոր է նշել, որ տվյալների նախնական մշակումը միանգամյա գործընթաց չէ: Այս ձեռնարկում քննարկված տեխնիկան և մեթոդները հիմք են հանդիսանում, և դուք կարող եք դրանք հարմարեցնել ձեր հատուկ տվյալների բազայի և վերլուծության պահանջներին: Բացի այդ, Pandas-ն ապահովում է ֆունկցիոնալության լայն շրջանակ, որը գերազանցում է այն, ինչ մենք անդրադարձել ենք այստեղ՝ թույլ տալով ձեզ ավելի բարելավել ձեր տվյալների նախնական մշակման խողովակաշարը:
Մինչ դուք ավելի խորն եք խորանում տվյալների վերլուծության և մեքենայական ուսուցման նախագծերի մեջ, շարունակեք ուսումնասիրել Pandas-ը և դրա տարբեր առանձնահատկությունները: Pandas-ի փաստաթղթերը և առցանց ռեսուրսները տեղեկատվության և օրինակների արժեքավոր աղբյուրներ են, որոնք կարող են օգնել ձեզ ընդլայնել ձեր գիտելիքները և լուծել տվյալների նախնական մշակման ավելի բարդ առաջադրանքները: