분류 전체보기 224

파이썬 라이브러리17 pandas 데이터프레임: drop()/rename()/인덱스 바꾸기

데이터 삭제하기 행과 열 삭제하기 변수.drop('인덱스' or '컬럼' , axis = 0 or 1) 1)행 삭제 저데이터 에서 store2를 삭제한다고 하면 df = df.drop('store 2' , axis=0) 2)열삭제 df.drop(['glasses'], axis = 1) 당연히 복수 삭제도 가능하다 인덱스나 칼럼명 바꾸기 변수.rename( index or columns = { '기존이름' : '바꿀이름'} ) 인덱스명 바꾸기 먼저 바꿀 인덱스명의 칼럼을 만든후 set을 통해 인덱스에 inplace (위치 시키기) 두가지의 방법이 있음 df['name'] = ['A','B','C'] 으로 새로운 컬럼을 만들고 df = df.set_index('name') df.set_index('name'..

파이썬 라이브러리16 pandas 데이터프레임: 데이터 변경/ 새로운 컬럼추가

액세스한 데이터로 데이터값 변경 액세스한 값을 그대로 바꿔줄 값만 넣어 주면 쉽게 데이터 변경이 가능하다 1) 특정 위치값 추가 df['watches'] = 20 loc로 표현하면 df.loc['store 2' , 'watches'] = 20 둘다 같은 위치 값을 나타내고 있음 2)새로운 컬럼 추가 추가하고 싶은 칼럼을 액세스 하듯이 불러오면 추가가 가능하다 변수['추가할컬럼'] = [데이터] df['suits'] = df['pants'] + df['shirts'] 이런식으로 다른데이터를 이용해서 추가도 가능 새로운 행주가 새로운 딕셔너리를 만들고 기존 데이터프레임이 들어있는 변수에 append로 추가 하기 new_item = [{'bikes' : 20, 'pants':30, 'watches':35, '..

파이썬 라이브러리14 pandas 데이터프레임: 2차원 데이터 액세스 .loc[,] /.lioc[,] /액세스를 통한 데이터 추가

데이터프레임 액세스 하는방법 items2 = [{'bikes': 20, 'pants': 30, 'watches': 35}, {'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5}] df = pd.DataFrame(data = items2, index= ['store 1' , 'store 2']) 1) 컬럼 데이터를 가져오는 방법 대괄호로 액세스 [ ] 안에는 컬럼명을 적고 여러개의 컬럼을 가져올땐 리스트로 만들어서 가져오면됨 2)행과 열의 정보로 데이터 가져오는 방법 특정 행에 이 데이터를 가지고 오고 싶다면 변수.loc[ '인덱스명' , '컬럼명' ] 3) 행과 열로 데이터를 가져오는 방법 loc와 작동 원리는 같지만 iloc는 '컴퓨터가 인식하는 숫자' 인덱..

파이썬 라이브러리13 pandas 2차원: DataFrame만들기/ pd.read_csv 불러오기 / csv 불러오기중 주의사항

DataFrame 판다스 2차원 데이터 처리는 데이터 프레임으로 처리한다. pd.DataFrame(data= 데이터들어있는 변수) 파라미터 안에 데이터가 저장된 변수를 넣으면 import pandas as pd # We create a dictionary of Pandas Series items = {'Bob' : pd.Series(data = [245, 25, 55], index = ['bike', 'pants', 'watch']), 'Alice' : pd.Series(data = [40, 110, 500, 45], index = ['book', 'glasses', 'bike', 'pants' 여기서 맨왼쪽은 인덱스 맨위쪽은 컬럼 데이터는 value를 의미 type을 알고싶을땐 . info를 사용한다 ..

파이썬 라이브러리12 pandas 1차원 : pandas Seires/액세스/연산

기본 Allows the use of labels for rows and columns 기본적인 통계데이터 제공 NaN values 를 알아서 처리함. 숫자 문자열을 알아서 로드함. 데이터셋들을 merge 할 수 있음. It integrates with NumPy and Matplotlib import pandas as pd 판다스를 import 하고 앞으로 모든 판다스 함수는 pd로 표현 pandas 데이터 판다스의 1차원 데이터를 의미 pd.Series(data = 변수 ) Seires에서 사용하는 data란 파라미터를 의미하며 이 Seires 함수 안에서 사용 ※변수를 의미는것이 아님 판다스에서 인덱스란 행 제일 왼쪽에 붙는 글자로 데이터 관리를 쉽게 볼 수있게 해줌 ※일반적으로 사용했던 컴퓨터가 ..

파이썬(라이브러리11) 넘파이 boolean/연산/브로드캐스트

boolean 1)기본 X > 70 array([[False, False, False, False, True], [ True, False, False, False, False], [False, False, False, False, False], [False, False, False, True, True]]) 이런식으로 False 와 True로 인식 2) 갯수 세기 True와 False 는 1과 0으로 컴퓨터는 인식하므로 (X >70).sum() 4 이렇게 트루인 데이터를 더하므로써 갯수를 셀수 있게 되는것 3)그 데이터만 추출 액세스를 위해 [ ] 대괄호를 통해 X[ X> 70 ] array([80, 91, 87, 84]) 두개의 데이터를 비교 억세스 1)두가지의 조건모두 충족 & 2)두자기중 한가지만 ..

파이썬(라이브러리10) 넘파이 인덱스: 데이터 액세스/copy

액새스 일차원에선 리스트랑 똑같이 작동 다차원에선 넘파이변수[ 행 , 열 ] X[1,2] 58 슬라이싱 역시나 1차원에선 리스트와 똑같이 동작 2차원에선 연속된 수 가저올때 넘파이변수[ 행 , 열 ] x[ 0 : 2+1 , 0 : 1+1 ] 행(0,1,2) 열(0,1) 연속되지 않는 열을 가저올때 넘파이변수[ [가저올부분] , [가저올부분] ] X[[0,2] , 2 : -1+1 ] array([[49, 42, 80], [16, 37, 66]]) 슬라이싱 주의 사항 / 카피 슬라이싱 한 부분을 변수로 저장하여 데이터 변경을하면 기존에 슬라이싱하려고 가져왔던 데이터 내용도 바뀌게 된다. 이때 데이터 활용을 하고 싶으면 변수 = 슬라이싱.copy() 액세스 넘파이변수[ 행 , 열 ] 슬라이싱 넘파이변수[ 행 ..

파이썬(라이브러리9) 넘파이 응용2: 함수 모음 (max,min,sum,median ,unique)

데이터 분석 함수 넘파이로 만든 데이터를 변수에 넣은후 손쉽게 데이터 분석하는 함수 1)데이터분석 함수 np.random.randint(1,100,(4,5)) array([[97, 24, 25, 54, 55], [64, 51, 94, 73, 70], [67, 34, 54, 94, 56], [45, 61, 86, 79, 30]]) 이데이터를 X에 넣은후 함수)최대값 X.max() 91 함수)최소값 X.min() 2 함수)합계 X.sum() 924 X.mean() 46.2 함수)표준편차 X.std() 26.173650872585583 함수)중앙값 np.median(X) 43.0 이때 변수에다가 직접할경우 2차원이기때문에 중앙값을 인식을 못해서 함수에다가 직접 해야한다. 2) 행별로 열별로 데이터 행 .mea..