본문 바로가기

DATA/Python

(9)
[Python] strptime, strftime 차이점 1. strftime (datetime → str) datetime을 문자열로 변환하고 싶을 때 strftime 사용 날짜형에서 strftime을 사용하여 문자형으로 변환된 것을 알 수 있음 # 문자형으로 바뀐 날짜형 데이터 도출 '날짜형데이터'.strftime('날짜형식') 2. strptime (str → datetime) 문자열을 dateitme으로 변환하고 싶을 때 strptime 사용 문자형에서 strptime을 이용하여 날짜형으로 변환된 것을 알 수 있음 # 날짜형으로 바뀐 문자형 데이터 datetime.datetime.strptime('문자형데이터', '날짜형식')
[python] 데이터프레임 중복 행 제거 중복값을 넣어 데이터프레임을 만들어주었습니다. 📌 중복 값 확인 # df의 중복값 확인 df.duplicated() 결과값은 True / False로 도출되고 중복값에서 True로 표기가 됩니다. 📌 중복 행 제거 # 중복행 제거 df.duplicates() df.duplicates()에서 True로 나온 행이 삭제된 것을 확인할 수 있습니다. 📌 특정열에서 중복된 행 제거 df.drop_duplicates("특정열") season의 중복값이 제거되어 spring, summer, autumn winter만 남았습니다. # 참고로 저건 결과를 보여주기만 한 것이기 때문에 저대로 데이터프레임을 만들고 싶다면 선언을 해주어야합니다. df = df.drop_duplicates('season') 이런식으로요!!
[python] 데이터 프레임 열 이름 / 순서 바꾸기 데이터프레임을 불러왔을 때 열 이름 및 순서를 변경하는 방법 먼저 임의로 데이터 프레임을 만들었습니다. df = pd.DataFrame({ 'name':['봄','여름','가을','겨울'], 'score':[100,20,90,60], 'number':[1,2,3,4]}) 📌 열 순서 바꾸기 number, name, score 순으로 바꾸겠습니다. df = df[['number','name', 'score']] 📌 열 이름 바꾸기 name을 season으로 변경하겠습니다. df = df.rename(columns={'name':'season'})
[python] 데이터프레임 전체 출력 데이터프레임을 출력했을 때 양이 너무 많아서 잘려서 나왔을 때 📌 전체 행 출력, 전체 열 출력을 할 수 있는 옵션 # 전체 열 출력 pd.set_option('display.max_columns', None) # 전체 행 출력 pd.set_option('display.max_rows', None) 데이터프레임 전체를 확인하고 싶을 때 사용해보세요. 📌 그리고 원래 데이터프레임으로 되돌리고 싶을 때는 # 원래 데이터프레임으로 되돌리기 pd.options.display.max_rows = 60 pd.options.display.max_columns = 20 알고 있으면 훨씬 편리하게 데이터를 만질 수 있습니다.
[python] pandas의 loc, iloc 사용법 loc과 iloc을 사용하여 필요한 데이터를 추출해보겠습니다. 일단 둘의 차이는 아래 링크에 써두었습니다. 참고하실 분들은 참고해주세요! [python] pandas의 loc, iloc 차이 📌 df.loc[인덱스] : 인덱스 행 데이터 가져오기 📌 df.iloc[행 위치] : 행 위치에 해당하는 데이터 가져오기 그렇다면 인덱스와 행 번호는 무슨 차이일까요? sklearn의 아이리스 데이터를 이용하여 예 puddle-of-devstory.tistory.com 데이터 프레임에서 원하는 값 하나만을 추출하려면 어떤 방법이 있을까요? 📌 df.loc[인덱스 번호, 열 이름] 📌 df.iloc[행 위치, 열 위치] 아이리스 데이터로 예를 들어보겠습니다. loc과 iloc을 이용하여 빨간 박스의 값을 찾겠습니다...
[python] pandas의 loc, iloc 차이 📌 df.loc[인덱스] : 인덱스 행 데이터 가져오기 📌 df.iloc[행 위치] : 행 위치에 해당하는 데이터 가져오기 그렇다면 인덱스와 행 번호는 무슨 차이일까요? sklearn의 아이리스 데이터를 이용하여 예를 들어보겠습니다. 파이썬 기준으로 3번째 행을 삭제했을 경우 데이터 프레임은 다음과 같이 나타납니다. 빨간 박스는 '인덱스 번호'입니다. 📌 인덱스는 데이터에 고유 값으로 정해지기 때문에 데이터를 삭제해도 바뀌지 않습니다. 하지만 행 번호 위치 값에 따라 바뀝니다. 즉, 인덱스 번호는 여전히 (0,1,2,4,5) 이지만 행 번호는 (0,1,2,3,4) 입니다. loc을 이용하여 3번을 추출해보면 어떻게 나올까요? df_iris.loc[3] KeyError가 나타났습니다. 3번 인덱스가 없기 ..
[python] selenium으로 네이버 기사 스크래핑 '토트넘'을 네이버 뉴스에서 검색하여 5페이지를 selenium으로 스크래핑하겠습니다. 스크래핑할 것들은 기사 제목, 기사 미리보기 내용, 기사 이미지 입니다. 📌 설치 모듈 pip install selenium 수집 로직은 beautifulsoup4로 스크래핑 했던 방식과 같습니다! 아래 링크는 자세한 과정이 설명 되어 있습니다. 참고하실 분들은 참고해주세요 [python] beautifulsoup 네이버 기사 크롤링 '토트넘'을 네이버 뉴스에서 검색하여 5페이지를 beautifulsoup으로 크롤링하겠습니다. 크롤링할 것들은 기사 제목, 기사 미리보기 내용, 기사 이미지 입니다. 📌 설치 모듈 pip install beautifulsoup4 pip puddle-of-devstory.tistory.co..
[python] beautifulsoup 네이버 기사 스크래핑 '토트넘'을 네이버 뉴스에서 검색하여 5페이지를 beautifulsoup으로 스크래핑하겠습니다. 스크래핑할 것들은 기사 제목, 기사 미리보기 내용, 기사 이미지 입니다. 📌 설치 모듈 pip install beautifulsoup4 pip install requests 먼저 beautifulsoup으로 원활하게 크롤링을 하기 위해서는 tag와 class를 구분할 줄 아는 것이 좋습니다. 참고하실 분들은 참고하세요!! [python] 웹페이지 크롤링 태그, 클래스, 아이디 크롤링을 할 때 가장 기본적으로 알아야할 것은 태그, 클래스, 아이디를 구분하는 것입니다. 크롤링하고자 하는 웹 페이지에 들어갑니다. 저는 네이버 뉴스에서 '토트넘'을 검색하여 제목, 내용, puddle-of-devstory.tistor..