웹사이트를 크롤링하는 방법에는 여러 가지가 있다. 오늘은 그중에서 BeautifulSoup을 이용해 원하는 웹사이트 정보를 크롤링하는 방법에 대해 알아보자. BeautifulSoup 라이브러리 뷰티풀 스프는 HTML과 XML 문서들의 구문을 분석할 수 있는 파이썬의 패키지이다. 뷰티풀 수프는 2004년 레너드 리처드슨에 의해 개발되었으며 html로부터 데이터를 추출하기 위해 사용할 수 있는 파스 트리를 만드는데 매우 유용한 오픈소스다. HTML 구성요소 확인 웹사이트를 크롤링 하기위해 네이버 뉴스페이지 중 생활/문화 기사페이지에 접속했다. 소스보기를 통해 해당문서의 구문을 파악하고 원하는 데이터를 추출해 보았다. 먼저 f12를 누르고 inspector를 통해 원하는 html 요소를 눌러준다.(단축키는 C..
url에서 도메인과 패스를 분리해야 하는 과제가 생겼다. 어떻게 할지 고민하다가 pattern 클래스를 이용해 구해보기로 했다. 일단 분리하기 전에 url의 구조부터 알아보자. https://letsplaycoding.tistory.com/manage?utm_source=tistory#nice 프로토콜(protocal) : https 원활한 통신을 위해 모두가 지키기로한 약속이다. 도메인(domain) : letsplaycoding.tistory.com 임의로 지정한 사이트의 이름이다. 패스(path) : /manage 파일의 경로를 의미한다.컴퓨터로 따지면 폴더내에 폴더를 만들수 있는 개념이다. 파라미터(parameter) : ?utm_source=tistory 파라미터는 보통 쿼리 스트링으로도 불리며..
문장에서 단어를 개수가 몇개인지를 판단해야 하는 일이 생겼다. 어떻게 할까 고민하다가 생각해 낸건 StringTokenizer. StringTokenizer StringTokenizer는 문자열을 내가 지정한 문자열로 구분시켜주는 클래스이다. 그렇게 구분한 문자열은 토큰(token)이라고 지칭하며 사용하기 위해서는 java.util.StringTokenize를 import 해야한다. 응용 String text = "노는 개발자의 정리 노트"; StringTokenizer stringTokenizer = new StringTokenizer(text); int tokensCount = stringTokenizer.countTokens(); System.out.println("tokensCount : "+to..
오늘은 파이썬을 이용해 프로그램을 한번 짜보았다. 어떤 것을 해볼까 하다가 업비트에서 제공하는 코인의 시세를 조회에서 텔레그램으로 알람을 받아보기로 했다. 비주얼 스튜디오 코드 설치 일단 간단하게 파이썬을 해볼 수 있는 비주얼 스튜디오 코드를 설치했다. 비주얼 스튜디오 코드는 pc에서 간단히 실행할 수 있는 가볍지만 강력한 소스 코드 편집기이다. 왼쪽 메뉴중 사각도형 모양의 extensions을 클릭하고 python을 검색해 설치했다. 그리고 파일-[New File]을 눌러 원하는 이름의 py파일을 하나 만들어줬다. 업비트 시세 정보로 비트 코인 상승량 구하기 url = "https://api.upbit.com/v1/market/all?isDetails=true" resp = requests.get(ur..
현재 쓰고 있는 로그파일을 2개로 분리해야 한다는 지령이 떨어졌다. 현재 우리 회사에서 쓰고 있는 logging framework는 logback. logback은 log4j의 후속버전으로 logging 대표적인 라이브러리이다. 일단 logback의 구조를 살펴보면, logback은 로그의 주체인 logger와 어디에 출력할지 기술하는 appender 그리고 어떻게 출력할지를 기술하는 encoder로 나뉜다. 설정은 간단히 xml파일로 가능하며 적은 메모리를 점유하고 빠른 이행이 특징이 있다. pom.xml 설정 일단 logback을 쓰려면 pom.xml에 라이브러리를 추가해야 한다. org.slf4j slf4j-api ${slf4j.version} ch.qos.logback logback-classic..
체크박스와 샐렉트박스를 함께 컨트롤해야 할 과제가 생겼다. 무조건 체크박스는 한 가지만 선택이 되야만 하고 체크박스를 클릭하면 셀렉트박스도 같은 값이 선택이 돼야 한다. 반대로 셀렉트박스를 선택할 경우에도 해당되는 체크박스의 값이 체크가 돼야만 한다. HTML 타입A 타입B 타입C 선택하세요. 타입A 타입B 타입C 간단하게 name이 chkArcType인 체크박스 3개와 name이 articleType인 셀렉트박스 1개를 만들어줬다. javascript $("select[name='articleType']").change(function() { console.log('select[name=articleType].change'); var type = $(this).val(); console.log('typ..