본문 바로가기

전체 글262

네이버 서브링크(Sublinks)란? https://datapia.kr/sitemap.xml 서브링크는 웹사이트의 구조를 자동으로 분석하여, 사용자가 원하는 정보를 쉽게 탐색할 수 있도록 네이버 검색 결과 중 일부 설명문 위에 링크들로 표시되는 부분을 말합니다. ​ 네이버의 서브링크는 자동화되어 있으며, 웹 표준에 맞게 최적화가 잘되어 있는 웹사이트는 검색 로봇이 웹사이트 구조를 분석하기 좋은 바탕이 됩니다. 검색 로봇이 사이트의 구조를 잘 이해하기 위해서는 아래와 같은 사항들을 점검해 주셔야 합니다. 1. 웹 표준 준수 1) javascript 로 된 link 사용을 피해주세요. 2) HTML 링크의 앵커 텍스트를 꼭 넣어주세요. (좋은 앵커텍스트는 검색엔진에게 링크에 대한 맥락을 알려줍니다.) 3) HTML 이미지를 사용하실 때에도 이미.. 2021. 6. 27.
네이버 웹마스터 도구에 사이트맵(Sitemap) 등록 방법 사이트맵이란 무엇인지 알아보고, 사이트맵을 생성해주는 사이트와 프로그램을 소개드리겠습니다. 사이트나 블로그를 운영한다면, 사이트맵과 RSS 개념에 대해서 잘 알아두시면 신세계를 경험할 수 있습니다. 분량에 비해 이해가 쉬운 글이니, 이 글과 밑의 참고글도 함께 읽어봐 주세요. (2020.5.10 추가내용) 드디어 티스토리에서 자체적으로 사이트맵을 만들어줍니다. URL주소에 https://maternalgradndfather.tistory.com/sitemap.xml 과 같이 입력해보시면 확인할 수 있어요. 직접 사이트맵을 만들 필요 없이, 티스토리에서 제공해주는 sitemap을 사용하면 됩니다. ​ # 참고글 1. 티스토리 사이트맵 만들기 : 사이트맵 생성 사이트 및 생성 프로그램 소개 (현재 글) 2... 2021. 6. 27.
크롤링) 접속 차단되었을때 User-Agent지정(header) 뭐야? 너 컴퓨터야? 그럼 들어오지마 !!! ​ ​ 파이썬 크롤링을 진행하시다가, 이상하게... 아무 이유없이 진행이 안될 때가 있습니다. 분명 적혀있는데로 진행을 했는데.. 특별한 오류 메세지는 없는데... 내가 원하는 정보가 찾아지질 않을때... ​ 그럴때는 단계별로 print() 를 해서 찾아봐야 하죠 ㅠ ​ 주로 발생하는 경우 중 하나로, 서버에서 제대로된 html 정보를 주지 않을때 해결하는 방법을 알려드릴까 합니다. ​ 네** 크롤링을 진행할때 자주 나오는 오류이기도 하네요 ㅎ import requests url = '크롤링하고싶은주소' html = requests.get(url).text 위 처럼 해당 사이트에 접속했는데 별다른 오류 메세지가 나오지 않아요.. 그런데 BeautifulSoup.. 2021. 6. 27.
크롤링(crawling) - robots.txt와 주의점 크롤러를 만들기 전 알아야 할 사항 웹페이지의 내용을 가져 오는 것을 크롤링(Crawling) 또는 스크래핑(Scraping)이라고 합니다. 가져와야 할 페이지들이 많은 경우, 구글이나 네이버, 다음과 같은 검색 엔진 사이트들은 검색 속도를 높이기 위해 robot 이라는 프로그램을 만들어서 자동으로 웹 페이지들을 크롤링하는 방법을 사용합니다. 그런데 개인 정보가 들어있는 사이트들은 크롤링이 안 되도록 막고 싶을 수 있습니다. 그래서 무분별한 크롤링을 막고 제어하기 위해 1994년 6월에 로봇 배제 규약이 만들어졌습니다. 말 그대로 로봇이 수집을 못하게 막을 목적으로 만들어졌는데 로봇의 접근 관련 내용(크롤링 허가/불허의 여부)을 robots.txt라는 파일에 적어두는 방법입니다. 만약 크롤링하는 로봇 프.. 2021. 6. 27.
JLPT 語彙 241 さあ、元気を出して、今度こそ、優勝してみせ( )。 3 1)るでしょうか 2)ましょうか 3)ようではないか 4)るべきでしょうか 答案:3 ​ 242 日本では、いいことが重なって起きると、「盆と正月がいっしょにやってきた( )」と言う。 2 1)とみたいだ 2)かのようだ 3)といえるだろう 4)かとらしい 答案:2 ​ 243 この病気は感染する()があるので、すぐ隔離してください。 2 1)ため 2)おそれ 3)わけ 4)もの 答案:2 ​ 244 彼のほうが悪いんだから、きみが謝る()。 2 1)ことだ 2)ことはない 3)ことにした 4)こともある 答案:2 ​ 245 用事があって電話()、留守だった。 3 1)するところ 2)しているところ 3)したところ 4)しようところ 答案:3 ​ 246 先生が言った()勉強すれば、能力試験に合格できますよ。 2 ​ 1.. 2021. 6. 27.
本当に若者の間でコロナの人数が急激に増えているのか検証した話 はじめに *この記事はコロナウィルスに対する政府や自治体の対応や、特定のプロパガンダを流すための記事ではありません。 私は東京都に住んでいるのですが、連日コロナの感染者数が増えていると報道がなされています。最近では連日200人超えとの報道で若い人が大半を占めているとの報道です。 ただ、観測範囲で若い人ばかりコロナにかかったとは聞かず、一応データサイエンティストの端くれとして、これは開示されたデータを元にちゃんと調べるべきだと思った次第です。 まぁ、pandasの練習問題としても適切かなぁと。。今回は年代ごとにどのようにコロナの新規感染者数が推移しているか調べることにします。 データソース データはこちらから落とせます。 https://catalog.data.metro.tokyo.lg.jp/dataset/t000010d0000000068/resource/c2d997db-.. 2021. 6. 27.