Pengenalan Web Scraping dengan Python



Sebagai data scientist, sering kali kita diperlukan untuk mengumpulkan data dari internet. Dan tidak semua data itu dengan format yang sudah matang untuk diolah (format csv atau xls atau sql). Bisa dan sering terjadi data tersedia dalam format html dalam sebuah web.

Untuk mengumpulkan data dari web, sering disebut webscraping. Python dengan bantuan library selenium dan beautifulsoup dapat melakukan tugas ini dengan cukup mudah.

Modul yang dibutuhkan:
  • selenium (gunakan pip untuk install: pip install selenium)
  • beautifulsoup (gunakan pip untuk install: pip install beautifulsoup4 )
  • ChromeDriver (download chromedriver disini)
Berikut contoh penggunaan ketiga modul diatas, pada contoh ini belum melakukan web scraping tetapi lebih ke contoh penggunaan ChromeDriver dan Selenium untuk pergi ke halaman google.com, menekan tombol I'm Feeling Lucky kemudian melakukan Print Screen.

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import os

chrome_options = Options()
chrome_options.add_argument("--headless")
chrome_options.add_argument("--window-size=1920x1080")
chrome_driver = os.getcwd() +"\\chromedriver.exe"

# go to Google and click the I'm Feeling Lucky button
driver = webdriver.Chrome(chrome_options=chrome_options, executable_path=chrome_driver)
driver.get("https://www.google.com")
lucky_button = driver.find_element_by_css_selector("[name=btnI]")
lucky_button.click()

# capture the screen
driver.get_screenshot_as_file("capture.png")
driver.exit()
Pengenalan Web Scraping dengan Python Pengenalan Web Scraping dengan Python Reviewed by noname needed on May 26, 2018 Rating: 5

No comments:

Powered by Blogger.