Sebagai data scientist, sering kali kita diperlukan untuk mengumpulkan data dari internet. Dan tidak semua data itu dengan format yang sudah matang untuk diolah (format csv atau xls atau sql). Bisa dan sering terjadi data tersedia dalam format html dalam sebuah web.
Untuk mengumpulkan data dari web, sering disebut webscraping. Python dengan bantuan library selenium dan beautifulsoup dapat melakukan tugas ini dengan cukup mudah.
Modul yang dibutuhkan:
- selenium (gunakan pip untuk install: pip install selenium)
- beautifulsoup (gunakan pip untuk install: pip install beautifulsoup4 )
- ChromeDriver (download chromedriver disini)
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import os
chrome_options = Options()
chrome_options.add_argument("--headless")
chrome_options.add_argument("--window-size=1920x1080")
chrome_driver = os.getcwd() +"\\chromedriver.exe"
# go to Google and click the I'm Feeling Lucky button
driver = webdriver.Chrome(chrome_options=chrome_options, executable_path=chrome_driver)
driver.get("https://www.google.com")
lucky_button = driver.find_element_by_css_selector("[name=btnI]")
lucky_button.click()
# capture the screen
driver.get_screenshot_as_file("capture.png")
driver.exit()
Pengenalan Web Scraping dengan Python
Reviewed by noname needed
on
May 26, 2018
Rating:
No comments: