Cào dữ liệu
I. Tổng quan
"Crawl data" là một quá trình tự động lấy thông tin từ các trang web khác nhau trên Internet. Quá trình này còn được gọi là web scraping và thường được sử dụng để thu thập dữ liệu cho nhiều mục đích khác nhau, ví dụ: nghiên cứu thị trường, phân tích dữ liệu, hoặc xây dựng ứng dụng dựa trên dữ liệu.
Việc sử dụng ứng dụng genlogin để cào dữ liệu mang lại hiệu quả cho quá trình thu thập thông tin từ các nguồn khác nhau trên Internet. Với Genlogin, chỉ cần một profile là bạn đã có thể thu thập dữ liệu với bất kỳ trang web nào (ebay, amazon, taobao..) với tốc độ thu thập cao. Bên cạnh đó, Genlogin đã có sẵn các script thu thập dữ liệu của các trang phổ biến, hãy lên https://market.genlogin.com/ để tìm cho mình kịch bản phù hợp nhất.
II. Lưu ý tạo và sử dụng
Sẽ có những website bị giới hạn lượt load trang hay tương tác. Bạn nên chuẩn bị sẵn profile với proxy khác để tránh bị gián đoạn thu thập.
Chỉ cần chạy 1 profile là có thể thu thập được data (có thể chạy ở mục automation > editor)
Tạo 1 file excel để ghi lại data
Hãy tạo biến x để ghi data tương ứng x=1 là lấy data 1, sau đó set variables x+1 để lấy data tiếp theo
Muốn lấy link của 1 data thì nên dùng get attribute lấy href, còn thông tin khác nên dùng get text
Với các data khi get text mà chưa lọc được data theo ý, nên dùng chatgpt tạo code javascript để tách lấy phần data mong muốn.
Dùng spreadsheet để ghi ra data cho excel, tạo thêm biến y=2 và set variables y + 1 để ghi biến ra theo từng ô
Dùng loop để lặp lại các thao tác trên, hoặc kéo dây xanh trực tiếp từ node cuối về node dầu tiên.
Last updated